Linux Shell을 사용하여 특정 키워드에 대한 PDF 파일을 검색하고 싶습니다. 이 작업을 수행하려면 grep 명령을 어떻게 사용합니까?
답변1
그렇지 않을 것입니다. PDF는 바이너리 형식이므로 먼저 텍스트로 변환해야 합니다. Grep은 데이터를 검색할 수 있지만 PDF 뷰어에서 열 때 문자열이 포함된 PDF가 실제로 원시 바이너리 데이터를 foo
포함한다고 가정할 이유가 없습니다 . foo
소스 코드에 작성되는 방식은 매우 다를 수 있습니다.
간단한 해결책은 설치 pdftotext
하고 사용하는 것입니다. 배포판 저장소에서 사용할 수 있어야 합니다. Debian 기반 시스템에서는 다음 명령을 사용하여 설치할 수 있습니다.
sudo apt-get install poppler-utils
그런 다음 다음을 사용하여 PDF 파일을 검색할 수 있습니다.
pdftotext foo.pdf - | grep keyword