pdftotext 명령을 사용하여 특정 키워드에 대한 여러 PDF 파일을 검색하고 싶습니다. 일반적으로 다음 명령을 사용하여 단일 PDF 파일 내에서 검색할 수 있습니다.
pdftotext file.pdf - | grep keyword
그런데 여러 PDF 파일을 검색하려면 어떻게 해야 할까요?
답변1
쉘 루프를 사용할 수 있습니다.
for file in *pdf; do pdftotext "$file" - | grep keyword; done
또는 패턴이 발견된 PDF의 이름을 인쇄하려면:
for file in *pdf; do
echo "-----------$file----------"
pdftotext "$file" - | grep keyword
done
답변2
이를 수행할 수 있는 도구가 있습니다:pdfgrep. 모든 좋은 배포판에서 사용할 수 있습니다.
pdfgrep keyword *.pdf
1여기서는 "good"을 "pdfgrep 포함"으로 정의합니다. 여기에는 데비안과 페도라가 포함됩니다.
답변3
한 가지 방법은 다음과 같습니다.
(pdftotext file1.pdf -; pdftotext file2.pdf -;) | grep keyword
...대괄호 안에 다른 파일을 계속 추가할 수 있습니다. grep이 "적중"하는 파일을 추적할 수는 없지만 일치하는 파일을 찾을 때까지 파일의 파티션을 반복적으로 grep할 수 있습니다.