여러 PDF 파일에서 키워드 검색

여러 PDF 파일에서 키워드 검색

pdftotext 명령을 사용하여 특정 키워드에 대한 여러 PDF 파일을 검색하고 싶습니다. 일반적으로 다음 명령을 사용하여 단일 PDF 파일 내에서 검색할 수 있습니다.

pdftotext file.pdf - | grep keyword

그런데 여러 PDF 파일을 검색하려면 어떻게 해야 할까요?

답변1

쉘 루프를 사용할 수 있습니다.

for file in *pdf; do pdftotext "$file" - | grep keyword; done

또는 패턴이 발견된 PDF의 이름을 인쇄하려면:

for file in *pdf; do 
    echo "-----------$file----------"
    pdftotext "$file" - | grep keyword
done

답변2

이를 수행할 수 있는 도구가 있습니다:pdfgrep. 모든 좋은 배포판에서 사용할 수 있습니다.

pdfgrep keyword *.pdf

1여기서는 "good"을 "pdfgrep 포함"으로 정의합니다. 여기에는 데비안과 페도라가 포함됩니다.

답변3

한 가지 방법은 다음과 같습니다.

(pdftotext file1.pdf -; pdftotext file2.pdf -;) | grep keyword

...대괄호 안에 다른 파일을 계속 추가할 수 있습니다. grep이 "적중"하는 파일을 추적할 수는 없지만 일치하는 파일을 찾을 때까지 파일의 파티션을 반복적으로 grep할 수 있습니다.

관련 정보