grep 검색 결과 수정

grep 검색 결과 수정

keyword일반적으로 다음 명령을 사용하여 pdf 파일 목록에서 a를 검색 할 수 있습니다 .

for file in *pdf; do 
pdftotext "$file" - | grep keyword
done

이제 검색 결과에서 명령을 사용하지 않고 수동으로 파일의 제목 이름과 작성자/작성자를 찾으려면 pdfinfo어떻게 해야 합니까?

답변1

PDF 파일을 변환하면 pdftotext메타정보가 손실됩니다. 그러나 pdftotext흥미로운 옵션이 있습니다.

-htmlmeta
       Generate a simple HTML file, including the meta information.  This simply wraps the 
       text in <pre> and </pre> and  prepends the meta headers.

이제 메타 정보를 grep할 수도 있습니다.

pdftotext -htmlmeta file.pdf - | \
  grep -oP '.*keyword.*|<title>\K.*(?=</title>)|<meta name="Author" content="\K.*(?="/>)'

keywordPDF 파일 내에서 검색됩니다. 그런 다음 |문서에서 문서 제목과 작성자라는 2개의 추가 검색 패턴이 추출됩니다. 결과는 다음과 같습니다.

title of the document
author of the document
search pattern

또는 perl일치 후 텍스트 형식을 지정하는 를 사용합니다. 이는 다음과 같습니다 grep.

pdftotext -htmlmeta file.pdf - | perl -ne '/keyword/ && print "Pattern: $_"; /<title>(.*)<\/title>/ && print "Title: $1\n"; /<meta name="Author" content="([^"]+)/ && print "Author: $1\n"'

출력은 다음과 같습니다.

Title: title of the document
Author: author of the document
Pattern: bla bla search pattern bla bla

관련 정보