keyword
일반적으로 다음 명령을 사용하여 pdf 파일 목록에서 a를 검색 할 수 있습니다 .
for file in *pdf; do
pdftotext "$file" - | grep keyword
done
이제 검색 결과에서 명령을 사용하지 않고 수동으로 파일의 제목 이름과 작성자/작성자를 찾으려면 pdfinfo
어떻게 해야 합니까?
답변1
PDF 파일을 변환하면 pdftotext
메타정보가 손실됩니다. 그러나 pdftotext
흥미로운 옵션이 있습니다.
-htmlmeta
Generate a simple HTML file, including the meta information. This simply wraps the
text in <pre> and </pre> and prepends the meta headers.
이제 메타 정보를 grep할 수도 있습니다.
pdftotext -htmlmeta file.pdf - | \
grep -oP '.*keyword.*|<title>\K.*(?=</title>)|<meta name="Author" content="\K.*(?="/>)'
keyword
PDF 파일 내에서 검색됩니다. 그런 다음 |
문서에서 문서 제목과 작성자라는 2개의 추가 검색 패턴이 추출됩니다. 결과는 다음과 같습니다.
title of the document
author of the document
search pattern
또는 perl
일치 후 텍스트 형식을 지정하는 를 사용합니다. 이는 다음과 같습니다 grep
.
pdftotext -htmlmeta file.pdf - | perl -ne '/keyword/ && print "Pattern: $_"; /<title>(.*)<\/title>/ && print "Title: $1\n"; /<meta name="Author" content="([^"]+)/ && print "Author: $1\n"'
출력은 다음과 같습니다.
Title: title of the document
Author: author of the document
Pattern: bla bla search pattern bla bla