PDF 문서의 1, 3, 14페이지에 강조 표시된 텍스트가 포함되어 있다고 가정합니다. 강조 표시된 텍스트가 포함된 페이지의 페이지 수를 보고할 수 있는 Linux 명령줄 도구(또는 출력을 서로 파이프할 수 있는 도구 집합)가 있습니까? 그것은 다음과 같습니다:
$ sought_tool --list-pages-with-highlights doc.pdf
1 3 14
답변1
멋진 작은 Python 라이브러리PDF 주석필요한 기능을 완벽하게 보유하고 있습니다.
$ pdfannots doc.pdf
grep
와 함께 사용 하면 awk
원하는 결과를 얻을 수 있습니다.
$ pdfannots doc.pdf | \
grep "* Page #" | \
awk -F':' '{print $1}' | \
awk -F'#' '{print $2}' | \
sort -u -n | \
paste -s -d ' '
1 3 14