명령줄을 통해 강조 표시된 텍스트가 포함된 PDF 페이지를 식별하는 방법

명령줄을 통해 강조 표시된 텍스트가 포함된 PDF 페이지를 식별하는 방법

PDF 문서의 1, 3, 14페이지에 강조 표시된 텍스트가 포함되어 있다고 가정합니다. 강조 표시된 텍스트가 포함된 페이지의 페이지 수를 보고할 수 있는 Linux 명령줄 도구(또는 출력을 서로 파이프할 수 있는 도구 집합)가 있습니까? 그것은 다음과 같습니다:

$ sought_tool --list-pages-with-highlights doc.pdf
1 3 14

답변1

멋진 작은 Python 라이브러리PDF 주석필요한 기능을 완벽하게 보유하고 있습니다.

$ pdfannots doc.pdf

grep와 함께 사용 하면 awk원하는 결과를 얻을 수 있습니다.

$ pdfannots doc.pdf | \
  grep "* Page #" | \
  awk -F':' '{print $1}' | \
  awk -F'#' '{print $2}' | \
  sort -u -n | \
  paste -s -d ' '
1 3 14

관련 정보