PDF 파일이 이미지로 구성되어 있는지 감지

PDF 파일이 이미지로 구성되어 있는지 감지

OCR 처리를 위한 올바른 위치로 이동하기 위해 실제로 텍스트가 아닌 이미지인 많은 수의 PDF 파일을 전처리하려고 합니다.

문제는 PDF를 OCR하기 전에 PDF가 이미지 기반인지 감지하려고 시도했지만 지금까지는 성공하지 못했다는 것입니다. " pdffonts filename"를 사용하는 것이 올바른 방법으로 간주되지만 이미지만 있는 PDF에도 글꼴이 있습니다!

답변1

pdfimages -list filename.pdf

이 작업을 수행해야 합니다. 그러면 PDF 파일에 포함된 이미지 목록이 제공됩니다.

답변2

pdftotext를 설치하고 더 많은 출력 문자열을 생성하는지 확인할 수 있습니다.

for file_name in *.pdf; do
   if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done

Debian에서 이 유틸리티는 패키지에 있습니다 poppler-utils.

관련 정보