OCR 처리를 위한 올바른 위치로 이동하기 위해 실제로 텍스트가 아닌 이미지인 많은 수의 PDF 파일을 전처리하려고 합니다.
문제는 PDF를 OCR하기 전에 PDF가 이미지 기반인지 감지하려고 시도했지만 지금까지는 성공하지 못했다는 것입니다. " pdffonts filename
"를 사용하는 것이 올바른 방법으로 간주되지만 이미지만 있는 PDF에도 글꼴이 있습니다!
답변1
pdfimages -list filename.pdf
이 작업을 수행해야 합니다. 그러면 PDF 파일에 포함된 이미지 목록이 제공됩니다.
답변2
pdftotext를 설치하고 더 많은 출력 문자열을 생성하는지 확인할 수 있습니다.
for file_name in *.pdf; do
if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done
Debian에서 이 유틸리티는 패키지에 있습니다 poppler-utils
.