매우 정확한 텍스트(인식률 및 텍스트와 이미지의 정렬 측면에서 모두)가 포함된 일부 OCRed pdf 파일을 보았습니다.
PDF 파일의 숨겨진 텍스트 레이어가 OCR에서 나온 것인지 확인하는 데 도움이 되는 Unix/Linux 도구는 무엇입니까?
답변1
파일의 유일한 이미지는 앞표지와 뒷표지이며, 나머지는 스캔한 이미지 뒤에 숨겨지지 않은 일반 텍스트입니다.
이것이 OCR이 아니라 텍스트를 조판한다는 또 다른 징후는 특수 글꼴 문자가 해당 글꼴과 예를 들어 이미지에서 일반적으로 혼동되는 텍스트 및 슈퍼세트 및 OCR로 조판된다는 사실에도 불구하고 특수 글꼴 문자를 올바르게 선택할 수 있다는 것입니다.
또한 pdfinfo
파일이 DVIPSONE으로 생성되었음을 나타냅니다. 즉, (La)TeX 파일 -> DVI -> PS였다가 Windows용 Distiller 4.05를 통해 PDF 파일로 변환되었습니다. 스캔으로 구성된 PDF 파일의 작성자가 DVIPSONE을 가질 가능성은 거의 없습니다.