![PDF 파일의 숨겨진 텍스트 레이어가 OCR에서 나온 것인지 어떻게 알 수 있나요? [폐쇄]](https://linux55.com/image/34660/PDF%20%ED%8C%8C%EC%9D%BC%EC%9D%98%20%EC%88%A8%EA%B2%A8%EC%A7%84%20%ED%85%8D%EC%8A%A4%ED%8A%B8%20%EB%A0%88%EC%9D%B4%EC%96%B4%EA%B0%80%20OCR%EC%97%90%EC%84%9C%20%EB%82%98%EC%98%A8%20%EA%B2%83%EC%9D%B8%EC%A7%80%20%EC%96%B4%EB%96%BB%EA%B2%8C%20%EC%95%8C%20%EC%88%98%20%EC%9E%88%EB%82%98%EC%9A%94%3F%20%5B%ED%8F%90%EC%87%84%5D.png)
매우 정확한 텍스트(인식률 및 텍스트와 이미지의 정렬 측면에서 모두)가 포함된 일부 OCRed pdf 파일을 보았습니다.
PDF 파일의 숨겨진 텍스트 레이어가 OCR에서 나온 것인지 확인하는 데 도움이 되는 Unix/Linux 도구는 무엇입니까?
답변1
파일의 유일한 이미지는 앞표지와 뒷표지이며, 나머지는 스캔한 이미지 뒤에 숨겨지지 않은 일반 텍스트입니다.
이것이 OCR이 아니라 텍스트를 조판한다는 또 다른 징후는 특수 글꼴 문자가 해당 글꼴과 예를 들어 이미지에서 일반적으로 혼동되는 텍스트 및 슈퍼세트 및 OCR로 조판된다는 사실에도 불구하고 특수 글꼴 문자를 올바르게 선택할 수 있다는 것입니다.
또한 pdfinfo
파일이 DVIPSONE으로 생성되었음을 나타냅니다. 즉, (La)TeX 파일 -> DVI -> PS였다가 Windows용 Distiller 4.05를 통해 PDF 파일로 변환되었습니다. 스캔으로 구성된 PDF 파일의 작성자가 DVIPSONE을 가질 가능성은 거의 없습니다.