PDF 파일의 숨겨진 텍스트 레이어가 OCR에서 나온 것인지 어떻게 알 수 있나요? [폐쇄]

Question

파일의 유일한 이미지는 앞표지와 뒷표지이며, 나머지는 스캔한 이미지 뒤에 숨겨지지 않은 일반 텍스트입니다.

이것이 OCR이 아니라 텍스트를 조판한다는 또 다른 징후는 특수 글꼴 문자가 해당 글꼴과 예를 들어 이미지에서 일반적으로 혼동되는 텍스트 및 슈퍼세트 및 OCR로 조판된다는 사실에도 불구하고 특수 글꼴 문자를 올바르게 선택할 수 있다는 것입니다.

또한 pdfinfo파일이 DVIPSONE으로 생성되었음을 나타냅니다. 즉, (La)TeX 파일 -> DVI -> PS였다가 Windows용 Distiller 4.05를 통해 PDF 파일로 변환되었습니다. 스캔으로 구성된 PDF 파일의 작성자가 DVIPSONE을 가질 가능성은 거의 없습니다.

Answer 1

파일의 유일한 이미지는 앞표지와 뒷표지이며, 나머지는 스캔한 이미지 뒤에 숨겨지지 않은 일반 텍스트입니다.

이것이 OCR이 아니라 텍스트를 조판한다는 또 다른 징후는 특수 글꼴 문자가 해당 글꼴과 예를 들어 이미지에서 일반적으로 혼동되는 텍스트 및 슈퍼세트 및 OCR로 조판된다는 사실에도 불구하고 특수 글꼴 문자를 올바르게 선택할 수 있다는 것입니다.

또한 pdfinfo파일이 DVIPSONE으로 생성되었음을 나타냅니다. 즉, (La)TeX 파일 -> DVI -> PS였다가 Windows용 Distiller 4.05를 통해 PDF 파일로 변환되었습니다. 스캔으로 구성된 PDF 파일의 작성자가 DVIPSONE을 가질 가능성은 거의 없습니다.

PDF 파일의 숨겨진 텍스트 레이어가 OCR에서 나온 것인지 어떻게 알 수 있나요? [폐쇄]

답변1

관련 정보