나는 다국어 PDF(히브리어/영어 사전)를 기계가 읽을 수 있도록 만들기 위해 다양한 프로그램을 사용해 왔습니다. QPDF(및 거의 모든 다른 프로그램)는 텍스트를 횡설수설로 렌더링합니다. --decode-level=all
아무런 효과도 없이 설정해버렸습니다 .
여기서 무엇이 잘못되었을 수 있습니까?
답변1
해당 PDF를 보지 않고서는 많은 것을 말할 수 없지만 다음은 몇 가지 기본 사항입니다.
PDF에는 개체가 포함되어 있으며, 그 중 일부에는 페이지에 문자 모양을 배치하는 Postscript의 단순화된 변형 스트림이 포함되어 있습니다. (텍스트 편집기에서 PDF를 열어 개체를 볼 수 있으며, 예를 들어 다음을 사용하여 스트림의 압축을 풀면 mutool
텍스트 편집기에서 스트림을 볼 수 있습니다.
이것을 원시 텍스트로 다시 변환하는 것은 정말 어렵습니다("기계 판독 가능"이라는 뜻이라고 가정합니다). 왜냐하면 그러한 시도는 렌더링 응용 프로그램이 어떻게 작동하는지에 대한 가정을 해야 하기 때문입니다. 렌더링 응용 프로그램이 원래 텍스트의 순서대로 문자 모양을 배치하는 경우 문자 모양을 문자에 다시 매핑한 다음 해당 순서대로 문자를 출력할 수 있습니다.
예를 들어 읽기 방향이 다른 두 가지 언어가 있기 때문에 렌더링 프로그램이 더 복잡한 작업을 수행하는 경우 이러한 시도는 실패합니다.
따라서 정말로 필요한 경우 PDF가 어떻게 작동하는지 자세히 살펴보고 이를 다시 텍스트로 변환하는 사용자 정의 프로그램을 작성해야 합니다.