읽을 수 있는 인코딩으로 텍스트를 출력하려면 "pdftotext"를 어떻게 얻나요?

Question 1

붙여넣은 텍스트에서 "first"의 "fi"와 "affinity"의 "ffi"는 합자(여러 문자가 하나의 문자 모양으로 결합됨)입니다. 아마도 pdftotext각 합자를 단일 문자로 인쇄하는 것은 텍스트를 읽는 데 사용하는 도구에서 지원되지 않습니다.

로서슈퍼유저 문제제안 사항은 다음과 같습니다.

pdftotext -enc ASCII7 input.pdf output.txt

이렇게 하면 pdftotext합자를 그대로 인쇄하여 ASCII 문자로 확장하는 것을 방지할 수 있습니다.

Answer

붙여넣은 텍스트에서 "first"의 "fi"와 "affinity"의 "ffi"는 합자(여러 문자가 하나의 문자 모양으로 결합됨)입니다. 아마도 pdftotext각 합자를 단일 문자로 인쇄하는 것은 텍스트를 읽는 데 사용하는 도구에서 지원되지 않습니다.

로서슈퍼유저 문제제안 사항은 다음과 같습니다.

pdftotext -enc ASCII7 input.pdf output.txt

이렇게 하면 pdftotext합자를 그대로 인쇄하여 ASCII 문자로 확장하는 것을 방지할 수 있습니다.

Question 2

이미 Python에서 PDF를 텍스트로 변환했으므로 간단한 Python 명령을 사용하여 PDF 텍스트를 후처리했습니다.

# eﬃcient -> 
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)

Answer

이미 Python에서 PDF를 텍스트로 변환했으므로 간단한 Python 명령을 사용하여 PDF 텍스트를 후처리했습니다.

# eﬃcient -> 
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)

관련 정보