.txt 파일을 사용하여 PDF 파일을 txt 파일로 변환합니다 pdftotext
. 예를 들어, "이것은...의 기능적 상관관계에 대한 첫 번째 연구입니다."라는 문장이 있는데, GATE를 통해 이 문장을 처리할 때 "first"의 f를 참고하여 "first"를 " ï�rst”로 변환합니다. . 또한, "에피솜으로 형질감염된 HEK293EBNA 세포로부터 단백질을 분리하고 a"에서 친화성 크로마토그래피로 정제했습니다. "f처럼 보이지만 f가 아닌 문자를 포함하는 일부 단어도 왜곡되었습니다."에 의해 에피솜으로 형질감염된 HEK293EBNA 세포로부터 단백질을 분리하고 정제했습니다. "a"에 대한 친화성 크로마토그래피.
pdftotext
읽을 수 있는 인코딩으로 텍스트를 출력하는 방법은 무엇입니까 ?
답변1
붙여넣은 텍스트에서 "first"의 "fi"와 "affinity"의 "ffi"는 합자(여러 문자가 하나의 문자 모양으로 결합됨)입니다. 아마도 pdftotext
각 합자를 단일 문자로 인쇄하는 것은 텍스트를 읽는 데 사용하는 도구에서 지원되지 않습니다.
로서슈퍼유저 문제제안 사항은 다음과 같습니다.
pdftotext -enc ASCII7 input.pdf output.txt
이렇게 하면 pdftotext
합자를 그대로 인쇄하여 ASCII 문자로 확장하는 것을 방지할 수 있습니다.
답변2
이미 Python에서 PDF를 텍스트로 변환했으므로 간단한 Python 명령을 사용하여 PDF 텍스트를 후처리했습니다.
# efficient ->
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)