.pdf 를 사용하여 PDF 파일을 텍스트 파일로 변환하려고 합니다 textutil
. 변환할 수 있거나 변환할 수 없는 특별한 유형의 PDF가 있는지 모르겠습니다. 변환하려는 파일은 검색 가능한 형식인데, 이것이 최소 요구 사항이라고 생각합니다. 파일을 변환할 때 텍스트 파일 출력이 출력된 후 왜곡됩니다. 이것은 내 코드입니다.
textutil -convert txt example.pdf
내가 잘못하고 있는 부분을 판단하는 데 도움이 될 경우를 대비해 첫 번째 줄의 내용은 다음과 같습니다.
%PDF-1.3
%ƒÂÚÂÎßÛ†–ƒ∆
4 0 obj
<< /Length 5 0 R /Filter /FlateDecode >>
stream
xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ`„Ô‰W,J¢‘íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄
4>~˘œ?Ã_ÕøÕ”W_≠˘Ù’·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”‘aH|\1OØØù
±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=|
¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿’UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ
나는 이것이 내 전문 분야가 아닌 일부 코딩 기능과 관련이 있다고 생각하므로 도움을 주시면 대단히 감사하겠습니다!
답변1
인용하다TEXTUTIL(1) 매뉴얼 페이지 것 같다PDF이 유틸리티로 관리되지 않는 형식 사이:
fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive
Linux/Unix에 스크립트 가능한 제품을 설치합니다.XPPDF/pdftotext 일부 의견에서 제안한 것처럼 유효한 솔루션일 수 있습니다.
OS X 사용자의 경우 기본 OS X 자동화를 통해 PDF에서 텍스트를 추출할 수 있습니다.( ..바라보다이 답변또는이 튜토리얼의 마지막 4') 다음을 통해 자동화된 작업 흐름을 "스크립팅"할 수 있다고 생각하세요.CLI 자동 명령