다음을 통해 OCR 편집 PDF를 만들고 있습니다 tesseract
.
tesseract input.tif out pdf
hocr
하지만 파일 도 필요해요 txt
. 최신 버전tesseract
이미 이 문제를 해결했습니다.하지만 컴파일이 필요 leptonica
하고 동시에 tesseract
, 별로 만족스럽지 않습니다.
텍스트 파일을 추출 하는 데 사용할 수 있지만 PDF에서 추출하는 방법을 pdftotext
찾을 수 없는 것 같습니다 .hocr
답변1
다음 명령을 실행하여 pdf와 hocr을 모두 만들 수 있습니다.
tesseract input.tif out pdf hocr