PDF에서 hocr 파일을 추출하는 방법은 무엇입니까?

PDF에서 hocr 파일을 추출하는 방법은 무엇입니까?

다음을 통해 OCR 편집 PDF를 만들고 있습니다 tesseract.

tesseract input.tif out pdf

hocr하지만 파일 도 필요해요 txt. 최신 버전tesseract 이미 이 문제를 해결했습니다.하지만 컴파일이 필요 leptonica하고 동시에 tesseract, 별로 만족스럽지 않습니다.

텍스트 파일을 추출 하는 데 사용할 수 있지만 PDF에서 추출하는 방법을 pdftotext찾을 수 없는 것 같습니다 .hocr

답변1

다음 명령을 실행하여 pdf와 hocr을 모두 만들 수 있습니다.

tesseract input.tif out pdf hocr 

관련 정보