PDF 파일과 OCRed 텍스트의 hocr 형식 html 파일이 주어지면 새 pdf 파일이 텍스트를 검색할 수 있도록 OCRed 텍스트를 pdf 파일에 병합할 수 있습니까?
예를 들어, 검색 가능한 텍스트가 없는 약 5MB의 스캔된 PDF가 있습니다. 나는 그것을 djvu 파일로 변환한 다음 단일 페이지 tiff 파일로 분할한 다음 .tiff 파일을 사용하여 페이지의 일부 hocr 파일을 tiff 파일과 병합했습니다
pdfbeads
. 이제 내 새 PDF 파일은 23MB입니다. 그래서 hocr 파일을 원본 PDF 파일에 직접 병합하여 23MB보다 훨씬 작은 크기를 얻을 수 있는지 궁금합니다.반대로 OCR 텍스트가 포함된 PDF 파일이 있는 경우 OCR 텍스트를 hocr 형식의 html 파일로 내보낼 수 있나요?
PDF 파일로 인쇄하지 않고 PDF 파일에서 OCR된 텍스트를 제거할 수도 있습니까?
hocr 형식에 국한되지 않는 경우 위에서 언급한 병합 및/또는 추출을 수행하는 절차가 있는 다른 형식이 있습니까?
감사해요.
답변1
- 아마도 그렇습니다. Hocr2pdf 도구(ExactImage의)를 사용할 수 있지만 확인을 시도하지는 않았습니다.
참고 사항: 검색 가능한 PDF를 만들고 싶다면 gscan2pdf 등과 같이 PDF 입력을 허용하는 더 간단한 GUI 프로그램을 사용할 수 있습니다. 최신 버전의 tesseract를 사용하여 검색 가능한 PDF를 만들 수도 있습니다.
- html 파일에서는 xpdf 툴킷의 pdf2html 내보내기를 사용할 수 있지만 결과가 그다지 만족스럽지 않을 것이며 hocr 형식이 아닐 것입니다.
마지막 질문에 대해서는 잘 모르겠습니다. 하지만 텍스트가 OCR 처리된 경우 확실히 더 쉽게 삭제할 수 있습니다. 참고로 djvudigital을 사용하여 pdf에서 HQ djvu를 만들면 djvused를 사용하여 djvulibre에서 텍스트를 쉽게 제거할 수 있습니다.
PDF 파일 편집에 적합한 LibreDraw를 언급하는 것을 잊었습니다. 여기에는 OCRed PDF가 없으므로 그것이 무엇을 제공할지 모르지만 시도해 볼 가치가 있습니다.