tesseract: OCRed PDF에서 글꼴 출력을 변경할 수 있습니까?

tesseract: OCRed PDF에서 글꼴 출력을 변경할 수 있습니까?

후속 조치PDF 파일을 OCR하고 PDF에 저장된 텍스트를 얻는 방법은 무엇입니까?OCRed pdf 페이지를 성공적으로 만들었습니다.

하지만 Evince에서는 이러한 문자가 표시되지 않습니다. 즉, 문자를 볼 수는 없지만 문자를 선택하고 복사하여 다른 곳에 성공적으로 붙여넣을 수 있습니다. 이것은 Evince의 잘못이 아닌 것 같습니다.https://bugzilla.redhat.com/show_bug.cgi?id=1364201

pdfsandwich를 사용하여 PDF 페이지의 OCR을 시작하면 tesseract가 페이지를 생성합니다.

사용 가능한 글리프가 없는 글꼴이 포함되어 있습니다(GlyphLessFont라고 명명됨). .notdef 및 .null 대체 항목(사각형)만 있습니다. 캐릭터에 글리프가 없으면 Evince는 .notdef 글리프를 사용합니다. Okular가 텍스트를 강조하는 이유는 evince와 같은 일반 텍스트가 아니라 이미지 내의 텍스트를 강조하기 때문입니다.

pdftotext는 문자를 식별합니다.

이제 질문은 tesseract에 다른 글꼴을 사용하도록 지시할 수 있습니까?

답변1

소스 코드의 이 부분을 원하는 대로 사용자 정의하고 여기에서 글꼴을 변경할 수 있습니다. 변경한 후에는 소스에서 tesseract를 다시 빌드해야 합니다.

Tesseract Github Renderer.h

관련 정보