OCR을 사용하여 제대로 스캔되지 않은 공개 도메인 도서를 읽기 쉽게 만듭니다.

2024-6-11 • tag-icon

나는 아주 오래된 공개 도서의 소프트 카피를 얻었습니다.

그림은 충분히 선명하지만 텍스트가 약간 흐릿합니다.

나는 Tesseract OCR을 시도했고 몇 가지 오류가 있는 놀라운 수의 단어를 인식했지만 별도의 파일에 뒤죽박죽으로 뱉어냈습니다.

질문:

Tesseract나 기타 OCR에서 텍스트를 인식한 다음 선이나 그림과 같은 다른 요소를 변경하지 않고 흐리게 처리된 원본 텍스트 위에 배치할 수 있는 방법이 있습니까?
그리고 이것이 가능하다면 Tesseract나 다른 OCR이 원본 텍스트의 다른 크기, 글꼴, 색상을 모방하도록 하는 것도 가능할까요?

감사합니다!

관련 정보