OCR을 사용하여 제대로 스캔되지 않은 공개 도메인 도서를 읽기 쉽게 만듭니다.

OCR을 사용하여 제대로 스캔되지 않은 공개 도메인 도서를 읽기 쉽게 만듭니다.

나는 아주 오래된 공개 도서의 소프트 카피를 얻었습니다.

그림은 충분히 선명하지만 텍스트가 약간 흐릿합니다.

나는 Tesseract OCR을 시도했고 몇 가지 오류가 있는 놀라운 수의 단어를 인식했지만 별도의 파일에 뒤죽박죽으로 뱉어냈습니다.

질문:

  1. Tesseract나 기타 OCR에서 텍스트를 인식한 다음 선이나 그림과 같은 다른 요소를 변경하지 않고 흐리게 처리된 원본 텍스트 위에 배치할 수 있는 방법이 있습니까?

  2. 그리고 이것이 가능하다면 Tesseract나 다른 OCR이 원본 텍스트의 다른 크기, 글꼴, 색상을 모방하도록 하는 것도 가능할까요?

감사합니다!

관련 정보