OCR을 사용하여 제대로 스캔되지 않은 공개 도메인 도서를 읽기 쉽게 만듭니다.
나는 아주 오래된 공개 도서의 소프트 카피를 얻었습니다. 그림은 충분히 선명하지만 텍스트가 약간 흐릿합니다. 나는 Tesseract OCR을 시도했고 몇 가지 오류가 있는 놀라운 수의 단어를 인식했지만 별도의 파일에 뒤죽박죽으로 뱉어냈습니다. 질문: Tesseract나 기타 OCR에서 텍스트를 인식한 다음 선이나 그림과 같은 다른 요소를 변경하지 않고 흐리게 처리된 원본 텍스트 위에 배치할 수 있는 방법이 있습니까? 그리고 이것이 가능하다면 Tesseract나 다른 OCR이 원본 텍스트의 다른 크...