파일 크기를 최소화하면서 OCR을 사용하여 잡지나 책을 디지털화하는 표준 작업 흐름은 무엇입니까?

파일 크기를 최소화하면서 OCR을 사용하여 잡지나 책을 디지털화하는 표준 작업 흐름은 무엇입니까?

텍스트, 흑백 이미지, 선명한 테두리만 포함된 책을 스캔하기 위해 제가 사용한 작업 흐름은 다음과 같습니다.

  • 카메라나 스캐너를 사용하여 소스를 디지털화합니다.
  • 사용scantailor
  • 마지막으로 사용한djvubindocr 배경으로 작은(1-7MB) djvu 파일을 만듭니다.

이것은 훌륭하게 작동합니다. 그러나 잡지나 책의 이미지, 구조적 요소, 배경 또는 페이지 가장자리와 겹치는 이미지에 색상이 많이 포함되어 있는 경우 스캔테일러(블렌드 모드)를 사용하는 것이 매우 어려워지고 각 페이지를 수동으로 처리해야 합니다.

그렇다면 이러한 리소스를 디지털화하고 Linux에서 작은 파일을 가져오는 좋은 워크플로는 무엇입니까?DJVU또는PDFocr 배경이 있는 파일인가요?

관련 정보