OCR의 기존 텍스트 레이어를 유지하면서 스캔한 PDF 파일의 색상을 변환하고 스캔 해상도를 줄여 메모리를 절약할 수 있습니까?

2024-6-10 • tag-icon

OCR의 기존 텍스트 레이어를 유지하면서 스캔한 PDF 파일의 색상을 변환하고 스캔 해상도를 줄여 메모리를 절약할 수 있습니까?

오래 전에 스캔되어 이미 검색 가능한(즉, OCR 처리된) PDF 파일이 많이 있습니다.

그러나 조명 수준과 대비 설정이 최적이 아닙니다.

기존 파일의 픽셀당 비트 수를 합리적으로 낮은 수준으로 줄이는 것이 가능합니까?저장 공간을 절약하기 위해(Gimp나 기타 이미지 조작 프로그램과 마찬가지로 색상 곡선 변환, 톤 분리 또는 흑백으로의 이진화 수행)?

파일은 600dpi로 스캔되며 이미 검색 가능합니다. 즉, 스캔한 이미지 외에 텍스트 레이어가 있습니다. 더 나은 OCR 결과를 얻기 위해 이러한 높은 스캔 해상도를 선택했을 가능성이 있습니다. 그러나 이로 인해 크기가 너무 커집니다. 제 생각에는 200dpi 스캔은 메모리 요구 사항이 훨씬 적으면서도 좋은 시각적 품질을 제공할 것입니다. OCR로 생성된 텍스트 레이어를 좋은 OCR 품질로 유지하고 싶습니다.올바른 명령은 무엇입니까?

관련 정보