질문

Question

크기 차이는 ABBY가 상업적인 마법을 사용하여 이미지 압축을 지능적으로 수행하는 것과 관련이 있다고 생각합니다.

가정하지 말고 조사해 보세요. PDF 형식은잘 기록 된, 자세한 내용을 읽어보세요. 편집기에서 PDF 파일을 열거나 를 사용하여 less페이지가 실제로 어떻게 인코딩되는지 확인하고 차이점을 찾아보세요. 또는 mutoolsPDF 파일의 일부를 추출할 수 있는 명령줄 도구와 유사한 패키지를 설치하십시오 .

PDF의 이미지는 저장된 해상도(스캔된 해상도와 같을 수도 있고 아닐 수도 있음)와 압축 알고리즘에 따라 서로 다른 공간을 차지합니다.

표준에 따른 표준 압축 방법은

ASCII 16진수 디코딩
ASCII85 디코딩
LZW디코드(Lempel-Ziv-Welch).
FlatDecode(zlib/deflate)
실행 길이 디코딩

그리고 일부 내용은 적용되지 않을 수 있습니다.

따라서 ABBY가 사용하는 해상도와 압축 방법을 알아낸 다음 해당 방법을 재현할 수 있는 도구를 찾아보십시오(기본적으로 사용할 수 없는 경우 기존 도구를 수정해야 할 수도 있습니다).

내가 이해한 바에 따르면 이는 ABBY가 마스크 기능과 함께 JPXDecode 필터를 사용하여 이미지를 인코딩한다는 의미입니다. 이는 JPXDecode(JPG2000?) 압축을 수행할 수 있는 Linux/FOSS 대안을 찾고 있음을 의미합니다.

정확히. JPG는아니요는 사진 중심이기 때문에 텍스트에 가장 적합한 압축 방법입니다. 즉, 일반적인 텍스트의 선명한 전환을 제대로 렌더링하지 못합니다. 반면, 이는 스캔이기 때문에 스캔할 때 전환이 이미 본질적으로 흐릿할 수 있습니다.

또한 JPG에는 압축률과 품질에 영향을 미치는 매개변수가 꽤 많습니다.

따라서 이 경우 mutools일부 이미지를 추출하고 다른 도구(예: ImageMagick/GraphicsMagick)를 사용하여 mediainfoJPG identify -verbose이미지의 매개변수를 찾으십시오.

아직 하나 있어요매우압축이 풀린 JPG 이미지를 고배율로 주의 깊게 살펴보고 품질이 충분한지 확인하세요.

스캔한 이미지에서 원하는 해상도와 품질로 JPG 파일을 생성할 수 있는 오픈 소스 도구가 많이 있어야 하지만, 이를 PDF로 패키징할 수 있는 도구는 없습니다.

Answer 1