텍스트 인식 손실 없이 PDF 흑백 압축

2024-6-5 • tag-icon

제가 가지고 있는 다양한 PDF 파일의 크기를 줄이는 방법을 찾고 있습니다. 나는 많은 프로그램과 메커니즘을 테스트했습니다. 다음 순서로 최상의 결과를 얻었습니다.

pdfimages -png file.pdf image

그런 다음 scantailor(GUI)를 사용하여 이러한 이미지를 처리하여 해상도를 줄이고 모든 페이지를 흑백으로 변환했습니다. 이제 다음을 사용하여 압축합니다.

jbig2 -s -p -v *.jpg && pdf.py output > out.pdf

품질 손실이 거의 없이 크기가 4-x5배 더 작습니다. 여태까지는 그런대로 잘됐다. 문제는 이 과정에서 OCR과 주석이 손실된다는 것입니다.

PDF 해상도를 줄이고, 흑백으로 변환하고, jbig2enc텍스트 인식 및 주석 손실 없이 압축하는 등의 모든 단계를 수행할 수 있는 프로그램이나 메커니즘이 있습니까?

관련 정보