PDF 파일에서 OCR 텍스트를 제거할 때 파일 크기 확장을 방지하시겠습니까?

PDF 파일에서 OCR 텍스트를 제거할 때 파일 크기 확장을 방지하시겠습니까?

나는 사용한다pdfimagesconvert안톤이 추천 한OR된 텍스트 삭제PDF 파일, PDF 파일의 크기가 29MB에서 373MB로 변경됩니다.

첫 번째 단계는 pdf 파일을 각 pdf 페이지에 대한 pbm 파일로 분할하는 것이었습니다.

mkdir tmp1
pdfimages ull.pdf tmp1/ull

생성된 pbm 파일의 총 크기는 788M입니다.

다음 단계에서는 생성된 pbm 파일을 pdf 파일로 변환하고 병합합니다.

cd tmp1
convert ull*.pbm all.pdf

그러나 이는 1GB 이상의 공간이 필요 /tmp하고 내 공간이 /tmp그렇게 많지 않기 때문에 잘못된 것입니다. 그래서 내 두 번째 단계는 실제로 다음과 같습니다.

mkdir tmp2
for i in ull-*.pbm; do convert $i tmp2/$i.pdf ; done
cd tmp2
pdftk ull-???.pbm.pdf ull-????.pbm.pdf cat output ../../all.pdf

결과 PDF 파일은 all.pdf373MB로 원래 크기인 29MB보다 훨씬 큽니다. 실행해봤는데 pdftk all.pdf output new.pdf compress파일크기가 줄어들지 않네요.

내가 원하는 것은 PDF 파일에서 OCR된 텍스트를 제거하는 것뿐인데 파일 크기가 커지는 것을 어떻게 방지할 수 있습니까?

답변1

pdfimages원본 이미지가 JPEG 파일인 경우 옵션을 사용할 수 있습니다 -j. 에서 man pdfimages:

-j     Normally, all images are written as PBM (for monochrome  images)
       or  PPM  (for  non-monochrome  images) files.  With this option,
       images in DCT format are  saved  as  JPEG  files.   All  non-DCT
       images are saved in PBM/PPM format as usual.

Convert가 PDF 파일에 이미지를 저장하는 방법을 제어하는 ​​방법을 잘 모르겠지만 압축 품질을 사용 -quality하고 변경할 수 있습니다.-resize

convert다음 방법 중 하나로 호출됩니다.

TMPDIR=/home/tim/tmp  convert ...
MAGICK_TMPDIR=/home/tim/tmp convert ...

변환을 /home/tim/tmp임시 디렉토리로 사용하여 공간 문제를 피할 수 있습니다. (이는 결과 파일 크기에 영향을 미치지 않을 수 있습니다).

관련 정보