나는 사용한다pdfimages
convert
안톤이 추천 한OR된 텍스트 삭제PDF 파일, PDF 파일의 크기가 29MB에서 373MB로 변경됩니다.
첫 번째 단계는 pdf 파일을 각 pdf 페이지에 대한 pbm 파일로 분할하는 것이었습니다.
mkdir tmp1
pdfimages ull.pdf tmp1/ull
생성된 pbm 파일의 총 크기는 788M입니다.
다음 단계에서는 생성된 pbm 파일을 pdf 파일로 변환하고 병합합니다.
cd tmp1
convert ull*.pbm all.pdf
그러나 이는 1GB 이상의 공간이 필요 /tmp
하고 내 공간이 /tmp
그렇게 많지 않기 때문에 잘못된 것입니다. 그래서 내 두 번째 단계는 실제로 다음과 같습니다.
mkdir tmp2
for i in ull-*.pbm; do convert $i tmp2/$i.pdf ; done
cd tmp2
pdftk ull-???.pbm.pdf ull-????.pbm.pdf cat output ../../all.pdf
결과 PDF 파일은 all.pdf
373MB로 원래 크기인 29MB보다 훨씬 큽니다. 실행해봤는데 pdftk all.pdf output new.pdf compress
파일크기가 줄어들지 않네요.
내가 원하는 것은 PDF 파일에서 OCR된 텍스트를 제거하는 것뿐인데 파일 크기가 커지는 것을 어떻게 방지할 수 있습니까?
답변1
pdfimages
원본 이미지가 JPEG 파일인 경우 옵션을 사용할 수 있습니다 -j
. 에서 man pdfimages
:
-j Normally, all images are written as PBM (for monochrome images)
or PPM (for non-monochrome images) files. With this option,
images in DCT format are saved as JPEG files. All non-DCT
images are saved in PBM/PPM format as usual.
Convert가 PDF 파일에 이미지를 저장하는 방법을 제어하는 방법을 잘 모르겠지만 압축 품질을 사용 -quality
하고 변경할 수 있습니다.-resize
convert
다음 방법 중 하나로 호출됩니다.
TMPDIR=/home/tim/tmp convert ...
MAGICK_TMPDIR=/home/tim/tmp convert ...
변환을 /home/tim/tmp
임시 디렉토리로 사용하여 공간 문제를 피할 수 있습니다. (이는 결과 파일 크기에 영향을 미치지 않을 수 있습니다).