이미지 파일을 PDF 파일로 변환하고 병합하는 방법은 무엇입니까?

이미지 파일을 PDF 파일로 변환하고 병합하는 방법은 무엇입니까?

내 디렉토리에는 약 190개의 이미지 파일(png 및 jpg)이 있습니다. 자세한 내용은 각 이미지의 크기가 2500 x 3072픽셀, 약 500KB입니다.

ImageMagik의 명령을 사용하여 convertPDF 파일로 변환하고 결합했습니다 .

convert * my.pdf

80MB PDF 파일을 만드는 데에는 약 10GB(최대)와 4시간이 소요됩니다. /tmp여유 공간 (실제로는 내 파티션) /이 충분하지 않았기 때문에 처음에는 실행할 수 없었습니다. 그런 다음 여유 공간이 충분한 외장 하드 드라이브를 찾고 TMPDIR이를 가리키도록 환경 변수를 설정해야 했고 작동했습니다.

convert외장 하드 드라이브 없이 이미지를 PDF 파일로 변환하고 병합할 수 있는 PDF 외에 다른 소프트웨어가 있는지 궁금합니다 . 아니면 이러한 종류의 변환 및 조합에는 일반적으로 디스크에 비슷한 양의 임시 공간이 필요합니까?

이미지 파일에 대한 자세한 내용은 다음과 같습니다.

$ exiftool 1.jpg 
ExifTool Version Number         : 8.60
File Name                       : 1.jpg
Directory                       : .
File Size                       : 453 kB
File Modification Date/Time     : 2014:11:15 13:41:55-05:00
File Permissions                : rwxrwx---
File Type                       : JPEG
MIME Type                       : image/jpeg
JFIF Version                    : 1.01
Resolution Unit                 : None
X Resolution                    : 1
Y Resolution                    : 1
Image Width                     : 2500
Image Height                    : 3072
Encoding Process                : Baseline DCT, Huffman coding
Bits Per Sample                 : 8
Color Components                : 3
Y Cb Cr Sub Sampling            : YCbCr4:2:0 (2 2)
Image Size                      : 2500x3072

$ exiftool 2.png 
ExifTool Version Number         : 8.60
File Name                       : 2.png
Directory                       : .
File Size                       : 310 kB
File Modification Date/Time     : 2014:11:15 13:50:58-05:00
File Permissions                : rwxrwx---
File Type                       : PNG
MIME Type                       : image/png
Image Width                     : 2500
Image Height                    : 3072
Bit Depth                       : 8
Color Type                      : Grayscale
Compression                     : Deflate/Inflate
Filter                          : Adaptive
Interlace                       : Noninterlaced
Pixels Per Unit X               : 11929
Pixels Per Unit Y               : 11929
Pixel Units                     : Meters
Image Size                      : 2500x3072

답변1

어쩌면 긴 기회일지도 모르지만 pdflatex나는 다음 스타일로 (스크립트 등을 사용하여) 파일을 만듭니다.

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

그런 다음 pdflatex file. 구성이 빠릅니다. LaTeX를 알고 있다면 이미지의 모양과 위치를 변경하고 제목을 추가하는 등의 작업을 쉽게 할 수 있습니다.

문제는 파일이 상당히 큰 경우가 많다는 것입니다. 500K 이상의 jpg 200개로 테스트했습니다. i5/16G RAM에서 실행하는 데 약 7초가 걸렸고 800MB PDF를 제공했습니다. 나는 그것을 사용하여 크기를 줄이려고 노력했다.

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf 

...8분 동안 실행되었지만 RAM을 많이 사용하지 않습니다. 압축에 대해 언급할 수 없습니다. 왜냐하면 gs그것이 저를 능가했고 제가 동일한 이미지를 200번 사용하여 50k PDF로 압축했다는 것을 알아냈기 때문입니다... 이는 분명히 사실이 아닙니다.

답변2

안타깝게도convertjpg사용해야 하는 원본 이미지의 품질 손실을 최소화 하도록 이전 이미지를 변경하려면 img2pdf다음 명령을 사용합니다.

img2pdf기능 만 사용하는 더 짧은 단일 라이너 솔루션

  1. PDF 만들기

    img2pdf *.jp* --output combined.pdf

  2. OCR 출력 PDF

    ocrmypdf combined.pdf combined_ocr.pdf

원래 명령은 다음과 같습니다. 더 많은 명령과 도구가 필요합니다.

1) 해상도나 품질을 잃지 않고 이미지 pdf당 하나의 파일을 생성 하는 것입니다 .jpg

ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {}.pdf

2) 이렇게 하면 pdf페이지가 하나로 결합됩니다.

pdftk *.pdf cat output combined.pdf

3) 마지막으로 검색할 수 있도록 PDF의 스캔 품질을 변경하지 않는 OCR 텍스트 레이어를 추가했습니다.

pypdfocr combined.pdf  

관련 정보