pdfimages를 사용하여 이미지를 추출하는 중 문제 발생

pdfimages를 사용하여 이미지를 추출하는 중 문제 발생

다음 PDF에서 이미지를 추출하고 싶습니다.

https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808

난 달린다pdfimages -j file.pdf image

그러나 내가 얻은 것은 이상한 그래픽과 페이지가 비어 있다는 것입니다(마치 텍스트가 프로세스에서 손실된 다른 이미지인 것처럼). 해당 이미지는 책을 디지털화한 사람이 찍은 원본 사진의 일부인 것으로 보입니다.

나는 pdfinfo file.pdf얻다

Creator:        Canon CLC5151  PDF
Producer:       ilovepdf.com
CreationDate:   Tue Sep  1 19:50:40 2009 CEST
ModDate:        Mon Sep 24 16:11:26 2018 CEST
Tagged:         no
UserProperties: no
Suspects:       no
Form:           AcroForm
JavaScript:     no
Pages:          233
Encrypted:      no
Page size:      690.764 x 1039.76 pts
Page rot:       90
File size:      101724898 bytes
Optimized:      yes
PDF version:    1.6

답변1

PDF에는 각 페이지의 이미지가 포함되어 있으며 각 이미지에는 전체 스캐너 영역이 포함되어 있습니다. PDF는 실제로 포함된 정보의 일부만 표시하기 위해 변환, 크기 조정 등을 할 수 있습니다.

여기에 이미지 설명을 입력하세요.

페이지를 얻는 또 다른 방법은 다음과 같습니다.

$ pdftoppm -cropbox -jpeg file.pdf prefix

이렇게 하면 이미지가 가져와서 pdf 파일의 "자르기 상자"에 따라 잘립니다(아래 설명 참조).

관련 정보