"pdfimages"와 "pdftoppm"의 차이점은 무엇입니까?

Question

차이점은 도구의 목적에서 비롯됩니다. PDF가 유연한 파일 형식이라는 사실을 알게 되면 이는 분명해집니다. 여기에는 텍스트, 벡터 그래픽 및 래스터 이미지가 포함될 수 있습니다(이 목록은 전체 목록이 아님). "레이아웃 정보가 포함된 zip"(전체 단순화)으로 생각할 수 있습니다.

pdftoppm전체 PDF를 "렌더링"하거나 "래스터화"합니다. 모든 텍스트와 그래픽은 래스터화된 출력 이미지가 됩니다.
포함된 래스터 이미지의 픽셀이 출력 "캔버스"의 픽셀과 거의 정렬되지 않으므로 보간이 발생하고 품질이 저하됩니다. 이는 출력 해상도(옵션 -r)를 크게 증가시켜 대응할 수 있습니다. 물론 이는 파일 크기도 증가한다는 것을 의미합니다.
pdfimages래스터 이미지는 PDF 파일에서 추출됩니다. 텍스트 또는 벡터 그래픽은 무시됩니다.
래스터 이미지는 있는 그대로 추출되므로 원본 품질은 유지되지만 레이아웃에 대한 정보는 손실됩니다.

입력 PDF에 래스터 이미지만 포함되어 있고 다른 이미지는 전혀 포함되어 있지 않은 경우 출력은 비슷하게 보일 수 있습니다.

귀하의 예에서 복사기의 스캔 기능은 텍스트 블록을 식별하여 고품질로 저장하려고 합니다. 문서의 나머지 부분(예: 흰색 배경)은 저장 공간을 절약하기 위해 낮은 품질로 저장됩니다. 당신이 발견했듯이 이것은 누군가에게 유리할 수도 있고 그렇지 않을 수도 있습니다.

Answer 1

차이점은 도구의 목적에서 비롯됩니다. PDF가 유연한 파일 형식이라는 사실을 알게 되면 이는 분명해집니다. 여기에는 텍스트, 벡터 그래픽 및 래스터 이미지가 포함될 수 있습니다(이 목록은 전체 목록이 아님). "레이아웃 정보가 포함된 zip"(전체 단순화)으로 생각할 수 있습니다.

pdftoppm전체 PDF를 "렌더링"하거나 "래스터화"합니다. 모든 텍스트와 그래픽은 래스터화된 출력 이미지가 됩니다.
포함된 래스터 이미지의 픽셀이 출력 "캔버스"의 픽셀과 거의 정렬되지 않으므로 보간이 발생하고 품질이 저하됩니다. 이는 출력 해상도(옵션 -r)를 크게 증가시켜 대응할 수 있습니다. 물론 이는 파일 크기도 증가한다는 것을 의미합니다.
pdfimages래스터 이미지는 PDF 파일에서 추출됩니다. 텍스트 또는 벡터 그래픽은 무시됩니다.
래스터 이미지는 있는 그대로 추출되므로 원본 품질은 유지되지만 레이아웃에 대한 정보는 손실됩니다.

입력 PDF에 래스터 이미지만 포함되어 있고 다른 이미지는 전혀 포함되어 있지 않은 경우 출력은 비슷하게 보일 수 있습니다.

귀하의 예에서 복사기의 스캔 기능은 텍스트 블록을 식별하여 고품질로 저장하려고 합니다. 문서의 나머지 부분(예: 흰색 배경)은 저장 공간을 절약하기 위해 낮은 품질로 저장됩니다. 당신이 발견했듯이 이것은 누군가에게 유리할 수도 있고 그렇지 않을 수도 있습니다.

"pdfimages"와 "pdftoppm"의 차이점은 무엇입니까?

답변1

관련 정보