"pdfimages"와 "pdftoppm"의 차이점은 무엇입니까?

"pdfimages"와 "pdftoppm"의 차이점은 무엇입니까?

Scan Tailor를 사용하여 PDF를 처리하려면(캡처된 PDF 페이지의 배경 제거또는 PDF 페이지 분할), 프로그램에 입력 이미지가 필요하기 때문에 PDF 자체를 입력할 수 없습니다. pdftoppm MY_PDF NAME_OF_IMAGE -png낮은 품질의 PDF에 유사한 명령을 사용했는데 결과 이미지가 원본 PDF보다 나빴습니다.

여기에 이미지 설명을 입력하세요.

pdfimages하지만 도구를 사용한 결과는 poppler-utils원본만큼 좋습니다.

다른 변수가 사용되는 경우 -png(또는 변수가 사용되지 않고 출력이 인 경우 ppm) 값은 변경되지 않습니다.

pdfimages나는 그것이 지금부터 pdftoppm예상되는 일반 텍스트를 제공하기 때문에 전혀 좋지 않다는 것을 알았습니다.

PDF에서 추출하여 pdfimagesDolphin에서 보면 이미지가 좋지 않습니다.

여기에 이미지 설명을 입력하세요.

동일한 PDF에서 추출하여 Dolphin에서 본 경우 pdftoppm올바른 이미지 :

여기에 이미지 설명을 입력하세요.

왜 이러한 차이점이 있습니까?

답변1

차이점은 도구의 목적에서 비롯됩니다. PDF가 유연한 파일 형식이라는 사실을 알게 되면 이는 분명해집니다. 여기에는 텍스트, 벡터 그래픽 및 래스터 이미지가 포함될 수 있습니다(이 목록은 전체 목록이 아님). "레이아웃 정보가 포함된 zip"(전체 단순화)으로 생각할 수 있습니다.

  • pdftoppm전체 PDF를 "렌더링"하거나 "래스터화"합니다. 모든 텍스트와 그래픽은 래스터화된 출력 이미지가 됩니다.
    포함된 래스터 이미지의 픽셀이 출력 "캔버스"의 픽셀과 거의 정렬되지 않으므로 보간이 발생하고 품질이 저하됩니다. 이는 출력 해상도(옵션 -r)를 크게 증가시켜 대응할 수 있습니다. 물론 이는 파일 크기도 증가한다는 것을 의미합니다.
  • pdfimages래스터 이미지는 PDF 파일에서 추출됩니다. 텍스트 또는 벡터 그래픽은 무시됩니다.
    래스터 이미지는 있는 그대로 추출되므로 원본 품질은 유지되지만 레이아웃에 대한 정보는 손실됩니다.

입력 PDF에 래스터 이미지만 포함되어 있고 다른 이미지는 전혀 포함되어 있지 않은 경우 출력은 비슷하게 보일 수 있습니다.

귀하의 예에서 복사기의 스캔 기능은 텍스트 블록을 식별하여 고품질로 저장하려고 합니다. 문서의 나머지 부분(예: 흰색 배경)은 저장 공간을 절약하기 위해 낮은 품질로 저장됩니다. 당신이 발견했듯이 이것은 누군가에게 유리할 수도 있고 그렇지 않을 수도 있습니다.

관련 정보