PDF 파일에서 여백 너비와 같은 문서 정보를 추출하시겠습니까?

PDF 파일에서 여백 너비와 같은 문서 정보를 추출하시겠습니까?

나는 PDF 문서에 대한 정보를 얻기 위해 poppler-utils와 같은 도구를 사용했습니다 qpdf. pdfinfo그러나 여백 너비, 사용된 글꼴 모음 등과 같은 보다 구체적인 정보를 얻을 수 있는 방법을 찾고 있지만 pdfinfo얻을 수 없습니다 qpdf. 그러나 PDF를 JSON 표현으로 변환하는 옵션이 qpdf있습니다 . --json저는 JSON에 대해 약간만 알고 있지만 "Margin" 또는 "Font-Family"라는 속성을 찾을 수 없습니다. 이와 같은 정보가 PDF 형식으로 문서화되어 있습니까?

이 질문이 이 보드나 StackOverflow에 적합한지 잘 모르겠습니다. 왜냐하면 이 정보를 추출하는 프로그래밍 방식(예: C 또는 Python 라이브러리)이 있다면 그 방법도 사용할 수 있기 때문입니다. 어떤 제안이 있으십니까?

나의 주요 목표는 문서의 모든 여백/글꼴 정보를 복사하여(일관되고 TeX 또는 LaTeX와 같은 프로그램으로 작성되었다고 가정) 정확한 스타일을 재현할 수 있는 것입니다. 이제 PDF 뷰어에서 제공하는 도구를 사용하여 커서를 사용하여 좌표를 사용하여 여백(또는 모든 종류의 길이)을 계산해야 하며 글꼴에 대해서는 추측해야 합니다.

답변1

하지만 여백 너비 등 좀 더 구체적인 정보를 얻을 수 있는 방법을 찾고 있습니다.

PDF 형식은 기본적으로 페이지에서 글리프("문자")를 배치할 위치를 설명합니다(무엇보다도 이것이 대부분입니다). 이 정보를 직접 처리하여 여백을 계산할 수도 있고, ghostscript이미지로 렌더링하여 처리하여 여백을 복구할 수도 있지만 "여백이 무엇인지" 자체는 PDF에 없습니다. 그러나 경계 상자 정보가 있습니다.

사용된 글꼴군

이 정보는 PDF에 있을 수도 있고 없을 수도 있습니다. 글꼴에 이름이 지정되지만 글꼴이 전체적으로 포함될 수 있으며 생성된 이름을 사용하여 자동으로 이름 지정이 수행되면 글꼴을 식별하기가 어렵습니다.

왜냐하면 이 정보를 추출하는 프로그래밍 방식(예: C 또는 Python 라이브러리)이 있다면 나도 기꺼이 사용할 것이기 때문입니다.

구경하다도포프라이브러리와 CLI 도구가 함께 제공됩니다 mutool. 이를 사용하여 PDF 내 스트림의 압축을 풀고 결과 파일을 편집기에서 열 수 있습니다. PDF 사양은 다음과 같습니다.여기.

나의 주요 목표는 문서의 모든 여백/글꼴 정보를 복사하여(일관되고 TeX 또는 LaTeX와 같은 프로그램으로 작성되었다고 가정) 정확한 스타일을 재현할 수 있는 것입니다.

LaTeX 소스 코드가 특정 도구 체인을 통해 처리되고 특정 PDF 스타일을 사용하지 않는 한 이는 매우 어려울 것입니다. 소스가 LaTeX라는 것을 알고 있다면 운 좋게 글꼴을 식별할 수 있을 것입니다.

관련 정보