나는 PDF 문서에 대한 정보를 얻기 위해 poppler-utils와 같은 도구를 사용했습니다 qpdf
. pdfinfo
그러나 여백 너비, 사용된 글꼴 모음 등과 같은 보다 구체적인 정보를 얻을 수 있는 방법을 찾고 있지만 pdfinfo
얻을 수 없습니다 qpdf
. 그러나 PDF를 JSON 표현으로 변환하는 옵션이 qpdf
있습니다 . --json
저는 JSON에 대해 약간만 알고 있지만 "Margin" 또는 "Font-Family"라는 속성을 찾을 수 없습니다. 이와 같은 정보가 PDF 형식으로 문서화되어 있습니까?
이 질문이 이 보드나 StackOverflow에 적합한지 잘 모르겠습니다. 왜냐하면 이 정보를 추출하는 프로그래밍 방식(예: C 또는 Python 라이브러리)이 있다면 그 방법도 사용할 수 있기 때문입니다. 어떤 제안이 있으십니까?
나의 주요 목표는 문서의 모든 여백/글꼴 정보를 복사하여(일관되고 TeX 또는 LaTeX와 같은 프로그램으로 작성되었다고 가정) 정확한 스타일을 재현할 수 있는 것입니다. 이제 PDF 뷰어에서 제공하는 도구를 사용하여 커서를 사용하여 좌표를 사용하여 여백(또는 모든 종류의 길이)을 계산해야 하며 글꼴에 대해서는 추측해야 합니다.
답변1
하지만 여백 너비 등 좀 더 구체적인 정보를 얻을 수 있는 방법을 찾고 있습니다.
PDF 형식은 기본적으로 페이지에서 글리프("문자")를 배치할 위치를 설명합니다(무엇보다도 이것이 대부분입니다). 이 정보를 직접 처리하여 여백을 계산할 수도 있고, ghostscript
이미지로 렌더링하여 처리하여 여백을 복구할 수도 있지만 "여백이 무엇인지" 자체는 PDF에 없습니다. 그러나 경계 상자 정보가 있습니다.
사용된 글꼴군
이 정보는 PDF에 있을 수도 있고 없을 수도 있습니다. 글꼴에 이름이 지정되지만 글꼴이 전체적으로 포함될 수 있으며 생성된 이름을 사용하여 자동으로 이름 지정이 수행되면 글꼴을 식별하기가 어렵습니다.
왜냐하면 이 정보를 추출하는 프로그래밍 방식(예: C 또는 Python 라이브러리)이 있다면 나도 기꺼이 사용할 것이기 때문입니다.
구경하다도포프라이브러리와 CLI 도구가 함께 제공됩니다 mutool
. 이를 사용하여 PDF 내 스트림의 압축을 풀고 결과 파일을 편집기에서 열 수 있습니다. PDF 사양은 다음과 같습니다.여기.
나의 주요 목표는 문서의 모든 여백/글꼴 정보를 복사하여(일관되고 TeX 또는 LaTeX와 같은 프로그램으로 작성되었다고 가정) 정확한 스타일을 재현할 수 있는 것입니다.
LaTeX 소스 코드가 특정 도구 체인을 통해 처리되고 특정 PDF 스타일을 사용하지 않는 한 이는 매우 어려울 것입니다. 소스가 LaTeX라는 것을 알고 있다면 운 좋게 글꼴을 식별할 수 있을 것입니다.