PDF 파일에서 여백 너비와 같은 문서 정보를 추출하시겠습니까?

Question

하지만 여백 너비 등 좀 더 구체적인 정보를 얻을 수 있는 방법을 찾고 있습니다.

PDF 형식은 기본적으로 페이지에서 글리프("문자")를 배치할 위치를 설명합니다(무엇보다도 이것이 대부분입니다). 이 정보를 직접 처리하여 여백을 계산할 수도 있고, ghostscript이미지로 렌더링하여 처리하여 여백을 복구할 수도 있지만 "여백이 무엇인지" 자체는 PDF에 없습니다. 그러나 경계 상자 정보가 있습니다.

사용된 글꼴군

이 정보는 PDF에 있을 수도 있고 없을 수도 있습니다. 글꼴에 이름이 지정되지만 글꼴이 전체적으로 포함될 수 있으며 생성된 이름을 사용하여 자동으로 이름 지정이 수행되면 글꼴을 식별하기가 어렵습니다.

왜냐하면 이 정보를 추출하는 프로그래밍 방식(예: C 또는 Python 라이브러리)이 있다면 나도 기꺼이 사용할 것이기 때문입니다.

구경하다도포프라이브러리와 CLI 도구가 함께 제공됩니다 mutool. 이를 사용하여 PDF 내 스트림의 압축을 풀고 결과 파일을 편집기에서 열 수 있습니다. PDF 사양은 다음과 같습니다.여기.

나의 주요 목표는 문서의 모든 여백/글꼴 정보를 복사하여(일관되고 TeX 또는 LaTeX와 같은 프로그램으로 작성되었다고 가정) 정확한 스타일을 재현할 수 있는 것입니다.

LaTeX 소스 코드가 특정 도구 체인을 통해 처리되고 특정 PDF 스타일을 사용하지 않는 한 이는 매우 어려울 것입니다. 소스가 LaTeX라는 것을 알고 있다면 운 좋게 글꼴을 식별할 수 있을 것입니다.

Answer 1