PDF에서 차트 추출

PDF에서 차트 추출

많은 수의 PDF 파일에서 이미지를 추출하여 웹사이트에 표시해야 하는 상황에 직면했습니다. 내 PDF에는 "일반" 이미지와 많은 다이어그램이 있습니다.

나는 사용했다pdf2xmljpeg, pm, pbm 및 vec 형식의 이미지를 추출합니다. "일반" 이미지는 (주로) jpeg/ppm/pbm으로 추출되지만 거기에는 그래프가 표시되지 않습니다. 따라서 pdf2xml이 해당 이미지를 .vec 파일로 저장한다고 추측합니다.

그래서 질문은 내 그래프를 얻는 방법입니다. 나는 convertimagemagick과 함께 제공되는 도구를 사용하여 .vec를 jpeg/png 등으로 변환했지만 아무 소용이 없었습니다.

답변1

나는 pdf2xml을 시도해 본 적이 없지만 SourceForge에서 해당 문서를 검색하는 동안 발견했습니다.vec2svg-2.py.vec 파일을 .svg로 변환하는 Python 스크립트인 것으로 보입니다. 변환하는데 어려움이 없을 것입니다정적 변수 생성기당신이 필요로하는 모든 형식에 대해.

python vec2svg-2.py -i file.vec -o file.svg

관련 정보