PDF 파일 내 각 페이지의 제목과 페이지 번호를 추출할 수 있습니다.

PDF 파일 내 각 페이지의 제목과 페이지 번호를 추출할 수 있습니다.

PDF 파일의 각 페이지 제목과 페이지 번호를 추출할 수 있는 방법이 있는지 알고 싶습니다. 일부 응용 프로그램을 통해 또는 일부 프로그래밍 언어 및 일부 PDF 라이브러리를 통한 프로그래밍을 통해?

각 페이지의 제목은 슬라이드쇼/프레젠테이션 파일과 같이 페이지의 첫 번째 줄에 있어야 합니다.

출력은 다음 형식의 텍스트 파일이어야 합니다.

title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...

답변1

다음 스크립트는 매개변수로 전달된 PDF 파일 각 페이지의 첫 번째 줄을 인쇄하고 그 뒤에 공백과 줄 번호를 인쇄합니다. 다음 도구를 사용합니다.포플러(Debian 또는 Ubuntu의 패키지 poppler-utils)

#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$/\1/p')
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done

관련 정보