Bash, PDF에서 링크 가져오기

Bash, PDF에서 링크 가져오기

운영 체제 우분투.

필요 터미널(예: QuarkXPress 애플리케이션의 바인딩 레이어)에서 PDF에서 텍스트 또는 더 많은 데이터로의 링크를 가져옵니다.

시험을 마친 PDF를 텍스트로, 그런데 링크가 내보내지지 않은 것 같습니다. pdfgrep그것은 동일합니다.

해결책이 있나요?

감사해요.

답변1

/URI(...)아마도 압축을 제거한 후(있는 경우) 명령을 사용하여 PDF를 수동으로 추출해 볼 수 있습니다 pdftk.

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'

답변2

사용PDF 파일다음으로 시작하는 모든 줄을 필터링합니다 - http.

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'

답변3

테스트를 받아보세요:

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

스크립트 예시

답변4

먼저 PDF가 압축되어 있는지 확인해야 합니다. 다음을 참조하세요.

PDF 파일이 압축되었는지 확인하는 방법과 압축(압축 풀기) 방법

압축되어 있으면 압축을 풀어야 합니다.

grep그런 다음 다음을 사용하여 링크를 추출 할 수 있습니다 sed.

strings uncompressed.pdf | grep -Eo '/URI \(.*\)' | sed 's/^\/URI (//g; s/)$//g'

관련 정보