Bash, PDF에서 링크 가져오기

Question 1

/URI(...)아마도 압축을 제거한 후(있는 경우) 명령을 사용하여 PDF를 수동으로 추출해 볼 수 있습니다 pdftk.

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'

Answer

/URI(...)아마도 압축을 제거한 후(있는 경우) 명령을 사용하여 PDF를 수동으로 추출해 볼 수 있습니다 pdftk.

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'

Question 2

사용PDF 파일다음으로 시작하는 모든 줄을 필터링합니다 - http.

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'

Answer

사용PDF 파일다음으로 시작하는 모든 줄을 필터링합니다 - http.

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'

Question 3

테스트를 받아보세요:

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

Answer

테스트를 받아보세요:

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

Question 4

먼저 PDF가 압축되어 있는지 확인해야 합니다. 다음을 참조하세요.

압축되어 있으면 압축을 풀어야 합니다.

grep그런 다음 다음을 사용하여 링크를 추출 할 수 있습니다 sed.

strings uncompressed.pdf | grep -Eo '/URI \(.*\)' | sed 's/^\/URI (//g; s/)$//g'

Answer

먼저 PDF가 압축되어 있는지 확인해야 합니다. 다음을 참조하세요.

압축되어 있으면 압축을 풀어야 합니다.

grep그런 다음 다음을 사용하여 링크를 추출 할 수 있습니다 sed.

strings uncompressed.pdf | grep -Eo '/URI \(.*\)' | sed 's/^\/URI (//g; s/)$//g'

관련 정보