운영 체제 우분투.
필요 터미널(예: QuarkXPress 애플리케이션의 바인딩 레이어)에서 PDF에서 텍스트 또는 더 많은 데이터로의 링크를 가져옵니다.
시험을 마친 PDF를 텍스트로, 그런데 링크가 내보내지지 않은 것 같습니다. pdfgrep그것은 동일합니다.
해결책이 있나요?
감사해요.
답변1
/URI(...)
아마도 압축을 제거한 후(있는 경우) 명령을 사용하여 PDF를 수동으로 추출해 볼 수 있습니다 pdftk
.
pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'
답변2
사용PDF 파일다음으로 시작하는 모든 줄을 필터링합니다 - http
.
pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'
답변3
답변4
먼저 PDF가 압축되어 있는지 확인해야 합니다. 다음을 참조하세요.
PDF 파일이 압축되었는지 확인하는 방법과 압축(압축 풀기) 방법
압축되어 있으면 압축을 풀어야 합니다.
grep
그런 다음 다음을 사용하여 링크를 추출 할 수 있습니다 sed
.
strings uncompressed.pdf | grep -Eo '/URI \(.*\)' | sed 's/^\/URI (//g; s/)$//g'