PDF 파일의 모든 링크와 해당 링크가 있는 페이지 및 X/Y 위치를 찾아야 합니다. 이 작업을 수행하는 데 사용할 수 있는 도구나 도구 조합이 있습니까?
답변1
특정 텍스트나 링크 내의 좌표를 알려줄 수 있는 도구에 대해 들어본 적이 없습니다.PDF문서. 이 작업을 안정적으로 수행하는 방법은 상상하기조차 어렵습니다. 도구는 문서에 있는 모든 텍스트의 기하학적 구조를 계산해야 하거나( poppler
표준 PDF 렌더링 라이브러리에 대한 수정이 필요할 수 있음) 그렇지 않은 경우 실행을 기반으로 해야 할 것 같습니다. pdf 뷰어 X 자동화 도구 중 일부는 추정을 수행합니다.
많은 노력을 들이지 않고도 grep을 수행하여 암호화되지 않고 압축되지 않은 PDF 파일에서 링크를 찾을 수 있습니다. 다음은 grep
사용할 수 있는 검색의 몇 가지 예 입니다 .
grep -ao "http://[[:print:]]*" TheFile.pdf
grep -ao "http://[[:alnum:]./]*" TheFile.pdf
grep -ao "http://[^ ']*" TheFile.pdf
grep -ao "URI(http://.*[^\])" TheFile.pdf
마지막 링크는 파일을 읽을 때 찾을 수 있는 링크에 가장 가깝습니다. 그러나 문서에서 실제로 원하는 링크를 추출하려면 이러한 정규식을 일부 처리해야 할 수도 있습니다.
문서가 압축되었거나 암호화된 경우 먼저 문서에서 일반 텍스트 버전을 추출해야 합니다. pdftk
이를 수행하려면 또는 이와 유사한 도구를 사용하십시오 .