나중에 텍스트를 처리하기 위해 PDF 리더에서 읽은 텍스트를 문자열로 저장할 수 있는 도구를 만드는 것이 가능합니까?

나중에 텍스트를 처리하기 위해 PDF 리더에서 읽은 텍스트를 문자열로 저장할 수 있는 도구를 만드는 것이 가능합니까?

Linux Mint에는 운영 체제와 함께 기본적으로 설치되는 "Xreader"라는 PDF 읽기 도구가 있습니다.

마우스 왼쪽 버튼 클릭으로 텍스트를 선택할 때 읽고 있는 텍스트를 Bash 또는 Python 문자열에 저장하여 저장된 텍스트를 Bash 및/또는 Python 도구를 사용하여 처리할 수 있는 도구를 만들 수 있습니까? Linux Mint에는 그러한 일을 달성하는 데 사용할 수 있는 "메커니즘"이 있습니까?

밝히다. PDF 리더(예: Xreader)에서 연 PDF에서 받은 일부 텍스트를 처리할 수 있는 Python 스크립트를 만들려고 합니다.

  1. PDF 리더를 통해 PDF 파일을 엽니다.
  2. 마우스 커서를 사용하여 관심 있는 텍스트를 선택하십시오.
  3. 텍스트를 가져왔지만 이미 처리한 결과, 예를 들어 불필요한 공백을 제거하고 번역을 수행한 경우
  4. 결과적으로 첨부된 그래픽 창에 텍스트가 매핑됩니다.

답변1

Ghostscript는 PDF 파일에서 텍스트를 추출할 수 있습니다.

gs -sDEVICE=txtwrite -sOutputFile=myfile.txt -dBATCH -dNOPAUSE myfile.pdf

관련 정보