명령줄에서 일괄 검색할 수 있도록 텍스트 형식의 PDF 파일이 필요합니다. Ubuntu, OBSD 또는 유사한 배포판용 변환기가 있습니까?
어쩌면 관련 게시물, Ubuntu를 사용한 OCR여기.
답변1
다양한 옵션이 있습니다!
pdftotext
~에서포플러이미 언급했습니다.
가지다Haskell 프로그램은 다음과 같습니다.pdf2line
좋은 결과.
구경명령 ebook-convert
줄 프로그램(또는 구경 자체)은 PDF를 일반 텍스트 또는 기타 전자책 형식(RTF, ePub)으로 변환할 수 있는 또 다른 옵션이며, 속도가 훨씬 느리더라도 pdftotext보다 더 나은 결과를 생성합니다.
ebook-convert file.pdf file.txt
아비말명령줄에서 알고 있는 모든 형식 간에 변환할 수 있으며 최소한 선택적으로 PDF 가져오기 플러그인이 있습니다.
abiword --to=txt file.pdf
또 다른 옵션은 podofotextextract
다음과 같습니다.podofo PDF 도구 라이브러리.나는 아직 그것을 실제로 시도하지 않았습니다.
Ghostscript 도구 pdf2ps
와 둘 다 사용하는 경우 ps2ascii
다른 옵션이 있습니다.
사실 다른 방법도 생각할 수 있지만 지금은 그게 다입니다. ;)
답변2
명령줄에서 PDF를 텍스트로 변환할 수 있습니다.PDF를 텍스트로(우분투:포플러 도구; OpenBSD: xpdf-utils
패키지).
당신은 그것을 사용할 수 있습니다기록
(우분투:상기하다; OpenBSD: 포트는 없지만 포트는 1개입니다.FreeBSD.) PDF를 포함하여 다양한 형식의 텍스트 문서 유형을 검색합니다. 백그라운드에서 자동으로 인덱스를 생성하는 GUI가 있습니다. pdftotext
PDF를 텍스트로 변환하는 데 사용됩니다 .
Acrobat Reader(Linux의 경우 버전 9 이상)에는 다중 파일 검색 기능이 제한되어 있습니다(디렉터리의 모든 파일을 검색할 수 있음).
답변3
pdftotext가 당신이 찾고 있는 것일 수도 있습니다:http://en.wikipedia.org/wiki/Pdftotext추출하려는 텍스트가 실제로 PDF 문서에서는 일반적이지 않은 그래픽 형식이 아닌 한.
답변4
pdftotext는 나에게 모든 종류의 형식 문제를 제공하지만(선택적 조정을 포함하더라도)도구 간 변환완벽하게 작동