PDF를 텍스트로 변환하는 일종의 변환기가 있습니까?

PDF를 텍스트로 변환하는 일종의 변환기가 있습니까?

명령줄에서 일괄 검색할 수 있도록 텍스트 형식의 PDF 파일이 필요합니다. Ubuntu, OBSD 또는 유사한 배포판용 변환기가 있습니까?

어쩌면 관련 게시물, Ubuntu를 사용한 OCR여기.

답변1

다양한 옵션이 있습니다!

pdftotext~에서포플러이미 언급했습니다.

가지다Haskell 프로그램은 다음과 같습니다.pdf2line좋은 결과.

구경명령 ebook-convert줄 프로그램(또는 구경 자체)은 PDF를 일반 텍스트 또는 기타 전자책 형식(RTF, ePub)으로 변환할 수 있는 또 다른 옵션이며, 속도가 훨씬 느리더라도 pdftotext보다 더 나은 결과를 생성합니다.

ebook-convert file.pdf file.txt

아비말명령줄에서 알고 있는 모든 형식 간에 변환할 수 있으며 최소한 선택적으로 PDF 가져오기 플러그인이 있습니다.

abiword --to=txt file.pdf

또 다른 옵션은 podofotextextract다음과 같습니다.podofo PDF 도구 라이브러리.나는 아직 그것을 실제로 시도하지 않았습니다.

Ghostscript 도구 pdf2ps와 둘 다 사용하는 경우 ps2ascii다른 옵션이 있습니다.

사실 다른 방법도 생각할 수 있지만 지금은 그게 다입니다. ;)

답변2

명령줄에서 PDF를 텍스트로 변환할 수 있습니다.PDF를 텍스트로(우분투:포플러 도구; OpenBSD: xpdf-utils패키지).

당신은 그것을 사용할 수 있습니다기록 (우분투:상기하다; OpenBSD: 포트는 없지만 포트는 1개입니다.FreeBSD.) PDF를 포함하여 다양한 형식의 텍스트 문서 유형을 검색합니다. 백그라운드에서 자동으로 인덱스를 생성하는 GUI가 있습니다. pdftotextPDF를 텍스트로 변환하는 데 사용됩니다 .

Acrobat Reader(Linux의 경우 버전 9 이상)에는 다중 파일 검색 기능이 제한되어 있습니다(디렉터리의 모든 파일을 검색할 수 있음).

답변3

pdftotext가 당신이 찾고 있는 것일 수도 있습니다:http://en.wikipedia.org/wiki/Pdftotext추출하려는 텍스트가 실제로 PDF 문서에서는 일반적이지 않은 그래픽 형식이 아닌 한.

답변4

pdftotext는 나에게 모든 종류의 형식 문제를 제공하지만(선택적 조정을 포함하더라도)도구 간 변환완벽하게 작동

관련 정보