PDF 파일을 OCR하고 PDF에 저장된 텍스트를 가져오는 방법은 무엇입니까?

Question 1

ocrmypdf잘 수행되었으며 다음과 같이 사용할 수 있습니다.

ocrmypdf in.pdf out.pdf

설치하다:

pip install ocrmypdf

또는

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

Answer

ocrmypdf잘 수행되었으며 다음과 같이 사용할 수 있습니다.

ocrmypdf in.pdf out.pdf

설치하다:

pip install ocrmypdf

또는

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

Question 2

학습 후하이퍼큐브이제 검색 가능한 PDF를 생성하는 것도 가능합니다. 스크립트 샌드위치를 찾았습니다.http://www.tobias-elze.de/pdfsandwich/

종속성을 설치한 후(전체 목록이 아닐 수 있음)

sudo dnf install svn ocaml unpaper tesseract

스크립트 가이드에 따라 소스에서 컴파일했습니다.

소스 코드에서 컴파일

pdfsandwich는 오픈 소스 소프트웨어입니다(라이센스: GPL). 프로젝트 웹사이트의 다운로드 영역에서 .tar.bz2 패키지의 소스 코드를 다운로드하거나 Subversion을 통해 볼 수 있습니다.

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.

cd pdfsandwich
./configure
make
sudo make install

이제 달릴 수 있어

sandwich multipaged-non-searchable.pdf

검색 가능한 PDF를 생성합니다.

여기pdfsandwich가 포함된 저장소(예: Debian Stable, AUR, Homebrew) 목록입니다.

Answer

학습 후하이퍼큐브이제 검색 가능한 PDF를 생성하는 것도 가능합니다. 스크립트 샌드위치를 찾았습니다.http://www.tobias-elze.de/pdfsandwich/

종속성을 설치한 후(전체 목록이 아닐 수 있음)

sudo dnf install svn ocaml unpaper tesseract

스크립트 가이드에 따라 소스에서 컴파일했습니다.

소스 코드에서 컴파일

pdfsandwich는 오픈 소스 소프트웨어입니다(라이센스: GPL). 프로젝트 웹사이트의 다운로드 영역에서 .tar.bz2 패키지의 소스 코드를 다운로드하거나 Subversion을 통해 볼 수 있습니다.

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.

cd pdfsandwich
./configure
make
sudo make install

이제 달릴 수 있어

sandwich multipaged-non-searchable.pdf

검색 가능한 PDF를 생성합니다.

여기pdfsandwich가 포함된 저장소(예: Debian Stable, AUR, Homebrew) 목록입니다.

Question 3

Ubuntu에서 사용할 수 있는 간단한 도구는 PDF를 생성하고 원본 문서에 OCR 텍스트를 오버레이할 수 있는 "ocrfeeder"입니다. Tesseract 및 기타 OCR 엔진(어느 것인지 확실하지 않음)을 사용하고 이미지 회전/"종이 풀기" 등을 제공합니다.

Answer

Ubuntu에서 사용할 수 있는 간단한 도구는 PDF를 생성하고 원본 문서에 OCR 텍스트를 오버레이할 수 있는 "ocrfeeder"입니다. Tesseract 및 기타 OCR 엔진(어느 것인지 확실하지 않음)을 사용하고 이미지 회전/"종이 풀기" 등을 제공합니다.

Question 4

저도 같은 문제가 있어서 주말에 이 글을 썼습니다. 한번 시도해 보세요. 훌륭하게 작동합니다! 심플한 패키지 입니다 tesseract. pdftoppmPDF를 TIFF 파일 묶음으로 변환한 다음 tesseractOCR(광학 문자 인식)을 수행하고 검색 가능한 PDF를 출력으로 생성하는 데 사용됩니다 . 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.

소스 코드:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

설치 및 사용 지침 `pdf2searchablepdf`:

테스트 대상우분투18.042019년 11월 11일 이후우분투 20.042020년 11월.

설치하다:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

사용:

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

이제 다음과 같은 파일이 생성됩니다.mypdf_searchable.pdf, 검색 가능한 텍스트가 포함되어 있습니다!

완벽한. 현재 완전히 bash로 작성되었으므로 Python 종속성이 없습니다.

pdf2searchablepdf -h더 많은 옵션과 예시를 보려면 리소스 도움말 메뉴를 참조하세요 .

참고자료 또는 관련 자료:

PDF2 검색 가능한 PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
PDF 샌드위치:방금 발견한 대체 소프트웨어 래퍼도 시도해 볼 가치가 있습니다!http://www.tobias-elze.de/pdfsandwich/

Answer

저도 같은 문제가 있어서 주말에 이 글을 썼습니다. 한번 시도해 보세요. 훌륭하게 작동합니다! 심플한 패키지 입니다 tesseract. pdftoppmPDF를 TIFF 파일 묶음으로 변환한 다음 tesseractOCR(광학 문자 인식)을 수행하고 검색 가능한 PDF를 출력으로 생성하는 데 사용됩니다 . 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.

소스 코드:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

설치 및 사용 지침 `pdf2searchablepdf`:

테스트 대상우분투18.042019년 11월 11일 이후우분투 20.042020년 11월.

설치하다:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

사용:

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

이제 다음과 같은 파일이 생성됩니다.mypdf_searchable.pdf, 검색 가능한 텍스트가 포함되어 있습니다!

완벽한. 현재 완전히 bash로 작성되었으므로 Python 종속성이 없습니다.

pdf2searchablepdf -h더 많은 옵션과 예시를 보려면 리소스 도움말 메뉴를 참조하세요 .

참고자료 또는 관련 자료:

PDF2 검색 가능한 PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
PDF 샌드위치:방금 발견한 대체 소프트웨어 래퍼도 시도해 볼 가치가 있습니다!http://www.tobias-elze.de/pdfsandwich/

PDF 파일을 OCR하고 PDF에 저장된 텍스트를 가져오는 방법은 무엇입니까?

답변1

답변2

답변3

답변4

설치 및 사용 지침 `pdf2searchablepdf`:

설치하다:

사용:

참고자료 또는 관련 자료:

관련 정보

답변1

답변2

답변3

답변4

설치 및 사용 지침 pdf2searchablepdf:

설치하다:

사용:

참고자료 또는 관련 자료:

관련 정보

설치 및 사용 지침 `pdf2searchablepdf`: