PDF 파일을 OCR하고 PDF에 저장된 텍스트를 가져오는 방법은 무엇입니까?

PDF 파일을 OCR하고 PDF에 저장된 텍스트를 가져오는 방법은 무엇입니까?

먼저, 이전에 이런 질문이 있었다면 사과드립니다. 기존 게시물 중에서 한동안 검색해 보았지만 지원을 찾을 수 없었습니다.

저는 여러 페이지로 구성된 검색 불가능한 PDF를 OCR하고 해당 PDF를 이미지 위에 텍스트 레이어가 포함된 새 PDF 파일로 변환하는 Fedora의 솔루션에 관심이 있습니다. Mac OSX 또는 Windows에서는 Adobe Acrobat을 사용할 수 있지만 Linux(특히 Fedora)에 대한 솔루션이 있습니까?

이것설명된 해결책이 있는 것 같습니다. 하지만 불행히도 정확한 이미지를 검색하는 동안 손실되었습니다.

답변1

ocrmypdf잘 수행되었으며 다음과 같이 사용할 수 있습니다.

ocrmypdf in.pdf out.pdf

설치하다:

pip install ocrmypdf

또는

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

답변2

학습 후하이퍼큐브이제 검색 가능한 PDF를 생성하는 것도 가능합니다. 스크립트 샌드위치를 ​​찾았습니다.http://www.tobias-elze.de/pdfsandwich/

종속성을 설치한 후(전체 목록이 아닐 수 있음)

sudo dnf install svn ocaml unpaper tesseract

스크립트 가이드에 따라 소스에서 컴파일했습니다.

소스 코드에서 컴파일

pdfsandwich는 오픈 소스 소프트웨어입니다(라이센스: GPL). 프로젝트 웹사이트의 다운로드 영역에서 .tar.bz2 패키지의 소스 코드를 다운로드하거나 Subversion을 통해 볼 수 있습니다.

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.

cd pdfsandwich
./configure
make
sudo make install

이제 달릴 수 있어

sandwich multipaged-non-searchable.pdf

검색 가능한 PDF를 생성합니다.

여기pdfsandwich가 포함된 저장소(예: Debian Stable, AUR, Homebrew) 목록입니다.

답변3

Ubuntu에서 사용할 수 있는 간단한 도구는 PDF를 생성하고 원본 문서에 OCR 텍스트를 오버레이할 수 있는 "ocrfeeder"입니다. Tesseract 및 기타 OCR 엔진(어느 것인지 확실하지 않음)을 사용하고 이미지 회전/"종이 풀기" 등을 제공합니다.

답변4

저도 같은 문제가 있어서 주말에 이 글을 썼습니다. 한번 시도해 보세요. 훌륭하게 작동합니다! 심플한 패키지 입니다 tesseract. pdftoppmPDF를 TIFF 파일 묶음으로 변환한 다음 tesseractOCR(광학 문자 인식)을 수행하고 검색 가능한 PDF를 출력으로 생성하는 데 사용됩니다 . 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.

소스 코드:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

설치 및 사용 지침 pdf2searchablepdf:

테스트 대상우분투18.042019년 11월 11일 이후우분투 20.042020년 11월.

설치하다:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

사용:

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

이제 다음과 같은 파일이 생성됩니다.mypdf_searchable.pdf, 검색 가능한 텍스트가 포함되어 있습니다!

완벽한. 현재 완전히 bash로 작성되었으므로 Python 종속성이 없습니다.

pdf2searchablepdf -h더 많은 옵션과 예시를 보려면 리소스 도움말 메뉴를 참조하세요 .

참고자료 또는 관련 자료:

  1. PDF2 검색 가능한 PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
  2. https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
  4. https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. PDF 샌드위치:방금 발견한 대체 소프트웨어 래퍼도 시도해 볼 가치가 있습니다!http://www.tobias-elze.de/pdfsandwich/

관련 정보