먼저, 이전에 이런 질문이 있었다면 사과드립니다. 기존 게시물 중에서 한동안 검색해 보았지만 지원을 찾을 수 없었습니다.
저는 여러 페이지로 구성된 검색 불가능한 PDF를 OCR하고 해당 PDF를 이미지 위에 텍스트 레이어가 포함된 새 PDF 파일로 변환하는 Fedora의 솔루션에 관심이 있습니다. Mac OSX 또는 Windows에서는 Adobe Acrobat을 사용할 수 있지만 Linux(특히 Fedora)에 대한 솔루션이 있습니까?
이것설명된 해결책이 있는 것 같습니다. 하지만 불행히도 정확한 이미지를 검색하는 동안 손실되었습니다.
답변1
ocrmypdf
잘 수행되었으며 다음과 같이 사용할 수 있습니다.
ocrmypdf in.pdf out.pdf
설치하다:
pip install ocrmypdf
또는
sudo apt install ocrmypdf # ubuntu
sudo dnf -y install ocrmypdf # fedora
답변2
학습 후하이퍼큐브이제 검색 가능한 PDF를 생성하는 것도 가능합니다. 스크립트 샌드위치를 찾았습니다.http://www.tobias-elze.de/pdfsandwich/
종속성을 설치한 후(전체 목록이 아닐 수 있음)
sudo dnf install svn ocaml unpaper tesseract
스크립트 가이드에 따라 소스에서 컴파일했습니다.
소스 코드에서 컴파일
pdfsandwich는 오픈 소스 소프트웨어입니다(라이센스: GPL). 프로젝트 웹사이트의 다운로드 영역에서 .tar.bz2 패키지의 소스 코드를 다운로드하거나 Subversion을 통해 볼 수 있습니다.
svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.
cd pdfsandwich
./configure
make
sudo make install
이제 달릴 수 있어
sandwich multipaged-non-searchable.pdf
검색 가능한 PDF를 생성합니다.
여기pdfsandwich가 포함된 저장소(예: Debian Stable, AUR, Homebrew) 목록입니다.
답변3
Ubuntu에서 사용할 수 있는 간단한 도구는 PDF를 생성하고 원본 문서에 OCR 텍스트를 오버레이할 수 있는 "ocrfeeder"입니다. Tesseract 및 기타 OCR 엔진(어느 것인지 확실하지 않음)을 사용하고 이미지 회전/"종이 풀기" 등을 제공합니다.
답변4
저도 같은 문제가 있어서 주말에 이 글을 썼습니다. 한번 시도해 보세요. 훌륭하게 작동합니다! 심플한 패키지 입니다 tesseract
. pdftoppm
PDF를 TIFF 파일 묶음으로 변환한 다음 tesseract
OCR(광학 문자 인식)을 수행하고 검색 가능한 PDF를 출력으로 생성하는 데 사용됩니다 . 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.
소스 코드:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
설치 및 사용 지침 pdf2searchablepdf
:
테스트 대상우분투18.042019년 11월 11일 이후우분투 20.042020년 11월.
설치하다:
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
sudo apt update
sudo apt install tesseract-ocr
사용:
# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]
# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf
# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs
이제 다음과 같은 파일이 생성됩니다.mypdf_searchable.pdf, 검색 가능한 텍스트가 포함되어 있습니다!
완벽한. 현재 완전히 bash로 작성되었으므로 Python 종속성이 없습니다.
pdf2searchablepdf -h
더 많은 옵션과 예시를 보려면 리소스 도움말 메뉴를 참조하세요 .
참고자료 또는 관련 자료:
- PDF2 검색 가능한 PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
- https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
- https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
- https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
- PDF 샌드위치:방금 발견한 대체 소프트웨어 래퍼도 시도해 볼 가치가 있습니다!http://www.tobias-elze.de/pdfsandwich/