Linux의 명령줄에서 OCR을 사용하는 방법은 무엇입니까?

Question 1

입방체아마도 여기서 가장 일반적인 솔루션 일 것입니다. 대부분의 패키지 저장소에서 사용할 수 있습니다.

sudo apt install tesseract-ocr

그리고 함께 사용할 수 있습니다

tesseract input.png out.txt

Answer

입방체아마도 여기서 가장 일반적인 솔루션 일 것입니다. 대부분의 패키지 저장소에서 사용할 수 있습니다.

sudo apt install tesseract-ocr

그리고 함께 사용할 수 있습니다

tesseract input.png out.txt

Question 2

Install imagemagick( pdftotext일부 패키지 관리자에 명명된 패키지에 있음 poppler-utils) 및Ocrmypdf. 후자는 빠르고(ocr은 CPU 집약적이며 모든 코어를 사용하도록 구성됨) 오픈 소스이며 자주 업데이트되는 OCR 소프트웨어입니다. 이 접근 방식은 실제로 단어에 태그를 지정하는 것이 아니라 각 단어에 문자열을 할당하려고 하기 때문에 약간 과잉일 수 있지만 전반적으로 사용하기 쉽고 좋은 오픈 소스 OCR 소프트웨어를 찾는 데 많은 어려움을 겪고 있습니다. 그런 다음 모든 JPG가 저장된 디렉토리에서:

$ convert *.jpg pictures.pdf
$ ocrmypdf pictures.pdf scanned.pdf
$ pdftotext scanned.pdf scanned.txt
$ wc -w scanned.txt

Answer

Install imagemagick( pdftotext일부 패키지 관리자에 명명된 패키지에 있음 poppler-utils) 및Ocrmypdf. 후자는 빠르고(ocr은 CPU 집약적이며 모든 코어를 사용하도록 구성됨) 오픈 소스이며 자주 업데이트되는 OCR 소프트웨어입니다. 이 접근 방식은 실제로 단어에 태그를 지정하는 것이 아니라 각 단어에 문자열을 할당하려고 하기 때문에 약간 과잉일 수 있지만 전반적으로 사용하기 쉽고 좋은 오픈 소스 OCR 소프트웨어를 찾는 데 많은 어려움을 겪고 있습니다. 그런 다음 모든 JPG가 저장된 디렉토리에서:

$ convert *.jpg pictures.pdf
$ ocrmypdf pictures.pdf scanned.pdf
$ pdftotext scanned.pdf scanned.txt
$ wc -w scanned.txt

Question 3

이미지 파일을 480% 확대하고, 회색조로 변경하고, 흰색으로 다시 채우고, 선명하게 하고, tesseract OCR을 사용하여 추출합니다. 매우 큰 글꼴과 검정색 배경에 흰색 텍스트를 제외하고는 대부분의 상황에서 잘 작동합니다. 글꼴이 매우 큰 경우 200% 또는 300%로만 확대할 수 있습니다.

 convert -colorspace gray -fill white  -resize 480%  -sharpen 0x1  file.png file.jpg
 tesseract file.jpg file

결과는 file.txt에 있습니다.

Answer

이미지 파일을 480% 확대하고, 회색조로 변경하고, 흰색으로 다시 채우고, 선명하게 하고, tesseract OCR을 사용하여 추출합니다. 매우 큰 글꼴과 검정색 배경에 흰색 텍스트를 제외하고는 대부분의 상황에서 잘 작동합니다. 글꼴이 매우 큰 경우 200% 또는 300%로만 확대할 수 있습니다.

 convert -colorspace gray -fill white  -resize 480%  -sharpen 0x1  file.png file.jpg
 tesseract file.jpg file

결과는 file.txt에 있습니다.

Question 4

Linux 사용자의 경우 Calibre를 사용하여 pdf를 docx로 변환하는 것보다 더 효율적인 것은 없습니다.https://calibre-ebook.com/download_linux

Answer

Linux 사용자의 경우 Calibre를 사용하여 pdf를 docx로 변환하는 것보다 더 효율적인 것은 없습니다.https://calibre-ebook.com/download_linux

Linux의 명령줄에서 OCR을 사용하는 방법은 무엇입니까?

답변1

답변2

답변3

답변4

관련 정보