수천 장의 스캔 페이지가 있습니다. 각 페이지는 개별적으로 JPG로 저장됩니다. 텍스트는 명확하지만 글꼴이 다양하고 페이지에 그림과 그림이 포함되어 있습니다.
각 JPG 파일에 나타나는 모든 단어의 목록을 만들어야 합니다. 단어 발생 목록을 나열하는 이미지 스캔용 명령줄 도구가 있습니까? 완벽한 스캔일 필요는 없으며 단지 추정치일 뿐입니다.
답변1
입방체아마도 여기서 가장 일반적인 솔루션 일 것입니다. 대부분의 패키지 저장소에서 사용할 수 있습니다.
sudo apt install tesseract-ocr
그리고 함께 사용할 수 있습니다
tesseract input.png out.txt
답변2
Install imagemagick
( pdftotext
일부 패키지 관리자에 명명된 패키지에 있음 poppler-utils
) 및Ocrmypdf. 후자는 빠르고(ocr은 CPU 집약적이며 모든 코어를 사용하도록 구성됨) 오픈 소스이며 자주 업데이트되는 OCR 소프트웨어입니다. 이 접근 방식은 실제로 단어에 태그를 지정하는 것이 아니라 각 단어에 문자열을 할당하려고 하기 때문에 약간 과잉일 수 있지만 전반적으로 사용하기 쉽고 좋은 오픈 소스 OCR 소프트웨어를 찾는 데 많은 어려움을 겪고 있습니다. 그런 다음 모든 JPG가 저장된 디렉토리에서:
$ convert *.jpg pictures.pdf
$ ocrmypdf pictures.pdf scanned.pdf
$ pdftotext scanned.pdf scanned.txt
$ wc -w scanned.txt
답변3
이미지 파일을 480% 확대하고, 회색조로 변경하고, 흰색으로 다시 채우고, 선명하게 하고, tesseract OCR을 사용하여 추출합니다. 매우 큰 글꼴과 검정색 배경에 흰색 텍스트를 제외하고는 대부분의 상황에서 잘 작동합니다. 글꼴이 매우 큰 경우 200% 또는 300%로만 확대할 수 있습니다.
convert -colorspace gray -fill white -resize 480% -sharpen 0x1 file.png file.jpg
tesseract file.jpg file
결과는 file.txt에 있습니다.
답변4
Linux 사용자의 경우 Calibre를 사용하여 pdf를 docx로 변환하는 것보다 더 효율적인 것은 없습니다.https://calibre-ebook.com/download_linux