호스팅된 이미지의 텍스트를 구문 분석하려고 하는데 Tesseract를 잘못 구성한 것 같습니다. 저는 Debian Buster를 사용하고 tesseract-ocr
있으며 libtesseract-dev
Ruby 래퍼가 설치되어 있습니다.
# $ tesseract -v
tesseract 4.0.0
leptonica-1.76.0
libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found SSE
터미널 내에서 tesseract <URL.png> output
반환됩니다 Error, cannot read input <URL.png>: No such file or directory
. Ruby gem을 사용하면 동일한 오류 메시지가 발생합니다.
패키지를 설치한 후 뭔가를 놓쳤습니까? 이것문서Ubuntu에 transeddata 디렉토리를 수동으로 배치하는 것에 대해 말하면 Debian에서도 수행해야 합니까?
현재 훈련 데이터는 스냅 패키지와 함께 제공되지 않으며 ~/snap/tesseract/current에 수동으로 배치해야 합니다.
curl
로컬 경로를 매개변수로 사용하여 작동하게 할 수 있지만 URL을 매개변수로 지원해야 합니다.
감사해요
편집하다
나는 v4.1.1과 v5.0.0을 통해 테스트했습니다.이것들tessdata 디렉터리를 설명하고 설정합니다. 둘 다 명시적으로 지원되지 않는 URL을 반환합니다.
Tesseract Open Source OCR Engine v5.0.0-alpha-647-g4a00 with Leptonica
Error, this tesseract has no URL support
Error during processing.
나는 분명히 뭔가를 놓치고 있기 때문에릴리즈 노트4.1.1부터 URL을 지원한다고 합니다.