tesseract

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?
tesseract

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?

ScanTailor의 .tif 파일이 많이 있습니다. tesseract를 사용하여 해당 .tif를 OCR하여 이미지에서 OCR 데이터를 분리할 수 있는 방법이 있습니까? 그런 다음 이미지를 압축하고 마지막으로 OCR 데이터를 압축된 이미지와 결합하시겠습니까? 요점은 OCR 이전에 압축하고 싶지 않으며 나중에 PDF를 압축하고 OCR을 보존할 수 있는 좋은 도구가 없다는 것입니다. ...

Admin

컬러 배경에 입력된 텍스트를 인식하기 위한 최고의 명령줄 OCR 소프트웨어
tesseract

컬러 배경에 입력된 텍스트를 인식하기 위한 최고의 명령줄 OCR 소프트웨어

다음과 같은 이미지에서 텍스트를 추출해야 합니다. 보시다시피 텍스트는 손으로 직접 쓴 것이 아니라 타이핑한 것입니다. 게다가 배경도 화려하다. Tesseract OCR을 사용해 보았는데 가끔 작동했지만 특정 입력에서는 끔찍하게 실패했습니다. 위의 예에서는 "Due CoN aicomrBi em Cela RTL"을 생성합니다. 어떤 명령줄 OCR 소프트웨어를 권장합니까? Tesseract가 최선의 선택이라면 Tesseract의 캐릭터를 더 쉽게 식별할 수 있도록 이러한 이미지를 변환할 수 있습니까? 편...

Admin

Tesseract는 프로세스 교체를 허용하지 않습니다.
tesseract

Tesseract는 프로세스 교체를 허용하지 않습니다.

tesseract클립보드의 이미지에 OCR 도구(OCR 도구)를 사용하여 텍스트로 변환하고 출력하는 빠른 스크립트를 만들고 있습니다 . 다음과 같습니다. #!/bin/sh temp="$(mktemp tmpXXX.png)" xclip -selection clipboard -t image/png -o > $temp tesseract $temp stdout 2>/dev/null rm $temp tesseract <(xclip -selection clipboard -t image/png ...

Admin

파일 관리자 상황에 맞는 메뉴에 대한 tesseract 스크립트 작성
tesseract

파일 관리자 상황에 맞는 메뉴에 대한 tesseract 스크립트 작성

파일 관리자 상황에 맞는 메뉴 스크립트는 때때로 GUI 유틸리티를 사용하는 것보다 작업을 더 빠르게 수행할 수 있습니다. 따라서 초보적인 스크립팅 기술에도 불구하고 저는 오랫동안 Dolphin, Nautilus 및 Nemo 파일 관리자에서 수십 개의 간단하고 복잡한 스크립트를 사용해 작업해 왔습니다. 그러나 이번에는 선택한 이미지 파일에 대해 OCR을 사용하는 매우 간단한 루프에 갇혀 있습니다.정팔포체존재하다돌고래, 다른 많은 스크립트와 함께 작동합니다. for filename in "${@}"; d...

Admin

문자 인식을 위해 tesseract를 사용하면 결과가 예상과 다릅니다(더 나쁨). 나아지는 방법은 무엇입니까?
tesseract

문자 인식을 위해 tesseract를 사용하면 결과가 예상과 다릅니다(더 나쁨). 나아지는 방법은 무엇입니까?

내 질문에 Linux 부팅의 출력을 추가하고 광학 문자 인식을 시도하기로 결정했습니다. 2022년에는 확실히 괜찮은 오픈 소스 옵션이 있어야 한다고 생각했습니다(오랜 시간 동안 OCR을 시도하지 않았습니다). "좋은 리뷰"에 대한 웹 검색을 통해 찾은 링크입니다 tesseract.https://www.linuxlinks.com/ocrtools/차트에서 두 번째로 좋습니다.https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solutio...

Admin

OCR 손으로 쓴(영어가 아닌) 텍스트를 수동으로 OCR/학습시킬 수 있는 소프트웨어가 있습니까?
tesseract

OCR 손으로 쓴(영어가 아닌) 텍스트를 수동으로 OCR/학습시킬 수 있는 소프트웨어가 있습니까?

Tesseract/Abbyy Finereader 등이 해결할 수 없는 문제에 직면했습니다. 예를 들어 손으로 쓴 러시아어를 인식할 수 없었습니다. 그래서 검색해 이런 종류의 OCR 소프트웨어 또는 PDF 방법을 수동으로 OCR합니다(레이어 생성, 사각형 그리기, 수동으로 텍스트 채우기). 일부 수동 작업 후에는 OCR 엔진을 로컬에서 학습하여 자동화할 수도 있습니다. ...

Admin

터미널의 텍스트를 다양한 텍스트 형식으로 저장하는 방법은 무엇입니까?
tesseract

터미널의 텍스트를 다양한 텍스트 형식으로 저장하는 방법은 무엇입니까?

저는 OCR 소프트웨어를 사용하고 있는데, 특히 tesseract를 사용하는 데 시간을 보냈습니다. Linux 터미널에 이미지를 로드하고 tesseract가 이미지에서 텍스트를 추출할 수 있는 지점에 도달했습니다. 이제 찢어진 텍스트를 터미널에서 pdf, odf, txt 및 word 형식으로 자동 저장하는 방법을 알아내려고 노력 중입니다. ...

Admin

RHEL에서 오프라인으로 tesseract 설치
tesseract

RHEL에서 오프라인으로 tesseract 설치

RHEL 기반 서버가 있지만 인터넷에 연결할 수 없습니다. 이 서버에 Tesseract >4.0을 설치해야 합니다. 그래서 제가 선택한 방법은 다른 곳에서 RPM 패키지를 다운로드하여 서버로 옮긴 후 rpm명령을 사용하여 설치하는 것이었습니다. 나는 (https://build.opensuse.org/project/show/home:Alexander_Pozdnyakov) 공식 tesseract 문서에서 RPM을 다운로드합니다. 문제는 이러한 RPM을 설치하려고 할 때 다른 종속성이 많아 모두 가져...

Admin

Debian Buster: Tesseract는 URL을 매개변수로 지원하지 않습니다.
tesseract

Debian Buster: Tesseract는 URL을 매개변수로 지원하지 않습니다.

호스팅된 이미지의 텍스트를 구문 분석하려고 하는데 Tesseract를 잘못 구성한 것 같습니다. 저는 Debian Buster를 사용하고 tesseract-ocr있으며 libtesseract-devRuby 래퍼가 설치되어 있습니다. # $ tesseract -v tesseract 4.0.0 leptonica-1.76.0 libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : l...

Admin

질문
tesseract

질문

질문 pytesseract.image_to_string()Supervisordd를 통해 스크립트를 실행하면 시간이 너무 오래 걸리지만 셸에서 직접 실행하면(동일한 서버에서 감독자 스크립트와 동시에) 거의 즉시 실행됩니다. 시간이 너무 많이 걸릴 뿐만 아니라 이러한 프로세스는 CPU 사용량도 높습니다. pytesseract.image_to_string()Supervisord를 통해 실행하는 데 필요한 시간: ~30s Bash를 통해 실행하는 데 필요한 시간 pytesseract.image_to_...

Admin

Leptonica 컴파일 오류
tesseract

Leptonica 컴파일 오류

Ubuntu 16에 leptonica v1.78을 설치하려고 시도했지만 어떤 이유로 작동하지 않습니다. 실행한 ./configure후 make다음 오류가 계속 발생합니다. make[2]: Entering directory '/home/user/Documents/leptonica/leptonica-1.78.0/prog' CC convertfilestopdf.o CCLD convertfilestopdf ../src/.libs/liblept.so: undefined referen...

Admin

tesseract: OCRed PDF에서 글꼴 출력을 변경할 수 있습니까?
tesseract

tesseract: OCRed PDF에서 글꼴 출력을 변경할 수 있습니까?

후속 조치PDF 파일을 OCR하고 PDF에 저장된 텍스트를 얻는 방법은 무엇입니까?OCRed pdf 페이지를 성공적으로 만들었습니다. 하지만 Evince에서는 이러한 문자가 표시되지 않습니다. 즉, 문자를 볼 수는 없지만 문자를 선택하고 복사하여 다른 곳에 성공적으로 붙여넣을 수 있습니다. 이것은 Evince의 잘못이 아닌 것 같습니다.https://bugzilla.redhat.com/show_bug.cgi?id=1364201 pdfsandwich를 사용하여 PDF 페이지의 OCR을 시작하면 te...

Admin

Debian 6 64비트용 Tesseract 바이너리는 어디서 구할 수 있나요?
tesseract

Debian 6 64비트용 Tesseract 바이너리는 어디서 구할 수 있나요?

apt-get을 사용하여 Tesseract를 설치했지만 실제로 작동하지 않았습니다. 어딘가에서 바이너리를 다운로드하여 디렉토리에 넣고 그런 식으로 사용할 수 있을까요? 지금 내 Tesseract에 무슨 문제가 있나요? tesseract --help tesseract:Error:Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...] 그리고 tesseract test.tif out2.txt -l pol Unabl...

Admin

키바인딩을 통해 실행된 스크립트가 파일에 기록되지 않습니다.
tesseract

키바인딩을 통해 실행된 스크립트가 파일에 기록되지 않습니다.

다음 bash 스크립트는 이미지 파일의 텍스트를 해석하여 .txt 파일에 씁니다. #!/usr/bin/env bash LD_LIBRARY_PATH="/usr/local/lib" export LD_LIBRARY_PATH /usr/local/bin/tesseract /home/martin/work/textpic.png /home/martin/work/tesseract-out 터미널에서 실행하면 tesseract-out.txt가 생성되지만 사용자 정의 키보드 단축키를 통해 실행하면 아무 것도 기록...

Admin