ocr

OCR을 사용하여 제대로 스캔되지 않은 공개 도메인 도서를 읽기 쉽게 만듭니다.
ocr

OCR을 사용하여 제대로 스캔되지 않은 공개 도메인 도서를 읽기 쉽게 만듭니다.

나는 아주 오래된 공개 도서의 소프트 카피를 얻었습니다. 그림은 충분히 선명하지만 텍스트가 약간 흐릿합니다. 나는 Tesseract OCR을 시도했고 몇 가지 오류가 있는 놀라운 수의 단어를 인식했지만 별도의 파일에 뒤죽박죽으로 뱉어냈습니다. 질문: Tesseract나 기타 OCR에서 텍스트를 인식한 다음 선이나 그림과 같은 다른 요소를 변경하지 않고 흐리게 처리된 원본 텍스트 위에 배치할 수 있는 방법이 있습니까? 그리고 이것이 가능하다면 Tesseract나 다른 OCR이 원본 텍스트의 다른 크...

Admin

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?
ocr

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?

ScanTailor의 .tif 파일이 많이 있습니다. tesseract를 사용하여 해당 .tif를 OCR하여 이미지에서 OCR 데이터를 분리할 수 있는 방법이 있습니까? 그런 다음 이미지를 압축하고 마지막으로 OCR 데이터를 압축된 이미지와 결합하시겠습니까? 요점은 OCR 이전에 압축하고 싶지 않으며 나중에 PDF를 압축하고 OCR을 보존할 수 있는 좋은 도구가 없다는 것입니다. ...

Admin

ocr bash 스크립트를 사용하여 스캔하는 방법
ocr

ocr bash 스크립트를 사용하여 스캔하는 방법

스캔 프로세스를 단순화하기 위해 한 단계로 OCR을 스캔하고 적용할 수 있는 스크립트를 생성하겠습니다. 그러나 내 bash 기술은 매우 열악하므로 도움을 주시면 정말 감사하겠습니다. 내 시도는 다음과 같습니다. #!/bin/bash mydate="$(date +"%Y%m%d-%H%M%S")" image="$(scanimage --device "brother4:net1;dev0" --progress --verbose --resolution=600 -l 0 -t 0 -x 210 -y 297 --form...

Admin

Linux용 MacOS와 같은 OCR?
ocr

Linux용 MacOS와 같은 OCR?

Linux에서 텍스트를 복사하는 방법과 유사하게 Linux에서 똑같이 유비쿼터스 OCR 기능을 설정하는 방법모든 이미지존재하다모든 소프트웨어MacOS와 iOS에서요? 저는 Gnome DE와 함께 EndevourOS를 사용하고 있습니다. ...

Admin

터미널에서 (`ocrmypdf`) 명령을 실행하고 출력 이름에 입력 이름을 포함시킵니다.
ocr

터미널에서 (`ocrmypdf`) 명령을 실행하고 출력 이름에 입력 이름을 포함시킵니다.

PDF 처리를 위한 다른 많은 명령이 포함된 Dolphin 서비스 메뉴 파일에 다음 줄이 있습니다. Exec=bash -c 'f="%u"; ocrmypdf "$f" "${f%.pdf}_ocr.pdf";' MY_PDF_ocr.pdf입력 파일의 이름을 유지하는 형식으로 출력 파일을 제공한다는 장점이 있습니다 . 하지만 저는 konsole프로세스를 볼 수 있도록 터미널()에서 명령을 실행하는 것을 선호합니다. 이를 위해 다음 줄을 사용할 수 있습니다. Exec=konsole --noclose -e ocr...

Admin

컬러 배경에 입력된 텍스트를 인식하기 위한 최고의 명령줄 OCR 소프트웨어
ocr

컬러 배경에 입력된 텍스트를 인식하기 위한 최고의 명령줄 OCR 소프트웨어

다음과 같은 이미지에서 텍스트를 추출해야 합니다. 보시다시피 텍스트는 손으로 직접 쓴 것이 아니라 타이핑한 것입니다. 게다가 배경도 화려하다. Tesseract OCR을 사용해 보았는데 가끔 작동했지만 특정 입력에서는 끔찍하게 실패했습니다. 위의 예에서는 "Due CoN aicomrBi em Cela RTL"을 생성합니다. 어떤 명령줄 OCR 소프트웨어를 권장합니까? Tesseract가 최선의 선택이라면 Tesseract의 캐릭터를 더 쉽게 식별할 수 있도록 이러한 이미지를 변환할 수 있습니까? 편...

Admin

OCR 처리를 위해 텍스트 형식을 지정하는 방법은 무엇입니까?
ocr

OCR 처리를 위해 텍스트 형식을 지정하는 방법은 무엇입니까?

(1), (2), (3), (4), (5)로 시작하는 인용문으로 중단된 모든 단락을 연결하고 싶다고 가정해 보겠습니다. Bash에서 이것을 어떻게 표현/자동화할 수 있나요? 한 페이지에 최대 5개의 인용이 가능하므로 1, 1-2, 1-2-3, 1-2-3-4, 1-2-의 조합을 모두 기억해야 한다는 점을 명심하세요. 3 - 4 -5. 예: 새로운 원칙을 대조하기 위해 항상 모든 임금과 함께 사용됩니다. 세상에서 가장 아름다운 것 Leur réunion. 인민 대중은 참으로 주권자이고, 주이며, 최고의...

Admin

OCR의 기존 텍스트 레이어를 유지하면서 스캔한 PDF 파일의 색상을 변환하고 스캔 해상도를 줄여 메모리를 절약할 수 있습니까?
ocr

OCR의 기존 텍스트 레이어를 유지하면서 스캔한 PDF 파일의 색상을 변환하고 스캔 해상도를 줄여 메모리를 절약할 수 있습니까?

오래 전에 스캔되어 이미 검색 가능한(즉, OCR 처리된) PDF 파일이 많이 있습니다. 그러나 조명 수준과 대비 설정이 최적이 아닙니다. 기존 파일의 픽셀당 비트 수를 합리적으로 낮은 수준으로 줄이는 것이 가능합니까?저장 공간을 절약하기 위해(Gimp나 기타 이미지 조작 프로그램과 마찬가지로 색상 곡선 변환, 톤 분리 또는 흑백으로의 이진화 수행)? 파일은 600dpi로 스캔되며 이미 검색 가능합니다. 즉, 스캔한 이미지 외에 텍스트 레이어가 있습니다. 더 나은 OCR 결과를 얻기 위해 이러한 높은...

Admin

문자 인식을 위해 tesseract를 사용하면 결과가 예상과 다릅니다(더 나쁨). 나아지는 방법은 무엇입니까?
ocr

문자 인식을 위해 tesseract를 사용하면 결과가 예상과 다릅니다(더 나쁨). 나아지는 방법은 무엇입니까?

내 질문에 Linux 부팅의 출력을 추가하고 광학 문자 인식을 시도하기로 결정했습니다. 2022년에는 확실히 괜찮은 오픈 소스 옵션이 있어야 한다고 생각했습니다(오랜 시간 동안 OCR을 시도하지 않았습니다). "좋은 리뷰"에 대한 웹 검색을 통해 찾은 링크입니다 tesseract.https://www.linuxlinks.com/ocrtools/차트에서 두 번째로 좋습니다.https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solutio...

Admin

Awesome Window Manager를 통한 NormCap OCR
ocr

Awesome Window Manager를 통한 NormCap OCR

제가 최근 접한 가장 멋진 프로그램 중 하나는 광학 문자 인식(OCR) 프로그램입니다.사양 상한. 나는 그것을 단축키에 묶었고 강조할 수 없는 텍스트를 클립보드에 복사하고 싶을 때마다 단축키를 사용하여 해당(이전에는 비협조적이었던) 텍스트를 잡고 클립보드에 텍스트로 넣을 수 있습니다. 극복해라, 이 형편없는 UI야! 이것을 텍스트 이미지로 가져가세요! 그런데 최근에 설치를 해보니놀라운. 그 시점부터 이 AppImage는 더 이상 작동하지 않습니다. 완전히 Awesome을 잠그거나 때로는 정상적으로 작...

Admin

OCR 손으로 쓴(영어가 아닌) 텍스트를 수동으로 OCR/학습시킬 수 있는 소프트웨어가 있습니까?
ocr

OCR 손으로 쓴(영어가 아닌) 텍스트를 수동으로 OCR/학습시킬 수 있는 소프트웨어가 있습니까?

Tesseract/Abbyy Finereader 등이 해결할 수 없는 문제에 직면했습니다. 예를 들어 손으로 쓴 러시아어를 인식할 수 없었습니다. 그래서 검색해 이런 종류의 OCR 소프트웨어 또는 PDF 방법을 수동으로 OCR합니다(레이어 생성, 사각형 그리기, 수동으로 텍스트 채우기). 일부 수동 작업 후에는 OCR 엔진을 로컬에서 학습하여 자동화할 수도 있습니다. ...

Admin

출력 PDF 옵션을 사용할 때 Tesseract에 대한 여러 입력 파일을 지정하는 방법(명령줄에서 "병렬"로만 작동)
ocr

출력 PDF 옵션을 사용할 때 Tesseract에 대한 여러 입력 파일을 지정하는 방법(명령줄에서 "병렬"로만 작동)

디렉토리의 모든 파일을 pdf로 테서랙션하려고 합니다. 이 명령은 잘 작동합니다. ls * | parallel -j 4 tesseract {} {.} pdf 각 입력 파일에 대해 PDF를 생성합니다. 그러나 병렬 접근 방식 없이는 작동할 수 없습니다. 다음을 입력하면: for i in * ; do tesseract $i $1 pdf; done; pdf 파일은 생성되지 않지만 다음과 같은 파일이 생성됩니다.pdf.txt 병렬 옵션을 사용하지 않고 폴더의 입력 파일에서 PDF를 만드는 가장 좋은 방...

Admin

텍스트 없이 PDF 찾기
ocr

텍스트 없이 PDF 찾기

PDF가 많이 포함된 폴더가 많은데, 텍스트 레이어가 없는 폴더를 광학적으로 문자 인식하고 싶습니다. 그래서 먼저 그들을 찾고 싶습니다. 아마도 튜브가 pdfgrep그 역할을 할 것이라고 생각했지만 길을 잃었습니다. 텍스트 없이 PDF를 찾는 방법은 무엇입니까? ...

Admin

Cygwin 설치 후 ocrmypdf 실행 파일은 어디에 있습니까?
ocr

Cygwin 설치 후 ocrmypdf 실행 파일은 어디에 있습니까?

나는 팔로우한다이 페이지OCRmyPDFCygwin에 설치되었습니다 . 관리자가 아닌 계정에서 이 작업을 수행했기 때문에 프로세스가 ~/.local/필요한 파일을 생성하게 되었습니다. 그러나 다음 명령은 일치하는 실행 파일을 생성하지 않습니다 ocrmypdf. $ find ~ /!(c|cygdrive) -name 'ocrmypdf*' # Nothing from Bash $ python3 >>> ocrmypdf --help # From Python Traceback (most rec...

Admin

질문
ocr

질문

질문 스캔하고 디지털화하고 싶은 오래된 책이 많이 있습니다. 나는 이것을 위해 평판 스캐너를 사용했는데 xsane훌륭하게 GImageReader작동했습니다. 몇 년 전, 아직도 Windows에서 이런 일을 하고 있을 때 사용 ABBY Fine Reader하고 만족했지만 Linux에서는 사용할 수 없습니다. 이제 지금 만든 PDF와 이전에 만든 PDF를 비교해 보면 오늘의 파일이 훨씬 더 크다는 것을 알 수 있습니다. ABBY를 사용하면 파일 크기가 10~50MB 사이인 50~60페이지의 PDF를 얻을...

Admin