터미널의 텍스트를 다양한 텍스트 형식으로 저장하는 방법은 무엇입니까?

터미널의 텍스트를 다양한 텍스트 형식으로 저장하는 방법은 무엇입니까?

저는 OCR 소프트웨어를 사용하고 있는데, 특히 tesseract를 사용하는 데 시간을 보냈습니다. Linux 터미널에 이미지를 로드하고 tesseract가 이미지에서 텍스트를 추출할 수 있는 지점에 도달했습니다. 이제 찢어진 텍스트를 터미널에서 pdf, odf, txt 및 word 형식으로 자동 저장하는 방법을 알아내려고 노력 중입니다.

답변1

살펴보면 man 1 tesseract다음 형식의 명령을 사용하여 출력을 하나 이상의 특정 형식으로 저장할 수 있는 것 같습니다.

tesseract image_file output_file pdf txt

매개변수 중 4개는 일반 명령 요약에서 각각 FILE, OUTPUTBASE및 (두 번 반복됨) 역할을 합니다. CONFIGFILE이 명령은 두 개의 파일 output_file.pdfoutput_file.txt.

관련 정보