![터미널의 텍스트를 다양한 텍스트 형식으로 저장하는 방법은 무엇입니까?](https://linux55.com/image/189183/%ED%84%B0%EB%AF%B8%EB%84%90%EC%9D%98%20%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%A5%BC%20%EB%8B%A4%EC%96%91%ED%95%9C%20%ED%85%8D%EC%8A%A4%ED%8A%B8%20%ED%98%95%EC%8B%9D%EC%9C%BC%EB%A1%9C%20%EC%A0%80%EC%9E%A5%ED%95%98%EB%8A%94%20%EB%B0%A9%EB%B2%95%EC%9D%80%20%EB%AC%B4%EC%97%87%EC%9E%85%EB%8B%88%EA%B9%8C%3F.png)
저는 OCR 소프트웨어를 사용하고 있는데, 특히 tesseract를 사용하는 데 시간을 보냈습니다. Linux 터미널에 이미지를 로드하고 tesseract가 이미지에서 텍스트를 추출할 수 있는 지점에 도달했습니다. 이제 찢어진 텍스트를 터미널에서 pdf, odf, txt 및 word 형식으로 자동 저장하는 방법을 알아내려고 노력 중입니다.
답변1
살펴보면 man 1 tesseract
다음 형식의 명령을 사용하여 출력을 하나 이상의 특정 형식으로 저장할 수 있는 것 같습니다.
tesseract image_file output_file pdf txt
매개변수 중 4개는 일반 명령 요약에서 각각 FILE
, OUTPUTBASE
및 (두 번 반복됨) 역할을 합니다. CONFIGFILE
이 명령은 두 개의 파일 output_file.pdf
과 output_file.txt
.