파일 관리자 상황에 맞는 메뉴에 대한 tesseract 스크립트 작성

Question

내 생각엔 이것이 버그 때문일지도 모른다고 생각한다정팔포체. 따라서 대체 솔루션은 다음과 같습니다.

for filename in "${@}"; do
name="${filename%.*}"
ext="${filename##*.}"
output="${name}-alpha.${ext}"
convert "$filename" -alpha off "$output"
mv "$output" "$filename"
dpi="$(identify -units "PixelsPerInch" -format "%x\n" "$filename" | xargs printf "%.*f\n" "0")"
ocrmypdf -l eng --image-dpi "$dpi" "$filename" "${name}.pdf"
pdftotext -q "${name}.pdf"
ocr_txt="$(cat "${name}.txt" | sed -e "s///g" -e "s/\t/ /g" -e "s/  / /g" -e "/^\s*$/d")"
kdialog --title "Image OCR Text" --msgbox "$ocr_txt"
rm "${name}.pdf" "${name}.txt"

완벽한

그러면 ocrmypdf에서 요구하는 투명도(알파) 채널이 제거됩니다. 더 나은 결과를 위해 이미지 dpi 해상도를 전달한 다음 ocrmypdf를 사용하여 이미지를 OCR 텍스트 레이어가 포함된 PDF로 변환하고 마지막으로 이를 대화 상자 텍스트에 표시합니다. .

Answer 1

내 생각엔 이것이 버그 때문일지도 모른다고 생각한다정팔포체. 따라서 대체 솔루션은 다음과 같습니다.

for filename in "${@}"; do
name="${filename%.*}"
ext="${filename##*.}"
output="${name}-alpha.${ext}"
convert "$filename" -alpha off "$output"
mv "$output" "$filename"
dpi="$(identify -units "PixelsPerInch" -format "%x\n" "$filename" | xargs printf "%.*f\n" "0")"
ocrmypdf -l eng --image-dpi "$dpi" "$filename" "${name}.pdf"
pdftotext -q "${name}.pdf"
ocr_txt="$(cat "${name}.txt" | sed -e "s///g" -e "s/\t/ /g" -e "s/  / /g" -e "/^\s*$/d")"
kdialog --title "Image OCR Text" --msgbox "$ocr_txt"
rm "${name}.pdf" "${name}.txt"

완벽한

그러면 ocrmypdf에서 요구하는 투명도(알파) 채널이 제거됩니다. 더 나은 결과를 위해 이미지 dpi 해상도를 전달한 다음 ocrmypdf를 사용하여 이미지를 OCR 텍스트 레이어가 포함된 PDF로 변환하고 마지막으로 이를 대화 상자 텍스트에 표시합니다. .

파일 관리자 상황에 맞는 메뉴에 대한 tesseract 스크립트 작성

답변1

관련 정보