이미지가 많고 그 중 영어 텍스트가 포함된 이미지를 찾아야 합니다(제거하려면). 자동으로 할 수 있나요?
답변1
저도 같은 문제가 발생했습니다. 해결 방법을 공유하겠습니다.
find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +
모든 하위 디렉터리를 검사하고 "blacklist"라는 파일을 기반으로 일치하는 OCR 패턴을 제거합니다. 유일한 문제는 파일에 공백이 있으면 올바르게 구문 분석하지 않고 대신 파일의 첫 번째 단어에 대해 작업을 시도한다는 것입니다.
편집: 블랙리스트 파일에 빈 줄을 두지 않도록 주의하십시오.
답변2
예를 들어 오픈 소스 OCR 엔진을 사용할 수 있습니다.우주 큐브영어 텍스트가 있는지 확인합니다.