PDF가 많이 포함된 폴더가 많은데, 텍스트 레이어가 없는 폴더를 광학적으로 문자 인식하고 싶습니다. 그래서 먼저 그들을 찾고 싶습니다. 아마도 튜브가 pdfgrep
그 역할을 할 것이라고 생각했지만 길을 잃었습니다.
텍스트 없이 PDF를 찾는 방법은 무엇입니까?
답변1
네, pdfgrep
사용해 보는 것이 좋을 것 같습니다. 그것은 다음과 같습니다:
find . -name '*.[Pp][Dd][Ff]' -type f \
! -exec pdfgrep -q '\w' {} ';' -print
pdfgrep
단어 문자(숫자 또는 밑줄)가 없는 PDF 파일 목록이 보고됩니다.
(일부 구현의 경우 위 대신 find
사용할 수 있습니다 . 파일 이름이 현재 로케일에서 유효한 텍스트라고 가정합니다.)-iname '*.pdf'
-name '*.[Pp][Dd][Ff]'
1000단어 미만의 문자가 포함된 파일을 찾으려면 다음을 수행하세요.
find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
for file do
[ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
printf "%s\n" "$file"
done' sh {} +