텍스트 없이 PDF 찾기

텍스트 없이 PDF 찾기

PDF가 많이 포함된 폴더가 많은데, 텍스트 레이어가 없는 폴더를 광학적으로 문자 인식하고 싶습니다. 그래서 먼저 그들을 찾고 싶습니다. 아마도 튜브가 pdfgrep그 역할을 할 것이라고 생각했지만 길을 잃었습니다.

텍스트 없이 PDF를 찾는 방법은 무엇입니까?

답변1

네, pdfgrep사용해 보는 것이 좋을 것 같습니다. 그것은 다음과 같습니다:

find . -name '*.[Pp][Dd][Ff]' -type f \
  ! -exec pdfgrep -q '\w' {} ';' -print

pdfgrep단어 문자(숫자 또는 밑줄)가 없는 PDF 파일 목록이 보고됩니다.

(일부 구현의 경우 위 대신 find사용할 수 있습니다 . 파일 이름이 현재 로케일에서 유효한 텍스트라고 가정합니다.)-iname '*.pdf'-name '*.[Pp][Dd][Ff]'

1000단어 미만의 문자가 포함된 파일을 찾으려면 다음을 수행하세요.

find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
  for file do
    [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
      printf "%s\n" "$file"
  done' sh {} +

관련 정보