pdfgrep을 사용하여 여러 PDF 파일을 심층적으로 검색하고 다음보다 작은 수는 무시합니다.

pdfgrep을 사용하여 여러 PDF 파일을 심층적으로 검색하고 다음보다 작은 수는 무시합니다.

저는 "pdfgrep"을 사용하여 여러 PDF 파일에서 "심층 검색"을 수행하고 다음과 같이 단어를 찾고 문서 수를 계산하려고 합니다.

# pdfgrep -ric PATTERN

./Example1.pdf:0
./Example2.pdf:10

정의된 개수의 파일 출력을 무시하는 방법에 대해 알고 계시나요? 0 이하...?

답변1

파일 경로에 개행 문자가 포함되어 있지 않다고 가정하면 해당 출력을 다음으로 파이프할 수 있습니다.

grep -v ':0$'

로 끝나는 줄을 필터링합니다 :0.

또는

awk -F: '$NF >= 10'

일치하는 항목이 10개 이상인 파일만 나열됩니다.

개행 문자를 포함하여 임의의 파일 경로를 처리하려면 NUL 구분 기호를 사용하십시오.

pcregrep -ricZ pattern | gawk -v RS='\0' '
  {RS="\n"; getline count; RS="\0"}
  count > 0 {print $0":"count}'

관련 정보