저는 "pdfgrep"을 사용하여 여러 PDF 파일에서 "심층 검색"을 수행하고 다음과 같이 단어를 찾고 문서 수를 계산하려고 합니다.
# pdfgrep -ric PATTERN
./Example1.pdf:0
./Example2.pdf:10
정의된 개수의 파일 출력을 무시하는 방법에 대해 알고 계시나요? 0 이하...?
답변1
파일 경로에 개행 문자가 포함되어 있지 않다고 가정하면 해당 출력을 다음으로 파이프할 수 있습니다.
grep -v ':0$'
로 끝나는 줄을 필터링합니다 :0
.
또는
awk -F: '$NF >= 10'
일치하는 항목이 10개 이상인 파일만 나열됩니다.
개행 문자를 포함하여 임의의 파일 경로를 처리하려면 NUL 구분 기호를 사용하십시오.
pcregrep -ricZ pattern | gawk -v RS='\0' '
{RS="\n"; getline count; RS="\0"}
count > 0 {print $0":"count}'