패턴이 여러 줄인지 여부에 관계없이 PDF 파일에서 패턴의 페이지 번호만 가져오는 방법은 무엇입니까?

Question 1

이것은 약간 해킹적이지만 이미 Perl 호환 RE를 사용하고 있으므로 \K"왼쪽 유지" 수정자를 사용하여 표현식의 모든 항목(및 다음 줄이 끝나기 전의 모든 항목)을 일치시킬 수 있지만 제거할 수 있습니다. 출력에서 다음을 제외합니다.

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

그러나 출력에는 여전히 :구분 기호가 포함됩니다.

Answer

이것은 약간 해킹적이지만 이미 Perl 호환 RE를 사용하고 있으므로 \K"왼쪽 유지" 수정자를 사용하여 표현식의 모든 항목(및 다음 줄이 끝나기 전의 모든 항목)을 일치시킬 수 있지만 제거할 수 있습니다. 출력에서 다음을 제외합니다.

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

그러나 출력에는 여전히 :구분 기호가 포함됩니다.

Question 2

$0~":"awk 인식기로 추가되었습니다 . 즉, 다음과 같은 줄을 얻습니다.

 .... | awk -F":" '$0~":"{print $1}'

이렇게 하면 입력 줄에 ":"가 있는 경우에만 출력이 인쇄되고 다른 줄은 삭제됩니다.

Answer

$0~":"awk 인식기로 추가되었습니다 . 즉, 다음과 같은 줄을 얻습니다.

 .... | awk -F":" '$0~":"{print $1}'

이렇게 하면 입력 줄에 ":"가 있는 경우에만 출력이 인쇄되고 다른 줄은 삭제됩니다.

관련 정보