대용량 로그 파일에서 텍스트가 아닌 바이너리 문자가 포함된 모든 줄 번호 찾기

대용량 로그 파일에서 텍스트가 아닌 바이너리 문자가 포함된 모든 줄 번호 찾기

텍스트가 아닌 문자가 포함된 대용량 로그 파일이 있습니다. grep을 사용하여 검색한 결과는 다음과 같습니다.

Binary file (standard input) matches

grep -a를 사용하면 텍스트가 아닌 문자가 포함된 줄을 건너뛸 수 있습니다.

이제 텍스트가 아닌 문자가 포함된 모든 줄을 어떻게 찾을 수 있습니까?

답변1

GNU가 grep텍스트가 아닌 콘텐츠로 간주하는 것은 버전과 로케일에 따라 다릅니다.

첫 번째 근사에서는 다음을 시도해 볼 수 있습니다.

grep -anPe '^((?!.*$)|.*\0)' < file.log

즉, NUL 문자와 0바이트가 포함된 행을 찾으십시오(이 상황의 원인일 수 있음).바이너리 파일O_APPEND 없이 일부 프로세스에서 쓰기 위해 열 때 로그 파일이 잘리거나 문자가 아닌 경우(로케일에 멀티바이트 문자 집합(예: UTF-8)이 있고 일부 행이 다른 A 문자 집합 출력으로 끝나는 경우) 이런 일이 발생할 수 있습니다).

GNU가 PCRE 지원(for ) grep으로 구축되었다고 가정합니다.-P

해당 출력을 또는 sed -n l( 옵션은 생략할 수도 있음 ) 과 같은 것으로 파이프하여 원인을 식별하려고 할 수 있습니다.hexdump -Cod -vtc -tx1-ngrep바이너리정보.

grep -a이 줄은 건너뛰지 않고 GNU에게 파일로 취급하지 말라고 지시하는 것 입니다 grep.바이너리특별한. 0바이트 또는 문자가 아닌 줄이 포함된 줄은 패턴과 일치하는 경우 계속 보고됩니다.

적어도 Linux 및 대부분의 기본 파일 시스템에서는 파일이 희박한지, 즉 0바이트로 가득 찬 것처럼 보이는 할당되지 않은 부분(구멍)이 있는지 알 수 있습니다.

perl -le '
  seek STDIN,0,4 or die; $hole = tell STDIN;
  seek STDIN, $hole, 3 and $data = tell STDIN;
  seek STDIN, 0, 2; $end = tell STDIN;
  if ($hole != $end) {
    print "at least one hole at offset $hole, length ".(($data||$end) - $hole)
  }' < file.log

구멍간격에 하나 이상의 전체 파일 시스템 블록(일반적으로 4KiB)이 포함되어 있으면 파일 시스템이 생성됩니다. 이러한 구멍의 양쪽에는 더 많은 NUL 바이트가 있을 수 있습니다.

관련 정보