텍스트가 아닌 문자가 포함된 대용량 로그 파일이 있습니다. grep을 사용하여 검색한 결과는 다음과 같습니다.
Binary file (standard input) matches
grep -a를 사용하면 텍스트가 아닌 문자가 포함된 줄을 건너뛸 수 있습니다.
이제 텍스트가 아닌 문자가 포함된 모든 줄을 어떻게 찾을 수 있습니까?
답변1
GNU가 grep
텍스트가 아닌 콘텐츠로 간주하는 것은 버전과 로케일에 따라 다릅니다.
첫 번째 근사에서는 다음을 시도해 볼 수 있습니다.
grep -anPe '^((?!.*$)|.*\0)' < file.log
즉, NUL 문자와 0바이트가 포함된 행을 찾으십시오(이 상황의 원인일 수 있음).바이너리 파일O_APPEND 없이 일부 프로세스에서 쓰기 위해 열 때 로그 파일이 잘리거나 문자가 아닌 경우(로케일에 멀티바이트 문자 집합(예: UTF-8)이 있고 일부 행이 다른 A 문자 집합 출력으로 끝나는 경우) 이런 일이 발생할 수 있습니다).
GNU가 PCRE 지원(for ) grep
으로 구축되었다고 가정합니다.-P
해당 출력을 또는 sed -n l
( 옵션은 생략할 수도 있음 ) 과 같은 것으로 파이프하여 원인을 식별하려고 할 수 있습니다.hexdump -C
od -vtc -tx1
-n
grep
바이너리정보.
grep -a
이 줄은 건너뛰지 않고 GNU에게 파일로 취급하지 말라고 지시하는 것 입니다 grep
.바이너리특별한. 0바이트 또는 문자가 아닌 줄이 포함된 줄은 패턴과 일치하는 경우 계속 보고됩니다.
적어도 Linux 및 대부분의 기본 파일 시스템에서는 파일이 희박한지, 즉 0바이트로 가득 찬 것처럼 보이는 할당되지 않은 부분(구멍)이 있는지 알 수 있습니다.
perl -le '
seek STDIN,0,4 or die; $hole = tell STDIN;
seek STDIN, $hole, 3 and $data = tell STDIN;
seek STDIN, 0, 2; $end = tell STDIN;
if ($hole != $end) {
print "at least one hole at offset $hole, length ".(($data||$end) - $hole)
}' < file.log
구멍간격에 하나 이상의 전체 파일 시스템 블록(일반적으로 4KiB)이 포함되어 있으면 파일 시스템이 생성됩니다. 이러한 구멍의 양쪽에는 더 많은 NUL 바이트가 있을 수 있습니다.