grep의 과도한 불필요한 메모리 사용을 방지하는 방법

Question

grep줄 단위 일치로 인해 메모리가 부족하고 파이프에서 모든 줄 바꿈을 명시적으로 제거했습니다.

$ xxd -p /path/to/sda.img | tr -d '\n' | grep -ob '117a0cb17ada1002'

나는 당신이 원하는 것이 의 출력에서 특정 16진수 문자열의 바이트 오프셋을 찾는 것이라고 가정하고, xxd그것이 존재하는지 확인하려면 개행 문자를 제거해야 합니다(그렇지 않으면 문자열이 두 줄에 걸쳐 있을 수 있음). .

다음 awk스크립트는 연속된 줄의 패턴을 일치시키고 터미널과 일치하는 첫 번째 문자의 위치를 인쇄합니다. 입력의 너비가 정확히 60자라고 가정합니다( is 의 출력과 동일 xxd -p).

{
    if (NR > 1 && offset = match(line $0, pattern)) {
        printf("%d: %s\n", (NR - 2)*60 + offset, pattern);
    }

    line = $0;
}

또는 대안으로(그러나 동등하게):

NR > 1 {
    if (offset = match(line $0, pattern)) {
        printf("%d: %s\n", (NR - 2)*60 + offset, pattern);
    }
}

{ line = $0 }

무작위 입력 데이터에 대해 테스트합니다(사용 중인 검색 문자열이 데이터에서 강조 표시됨).

$ xxd -p 무작위.dat 헤더 -n 5 |
b1a632f5218b1404d9873dc20ae80e687c99c618bfc0f92db007c36c2888
21a99d23914e34510b9ab8e1c2b340cf1e4a0585b788aecbbc64f01a7a52
62e1746ca1fa4ff65d575419522d52169c5d3f9eee0e204979d79634db9b
fa78320eb7b9e072adc53720785fc7b65a1ffb04cc77566686ea7400fe 교환
f32afc1539690d0046bc13706404d82112442d4bc447ac95df1fe96cd4bd

$ xxd -p random.dat | awk -v pattern=b1a632f5 -f script.awk
1: b1a632f5

$ xxd -p random.dat | awk -v pattern=288821a9 -f script.awk
57: 288821a9

$ xxd -p random.dat | awk -v pattern=ac00fef3 -f script.awk
235: ac00fef3

어쨌든 대용량 1TB 파일에서 실행하면 속도가 느려집니다. 패턴 일치 수를 줄이기 위해 -c 256옵션을 제공 xxd하고 이에 따라 스크립트에서 60을 256으로 변경하여 속도를 높일 수 있지만 awk각 줄의 데이터는 여전히 두 번(한 번은 이전 줄에 한 번, 다음 줄에 한 번).

Answer 1