대용량 바이너리 파일을 수집하는 가장 좋은 방법은 무엇입니까?

Question 1

나는 이것을 이런 식으로 사용할 것입니다 strings:

strings 400Gfile.bin | grep -C 10 searchstring

주어진 오프셋(예: 20G)에서 시작하려면,

dd if=400Gfile.bin bs=20G skip=1 | strings | grep -C 10 searchstring

Answer

나는 이것을 이런 식으로 사용할 것입니다 strings:

strings 400Gfile.bin | grep -C 10 searchstring

주어진 오프셋(예: 20G)에서 시작하려면,

dd if=400Gfile.bin bs=20G skip=1 | strings | grep -C 10 searchstring

Question 2

bgrep

때때로 나는 이 임의의 저장소로 돌아옵니다.https://github.com/tmbinc/bgrep

Readme "설치"에 따르면:

curl -L 'https://github.com/tmbinc/bgrep/raw/master/bgrep.c' | gcc -O2 -x c -o $HOME/.local/bin/bgrep -

최소 예의 사용 예:

printf '\x01\x02abcdabcd' > myfile.bin
bgrep -B2 -A2 6263 myfile.bin

산출:

myfile.bin: 00000003
\x02abc
myfile.bin: 00000007
dabc

6263ASCII 형식 bc이고 두 바이트 시퀀스가 0 인덱스 위치 3과 7에서 일치하기 때문입니다 .

SSD에서 테스트한 Lnovo ThinkPad P51의 32GB 메모리에 맞지 않는 대용량 파일을 처리할 수 있는지 살펴보겠습니다.

dd count=100M if=/dev/zero of=myfile.bin
printf '\x01\x02abcdabcd' >> myfile.bin
time bgrep -B2 -A2 6263 myfile.bin

산출:

myfile.bin: c80000003
\x02abc
myfile.bin: c80000007
dabc

real    11m26.898s
user    1m32.763s
sys     9m53.756s

그래서 시간이 좀 걸렸지만 효과가 있었습니다.

다소 짜증나는 점은 일반 텍스트 문자를 직접 검색하는 기능이 지원되지 않는다는 점입니다. 16진수 문자열을 제공해야 합니다. 하지만 우리는 기반으로 할 수 있습니다https://stackoverflow.com/questions/2614764/how-to-create-a-hex-dump-of-file- Contains-only-the-hex-characters-without-spac

bgrep `printf %s bc | od -t x1 -An -v | tr -d '\n '` myfile.bin

따라서 Bash 별칭이 도움이 될 것입니다:

bgrepa() {
  pat=$1
  shift
  bgrep `printf %s "$pat" | od -t x1 -An -v | tr -d '\n '` "$@"
}
bgrepa bc -B2 -A2 myfile.bin

정규 표현식은 지원되지 않습니다.

Ubuntu 23.04, bgrep 28029c9203d54f4fc9332d094927cd82154331f2에서 테스트되었습니다.

Answer

bgrep

때때로 나는 이 임의의 저장소로 돌아옵니다.https://github.com/tmbinc/bgrep

Readme "설치"에 따르면:

curl -L 'https://github.com/tmbinc/bgrep/raw/master/bgrep.c' | gcc -O2 -x c -o $HOME/.local/bin/bgrep -

최소 예의 사용 예:

printf '\x01\x02abcdabcd' > myfile.bin
bgrep -B2 -A2 6263 myfile.bin

산출:

myfile.bin: 00000003
\x02abc
myfile.bin: 00000007
dabc

6263ASCII 형식 bc이고 두 바이트 시퀀스가 0 인덱스 위치 3과 7에서 일치하기 때문입니다 .

SSD에서 테스트한 Lnovo ThinkPad P51의 32GB 메모리에 맞지 않는 대용량 파일을 처리할 수 있는지 살펴보겠습니다.

dd count=100M if=/dev/zero of=myfile.bin
printf '\x01\x02abcdabcd' >> myfile.bin
time bgrep -B2 -A2 6263 myfile.bin

산출:

myfile.bin: c80000003
\x02abc
myfile.bin: c80000007
dabc

real    11m26.898s
user    1m32.763s
sys     9m53.756s

그래서 시간이 좀 걸렸지만 효과가 있었습니다.

다소 짜증나는 점은 일반 텍스트 문자를 직접 검색하는 기능이 지원되지 않는다는 점입니다. 16진수 문자열을 제공해야 합니다. 하지만 우리는 기반으로 할 수 있습니다https://stackoverflow.com/questions/2614764/how-to-create-a-hex-dump-of-file- Contains-only-the-hex-characters-without-spac

bgrep `printf %s bc | od -t x1 -An -v | tr -d '\n '` myfile.bin

따라서 Bash 별칭이 도움이 될 것입니다:

bgrepa() {
  pat=$1
  shift
  bgrep `printf %s "$pat" | od -t x1 -An -v | tr -d '\n '` "$@"
}
bgrepa bc -B2 -A2 myfile.bin

정규 표현식은 지원되지 않습니다.

Ubuntu 23.04, bgrep 28029c9203d54f4fc9332d094927cd82154331f2에서 테스트되었습니다.

Question 3

grep의 문제점은 메모리에 전체 라인이 필요하다는 것입니다. 줄이 너무 커서 메모리에 맞지 않으면 grep 폭탄이 발생합니다. 이 딜레마를 해결하는 유일한 방법은 grep에 작은 덩어리를 공급하는 것입니다. (이것은 실제로 grep입니다.~해야 한다어쨌든 자체적으로 수행하고 있지만 그렇지 않습니다.)

dd시작 오프셋을 지정할 수 있도록 사용 하고, 사용 가능한 RAM보다 큰 줄에서 메모리 부족을 방지하려면 fold또는 를 사용하세요. 예방할 것이다grep --mmapgrep --mmap체계차단을 방지하지만 grep 자체의 차단을 방지할 수도 있고 그렇지 않을 수도 있습니다. 누군가에게 테스트를 받는 것은 좋은 일입니다. fold이를 통해 일정한 간격으로 개행 문자를 삽입할 수 있으며, 이는 입력을 관리 가능한 덩어리로 분할하기 위한 조건을 충족합니다.

dd if=bigfile skip=xxx | fold | grep -b -a string

이는 -b파일에서 텍스트 문자열이 어디에 있는지 아는 데 유용할 수 있는 바이트 오프셋을 제공합니다.

검색 문자열 "Hard"를 사용하고 성능을 모니터링하기 위해 별도의 창에서 vmstat를 실행하여 KVM 하이퍼바이저 중 하나의 100GB 논리 볼륨에서 이를 테스트했습니다. 논리 볼륨은 기본적으로 게스트 Linux VM이 설치된 하드 드라이브(파티션 및 파일 시스템)로 포맷됩니다. 시스템 성능에는 영향이 없습니다. 각 공연을 약 33초 만에 처리했습니다(물론 이는 하드웨어에 따라 크게 달라질 수 있습니다).

빠른 성능을 원한다고 하셨습니다. 이는 쉘 스크립트에서 유틸리티를 사용할 때 가장 빠른 성능을 제공합니다. 더 빠른 검색을 얻는 유일한 방법은 오프셋을 찾고, 지정된 블록 크기를 읽고, 블록을 패턴 일치 알고리즘에 공급한 후 다음 블록으로 이동하는 프로그램을 C로 작성하는 것입니다. 이런 유형의 "향상된 grep"이 이미 존재해야 할 것 같지만 온라인으로 검색해 보니 찾을 수 없습니다.

Answer