질문

Question 1

가장 간단한 방법쓰다grep이 추가 조건은 파일에 쓰기 전에 다른 호출을 통해 출력을 파이프하는 것뿐입니다.

find /var/logs/syslog -name \* -print0 | xargs -0 -n 1 -P 36 zgrep -f foo.txt | grep -v Duplicate > /tmp/bar.txt

별도의 단일 스레드 프로세스에서 이 작업을 수행하는 성능은 검색에서 반환된 레코드 수에 따라 달라집니다. 초기 검색과 일치하는 행 수가 640GB 로그의 일부일 경우에는 문제가 되지 않습니다.

근본적인 질문은 부분적으로 이 검색을 전체적으로 최적화하는 것에 관한 것이기 때문에 두 가지 중요한 추가 개선 사항을 언급하겠습니다.

grep 검색 용어로 정규식 대신 고정 문자열을 사용하십시오. 패턴 파일에서 백슬래시를 제거하고 -Fzgrep에 스위치를 추가하십시오. ( -w전체 단어만 일치하도록 전환하는 것도 좋은 생각일 수 있습니다.) 리터럴 문자열을 검색하는 것이 정규식을 검색하는 것보다 훨씬 빠릅니다.
시스템 로케일이 UTF-8을 사용하지만 데이터 세트가 ASCII 전용인 경우 LC_ALL=C명령 환경에서 이를 설정하십시오. 128자 ASCII 세트에서 검색하는 것은 대략 1000배 더 큰 UTF-8 문자 세트에서 검색하는 것보다 훨씬 빠릅니다.

Answer

가장 간단한 방법쓰다grep이 추가 조건은 파일에 쓰기 전에 다른 호출을 통해 출력을 파이프하는 것뿐입니다.

find /var/logs/syslog -name \* -print0 | xargs -0 -n 1 -P 36 zgrep -f foo.txt | grep -v Duplicate > /tmp/bar.txt

별도의 단일 스레드 프로세스에서 이 작업을 수행하는 성능은 검색에서 반환된 레코드 수에 따라 달라집니다. 초기 검색과 일치하는 행 수가 640GB 로그의 일부일 경우에는 문제가 되지 않습니다.

근본적인 질문은 부분적으로 이 검색을 전체적으로 최적화하는 것에 관한 것이기 때문에 두 가지 중요한 추가 개선 사항을 언급하겠습니다.

grep 검색 용어로 정규식 대신 고정 문자열을 사용하십시오. 패턴 파일에서 백슬래시를 제거하고 -Fzgrep에 스위치를 추가하십시오. ( -w전체 단어만 일치하도록 전환하는 것도 좋은 생각일 수 있습니다.) 리터럴 문자열을 검색하는 것이 정규식을 검색하는 것보다 훨씬 빠릅니다.
시스템 로케일이 UTF-8을 사용하지만 데이터 세트가 ASCII 전용인 경우 LC_ALL=C명령 환경에서 이를 설정하십시오. 128자 ASCII 세트에서 검색하는 것은 대략 1000배 더 큰 UTF-8 문자 세트에서 검색하는 것보다 훨씬 빠릅니다.

Question 2

GNU Parallel이 있으면 다음을 수행할 수 있습니다.

find /var/logs/syslog -name \* -print0 |
  parallel --lb -0 'zgrep -f foo.txt {} | grep -v Duplicate' > /tmp/bar.txt

대조적으로, xargs -PGNU Parallel을 사용한 출력은 행을 혼합하지 않는 것이 보장됩니다(mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P에 따라).

Answer

GNU Parallel이 있으면 다음을 수행할 수 있습니다.

find /var/logs/syslog -name \* -print0 |
  parallel --lb -0 'zgrep -f foo.txt {} | grep -v Duplicate' > /tmp/bar.txt

대조적으로, xargs -PGNU Parallel을 사용한 출력은 행을 혼합하지 않는 것이 보장됩니다(mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P에 따라).

재귀 병렬 Zgrep(문자열 생략 없음) - 성공