메모리 사용량으로 인해 grep이 종료됩니다. grep이 너무 많은 메모리를 사용하지 않도록 할 수 있습니까?

Question

sort 명령은 상대적으로 일반적인 사용 사례인 대규모 데이터 세트 처리를 위한 특정 지원 기능을 제공합니다. 거대한 grep 패턴은 극히 드문 사용 사례이므로 개발자가 이에 많은 노력을 기울일 것이라고 기대할 수 없습니다.

줄의 순서가 중요하지 않은 경우 파일 길이에 관계없이 한 번에 몇 줄 이상 메모리에 저장하지 않고도 두 파일을 정렬한 다음 비교할 수 있습니다. 정렬을 통해 메모리가 부족한 파일을 처리할 수 있으므로 이는 효율적입니다.

sort originallist >originallist.sorted
sort cleaned1 | comm -23 originallist.sorted - >cleaned2.sorted

OriginalList의 원래 순서가 중요한 경우 행 번호를 추가할 수 있습니다.

nl -w 22 originallist >originallist.numbered
# then generate cleaned1 from the numbered list

originallist.numbered정렬되었으므로 이를 실행하여 공통 행을 검색할 수 있습니다 comm.

순서가 중요하고 행 번호를 매기기에는 너무 늦었다면 청크로 나누고 cleaned1각 청크에 대해 단일 패스를 만들어 볼 수 있습니다. originallist최근 GNU 분할:

cp originalfile cleaned2.in
split -l 1000000 --filter='grep -Fxv -f - cleaned2.in >cleaned2.out; mv cleaned2.out cleaned2.in' cleaned1
mv cleaned2.in cleaned2

( F"전체 줄 일치"가 아니라 부분 문자열 일치를 수행합니다. 전체 줄 문자열 일치를 위해서는 -x.)

Answer 1