문자열(다른 텍스트 파일에 나열됨)이 포함된 줄을 삭제하는 가장 빠르고 효율적인 방법

Question 1

"다른 파일에서 발견된 문자열을 포함하는 행"("다른 파일의 regExp와 일치하는 문자열을 포함하는 행" 대신)을 원하는 경우 다음을 시도하십시오.

grep -vFf file1 file2 > file3

"grep -F"는 정규식 일치가 아니라 단순 문자열 일치(훨씬 더 빨리)

아니면 더 나은

grep -vwFf file1 file2                 #respect word boundary

간단한 시간 비교 테스트:

1) 100,000개의 무작위 라인으로 샘플 파일 작성 2

seq 1000000 | shuf -n 100000 > file2

2) 임의의 10,000줄(삭제할 문자열)로 샘플 파일1을 구성합니다.

 seq 1000000 | shuf -n 10000 > file1

31) 사용 grep -F ---time grep -vwFf file1 file2 > file31

real    0m0.111s
user    0m0.100s
sys 0m0.008s

32) -F아니——time grep -vwf file1 file2 > file32

... 시간!

if file1 has just 300 lines --    0.327s          very fast
....              600 lines --    8.326s
....              900 lines --   35.334s
....             1200 lines -- 1m31.433s      (quadratic with file1 len?)

....            10000 lines -- it is still calculating (several hours?)
UPDATED                     1h03m53.983s

테스트 결론:

grep -vFf file1 file2비교하다grep -vf
grep -vFf file1 file2file1대용량 파일에도 문제 없음
grep -vf file1 file2파일 크기가 증가하면 심각한 문제가 발생합니다 file1(크기가 500줄 또는 4KB를 초과하는 경우에만 표시됨).

Answer

"다른 파일에서 발견된 문자열을 포함하는 행"("다른 파일의 regExp와 일치하는 문자열을 포함하는 행" 대신)을 원하는 경우 다음을 시도하십시오.

grep -vFf file1 file2 > file3

"grep -F"는 정규식 일치가 아니라 단순 문자열 일치(훨씬 더 빨리)

아니면 더 나은

grep -vwFf file1 file2                 #respect word boundary

간단한 시간 비교 테스트:

1) 100,000개의 무작위 라인으로 샘플 파일 작성 2

seq 1000000 | shuf -n 100000 > file2

2) 임의의 10,000줄(삭제할 문자열)로 샘플 파일1을 구성합니다.

 seq 1000000 | shuf -n 10000 > file1

31) 사용 grep -F ---time grep -vwFf file1 file2 > file31

real    0m0.111s
user    0m0.100s
sys 0m0.008s

32) -F아니——time grep -vwf file1 file2 > file32

... 시간!

if file1 has just 300 lines --    0.327s          very fast
....              600 lines --    8.326s
....              900 lines --   35.334s
....             1200 lines -- 1m31.433s      (quadratic with file1 len?)

....            10000 lines -- it is still calculating (several hours?)
UPDATED                     1h03m53.983s

테스트 결론:

grep -vFf file1 file2비교하다grep -vf
grep -vFf file1 file2file1대용량 파일에도 문제 없음
grep -vf file1 file2파일 크기가 증가하면 심각한 문제가 발생합니다 file1(크기가 500줄 또는 4KB를 초과하는 경우에만 표시됨).

Question 2

네, 괜찮을 거예요. 최악의 시나리오는 제외할 문자열이 포함된 파일이 처리 중인 파일의 크기와 동일하고 메모리에 맞지 않는 것입니다. 이러한 상황이 발생하면 제외 파일을 청크로 분할하고 여러 번 실행하십시오.

Answer

네, 괜찮을 거예요. 최악의 시나리오는 제외할 문자열이 포함된 파일이 처리 중인 파일의 크기와 동일하고 메모리에 맞지 않는 것입니다. 이러한 상황이 발생하면 제외 파일을 청크로 분할하고 여러 번 실행하십시오.

문자열(다른 텍스트 파일에 나열됨)이 포함된 줄을 삭제하는 가장 빠르고 효율적인 방법

답변1

간단한 시간 비교 테스트:

테스트 결론:

답변2

관련 정보