2개의 대용량 파일을 일치시키고 쉘 스크립트에서 차이점을 인쇄하는 방법

Question

천만 줄 파일의 결과는 다음과 같습니다.

seq 10000000 |
  tee a |
  awk 'rand() < 0.05 {print int(1000000 * rand())}; 1' > b

모두:

diff a b | wc -l

comm -3 <(sort a) <(sort b) | wc -l

(ksh/bash/zsh 구문)

cmp -l a b | wc -l

3년된 저가형 PC(리눅스 구동)에서는 30초도 안 걸렸습니다.

diff내용에 따라 diff삽입, 삭제, 변경 등을 감지해야 하는 알고리즘이 데이터의 배치 방식에 영향을 받기 때문에 편차가 클 수 있지만, 다른 알고리즘과 크게 달라지지는 않습니다.

정확히 무엇을 시도하셨나요?

Answer 1

천만 줄 파일의 결과는 다음과 같습니다.

seq 10000000 |
  tee a |
  awk 'rand() < 0.05 {print int(1000000 * rand())}; 1' > b

모두:

diff a b | wc -l

comm -3 <(sort a) <(sort b) | wc -l

(ksh/bash/zsh 구문)

cmp -l a b | wc -l

3년된 저가형 PC(리눅스 구동)에서는 30초도 안 걸렸습니다.

diff내용에 따라 diff삽입, 삭제, 변경 등을 감지해야 하는 알고리즘이 데이터의 배치 방식에 영향을 받기 때문에 편차가 클 수 있지만, 다른 알고리즘과 크게 달라지지는 않습니다.

정확히 무엇을 시도하셨나요?

관련 정보