두 파일을 비교하고 일치 항목을 인쇄합니다. - 대용량 파일

Question 1

파일이 정렬되어 있으면(게시한 예는 다음과 같습니다) 간단합니다.

join -t : File1.txt File2.txt

join결합 필드가 동일한 두 파일의 행을 쌍으로 만듭니다. 기본적으로 조인 필드는 첫 번째 필드입니다. 단, 조인 필드가 반복되지 않고 필드가 순서대로 출력되며 페어링할 수 없는 행을 건너뛰는 것이 바로 원하는 것입니다.

파일이 있는 경우 참고하세요.Windows 라인 종결자, 각 줄 끝에 추가 캐리지 리턴이 있는 Unix 시스템에 나타납니다. CR은 대부분 시각적으로 보이지 않지만 join다른 텍스트 도구에 관한 한 다른 문자와 같습니다. 즉, 모든 필드는 File1.txtCR로 끝나지만 의 필드는 File2.txt그렇지 않으므로 일치하지 않습니다. 적어도 에서는 CR을 삭제해야 합니다 File1.txt.

<File1.txt tr -d '\r' | join -t : - File2.txt

파일을 정렬해야합니다. 그렇지 않은 경우 ksh/bash/zsh에서 프로세스 대체를 사용할 수 있습니다. (필요하다면 추가하세요 tr -d '\r' |.)

join -t : <(sort File1.txt) <(sort File2.txt)

일반 sh에서 Unix 변형이 있는 경우 /dev/fd(대부분 그렇습니다) 이를 사용하여 두 개의 파일 설명자를 통해 두 프로그램의 출력을 파이프할 수 있습니다.

sort File2.txt | { sort File1.txt | join -t : /dev/fd/0 /dev/fd/3; } 3<&1

원래 순서를 유지해야 File1.txt하고 조인 필드별로 정렬하지 않는 경우 원래 순서를 기억하도록 줄 번호를 추가하고, 조인 필드별로 정렬하고, 조인하고, 줄 번호별로 정렬하고, 줄 번호를 제거합니다. (다른 파일의 순서를 유지하려면 비슷한 작업을 수행할 수 있습니다.)

<File1.txt nl -s : |
sort -t : -k 2 |
join -t : -1 2 - <(sort File2.txt) |
sort -t : -k 2,2n |
cut -d : -f 1,3

Answer

파일이 정렬되어 있으면(게시한 예는 다음과 같습니다) 간단합니다.

join -t : File1.txt File2.txt