다수의 gzip 파일에서 중복된 항목을 병합, 정렬 및 제거합니다.

Question

문제는 개별 파일이 정렬되지 않았다는 것입니다. 즉, 그런 것을 사용하는 경우 sort -u file* > sortedFile정렬하려면 모든 파일의 내용을 로드한 다음 정렬해야 합니다. 아마도 120GB 이상의 메모리가 없기 때문에 이것이 비효율적이라고 생각합니다.

먼저 모든 파일을 개별적으로 정렬한 다음 를 사용하여 병합하는 것이 좋습니다 sort -m(이 코드는 테스트되지 않았습니다!).

for f in file*; do
  gzip -dc "$f" | sort > sorted.$f.bak
done
sort -m -u sorted.file*.bak > sortedFile
rm -f sorted.file*.bak

매뉴얼 페이지의 관련 부분을 정렬합니다(예:http://unixhelp.ed.ac.uk/CGI/man-cgi?sort):

-m, --merge 정렬된 파일을 병합하지 않습니다.

고쳐 쓰다: 읽고 나서https://stackoverflow.com/questions/930044/how-could-the-unix-sort-command-sort-a-very-large-file, 어쨌든 sort는 입력을 관리 가능한 덩어리로 분할하기 때문에 원래 명령이 아마도 그만큼 빠르다고 생각합니다. 명령줄은 다음과 같습니다.

 sort <(zcat file1) <(zcat file2) ... <(zcat file15) > sortedFile

이를 통해 기계의 여러 코어를 사용할 수도 있습니다.

Answer 1