한 필드를 기준으로 고유한 행을 정렬하고 다른 필드를 기준으로 출력할 행을 결정합니다.

Question 1

출력할 데이터가 메모리에 들어갈 만큼 작은 경우

awk '
    biggest[$3] < $5 { biggest[$3]=$5 ; saved[$3]=$0 }
    END { for (i in saved) { print saved[i] }}'

일반적으로 이 방법이 더 빠르며 저장해야 하는지 결정할 때 각 행을 한 번 살펴봐야 합니다. 메모리 요구 사항은 출력되는 데이터에 따라 다르므로 매우 반복적인 입력은 매우 클 수 있습니다.

이는 행당 여러 비교가 필요한 정렬 솔루션과 대조됩니다. 정렬 기반 솔루션은 속도가 느리지만 너무 커서 메모리에 맞지 않는 출력을 처리합니다.

Answer

출력할 데이터가 메모리에 들어갈 만큼 작은 경우

awk '
    biggest[$3] < $5 { biggest[$3]=$5 ; saved[$3]=$0 }
    END { for (i in saved) { print saved[i] }}'

일반적으로 이 방법이 더 빠르며 저장해야 하는지 결정할 때 각 행을 한 번 살펴봐야 합니다. 메모리 요구 사항은 출력되는 데이터에 따라 다르므로 매우 반복적인 입력은 매우 클 수 있습니다.

이는 행당 여러 비교가 필요한 정렬 솔루션과 대조됩니다. 정렬 기반 솔루션은 속도가 느리지만 너무 커서 메모리에 맞지 않는 출력을 처리합니다.

Question 2

두 번째 및 세 번째 필드를 기준으로 정렬하고 awk최대값을 유지하기 위해 전달합니다.

$ sort -k 3,3nr -k 5,5rn input | awk '!a[$3]++' 
SMURF1  7   99143726    GACAGATTGG  74
CSNK1D  17  82251379    AATTTAGCCA  68
UBE2Z   17  48910880    CTAAGGATCC  48
AC003665.1  17  47813266    AGCAGGCGCA  83
RIOK3   18  23453502    GCAAGACTTT  69

이는 파일이 한 번만 정렬되고 전체 파일을 메모리에 보관할 필요가 없다는 장점이 있습니다. 그러나 나는 희망한다Icarus의 awk 메소드파일을 한 번만 읽으면 되므로 더 빠릅니다.

Answer

두 번째 및 세 번째 필드를 기준으로 정렬하고 awk최대값을 유지하기 위해 전달합니다.

$ sort -k 3,3nr -k 5,5rn input | awk '!a[$3]++' 
SMURF1  7   99143726    GACAGATTGG  74
CSNK1D  17  82251379    AATTTAGCCA  68
UBE2Z   17  48910880    CTAAGGATCC  48
AC003665.1  17  47813266    AGCAGGCGCA  83
RIOK3   18  23453502    GCAAGACTTT  69

이는 파일이 한 번만 정렬되고 전체 파일을 메모리에 보관할 필요가 없다는 장점이 있습니다. 그러나 나는 희망한다Icarus의 awk 메소드파일을 한 번만 읽으면 되므로 더 빠릅니다.

한 필드를 기준으로 고유한 행을 정렬하고 다른 필드를 기준으로 출력할 행을 결정합니다.

답변1

답변2

관련 정보