매우 큰 파일에서 중복 제거()

Question 1

이는 "0" 열을 빈 열로 처리하지만 더 간단한 아이디어를 제공합니다.

awk 'A[$c2] + B[$c3] + C[$c4]==0; 
    c2{A[$c2]++; next} c3{B[$c3]++;next} c4 {C[$c4]++}
' c2=2 c3=3 c4=4 input

(c2, c3 및 c4를 관심 있는 실제 열 번호로 설정)

이를 귀하의 사례로 확장하려면 다음을 사용할 수 있어야 합니다.

awk 'A[$c2] + B[$c3] + C[$c4]==0;
    match($c2,"[^ ]"){A[$c2]++; next}
    match($c3,"[^ ]"){B[$c3]++;next}
    match($c4,"[^ ]"){C[$c4]++}
' FS=\\t c2=2 c3=3 c4=4 input

Answer

이는 "0" 열을 빈 열로 처리하지만 더 간단한 아이디어를 제공합니다.

awk 'A[$c2] + B[$c3] + C[$c4]==0; 
    c2{A[$c2]++; next} c3{B[$c3]++;next} c4 {C[$c4]++}
' c2=2 c3=3 c4=4 input

(c2, c3 및 c4를 관심 있는 실제 열 번호로 설정)

이를 귀하의 사례로 확장하려면 다음을 사용할 수 있어야 합니다.

awk 'A[$c2] + B[$c3] + C[$c4]==0;
    match($c2,"[^ ]"){A[$c2]++; next}
    match($c3,"[^ ]"){B[$c3]++;next}
    match($c4,"[^ ]"){C[$c4]++}
' FS=\\t c2=2 c3=3 c4=4 input

Question 2

이거 어때요?(파일에 저장하고 실행)

#!/usr/bin/gawk -f
BEGIN {
    FS="\t"
    OFS="\t"
}

FNR==1 {
    next
}

($2 ~ /.+/ && a[$2]++) {
    next
}
($3 ~ /.+/ && a[$3]++) {
    next
}
($4 ~ /.+/ && a[$4]++) {
    next
}

{
    print $0
}

Answer

이거 어때요?(파일에 저장하고 실행)

#!/usr/bin/gawk -f
BEGIN {
    FS="\t"
    OFS="\t"
}

FNR==1 {
    next
}

($2 ~ /.+/ && a[$2]++) {
    next
}
($3 ~ /.+/ && a[$3]++) {
    next
}
($4 ~ /.+/ && a[$4]++) {
    next
}

{
    print $0
}

매우 큰 파일에서 중복 제거()

답변1

답변2

관련 정보