각 그룹의 다수값을 기준으로 데이터 추정

Question

이는 한 줄의 코드로 읽기에는 너무 복잡하므로 주석이 달린 gawk스크립트는 다음과 같습니다.

#!/usr/bin/gawk -f
## Save the data in array data: data[M][INS]=dinucleotide
NR==FNR{
    data[$2][$1]=$3;
    next
}
## Save the groups in array groups: groups[GRN][INS]
{
    groups[$1][$2]++
}
## Now that everything is stored in memory, analyze
END{
    ## Get averages: for each group
    for(group in groups){
        ## For each INS in this group
        for(ins in groups[group]){
            ## For each MN in the data file
            for(m in data){
                ## If this INS had a value for this M
                if(data[m][ins]){
                    ## This counts the number of times this dinucleotide
                    ## (data[m][ins]) was found in this M among the INSs 
                    ## of this group.
                    num[group][m][data[m][ins]]++
                    ## My version of gawk doesn't seem to support
                    ## length for multidimensional arrays, so this array
                    ## only exists to count the number of Ms of this group.
                    len[group][m]++;
                }
            }
        }
    }
    ## Foreach group of the groups file
    for(group in num){
        ## For each M of this group 
        for(m in num[group]){
            ## For each INS of this group
            for(ins in groups[group]){
                ## If this INS has a value for this m in
                ## the data file, print it. 
                if(data[m][ins]){
                    printf "%-5s %s %s\n", ins,m,data[m][ins]
                }
                ## If it doesn't, check if there's an nt at
                ## >=70% for this group and print that
                else{
                    for(nt in num[group][m]){
                        if(num[group][m][nt]*100/len[group][m] >= 70){
                            printf "%-5s %s %s\n", ins,m,nt
                        }
                    }
                }
            }
        }
    }
}

파일을 로 저장하고 foo.awk실행 가능하게 만든 다음 chmod +x foo.awk파일에서 실행하십시오.

$ ./foo.awk data groups 
INS1  M1 AA
INS2  M1 AA
INS14 M1 AA
INS3  M1 AA
INS16 M1 AA
INS17 M1 AA
INS7  M1 AA
INS1  M2 GG
INS14 M2 GG
INS3  M2 TT
INS7  M2 TT
INS1  M3 AA
INS2  M3 TT
INS14 M3 AA
INS3  M3 AA
INS16 M3 AA
INS17 M3 AA
INS7  M3 AA
INS9  M1 GG
INS15 M1 AA
INS5  M1 GG
INS6  M1 GG
INS8  M1 GG
INS9  M2 TT
INS15 M2 TT
INS5  M2 GG
INS6  M2 TT
INS8  M2 TT
INS9  M3 AA
INS15 M3 TT
INS5  M3 TT
INS6  M3 TT
INS8  M3 TT
INS10 M1 AA
INS11 M1 AA
INS12 M1 GG
INS13 M1 AA
INS4  M1 GG
INS10 M2 GG
INS11 M2 GG
INS12 M2 GG
INS13 M2 GG
INS4  M2 GG
INS10 M3 TT
INS11 M3 TT
INS12 M3 TT
INS13 M3 TT
INS4  M3 TT

이 방법을 사용하려면 전체 데이터세트(파일 2개)를 메모리에 로드해야 합니다. 하지만 실제로 해결책을 찾지 못했습니다. 사례의 70% 이상이 존재하는지 알기 전에 전체 기사를 읽어야 하기 때문입니다. 내가 생각할 수 있는 유일한 다른 방법은 파일을 여러 번 처리하는 것입니다. 메모리에 로딩하는 데 문제가 있으면 알려주세요. 다른 옵션이 있는지 알아보겠습니다.

Answer 1

이는 한 줄의 코드로 읽기에는 너무 복잡하므로 주석이 달린 gawk스크립트는 다음과 같습니다.

#!/usr/bin/gawk -f
## Save the data in array data: data[M][INS]=dinucleotide
NR==FNR{
    data[$2][$1]=$3;
    next
}
## Save the groups in array groups: groups[GRN][INS]
{
    groups[$1][$2]++
}
## Now that everything is stored in memory, analyze
END{
    ## Get averages: for each group
    for(group in groups){
        ## For each INS in this group
        for(ins in groups[group]){
            ## For each MN in the data file
            for(m in data){
                ## If this INS had a value for this M
                if(data[m][ins]){
                    ## This counts the number of times this dinucleotide
                    ## (data[m][ins]) was found in this M among the INSs 
                    ## of this group.
                    num[group][m][data[m][ins]]++
                    ## My version of gawk doesn't seem to support
                    ## length for multidimensional arrays, so this array
                    ## only exists to count the number of Ms of this group.
                    len[group][m]++;
                }
            }
        }
    }
    ## Foreach group of the groups file
    for(group in num){
        ## For each M of this group 
        for(m in num[group]){
            ## For each INS of this group
            for(ins in groups[group]){
                ## If this INS has a value for this m in
                ## the data file, print it. 
                if(data[m][ins]){
                    printf "%-5s %s %s\n", ins,m,data[m][ins]
                }
                ## If it doesn't, check if there's an nt at
                ## >=70% for this group and print that
                else{
                    for(nt in num[group][m]){
                        if(num[group][m][nt]*100/len[group][m] >= 70){
                            printf "%-5s %s %s\n", ins,m,nt
                        }
                    }
                }
            }
        }
    }
}

파일을 로 저장하고 foo.awk실행 가능하게 만든 다음 chmod +x foo.awk파일에서 실행하십시오.

$ ./foo.awk data groups 
INS1  M1 AA
INS2  M1 AA
INS14 M1 AA
INS3  M1 AA
INS16 M1 AA
INS17 M1 AA
INS7  M1 AA
INS1  M2 GG
INS14 M2 GG
INS3  M2 TT
INS7  M2 TT
INS1  M3 AA
INS2  M3 TT
INS14 M3 AA
INS3  M3 AA
INS16 M3 AA
INS17 M3 AA
INS7  M3 AA
INS9  M1 GG
INS15 M1 AA
INS5  M1 GG
INS6  M1 GG
INS8  M1 GG
INS9  M2 TT
INS15 M2 TT
INS5  M2 GG
INS6  M2 TT
INS8  M2 TT
INS9  M3 AA
INS15 M3 TT
INS5  M3 TT
INS6  M3 TT
INS8  M3 TT
INS10 M1 AA
INS11 M1 AA
INS12 M1 GG
INS13 M1 AA
INS4  M1 GG
INS10 M2 GG
INS11 M2 GG
INS12 M2 GG
INS13 M2 GG
INS4  M2 GG
INS10 M3 TT
INS11 M3 TT
INS12 M3 TT
INS13 M3 TT
INS4  M3 TT

이 방법을 사용하려면 전체 데이터세트(파일 2개)를 메모리에 로드해야 합니다. 하지만 실제로 해결책을 찾지 못했습니다. 사례의 70% 이상이 존재하는지 알기 전에 전체 기사를 읽어야 하기 때문입니다. 내가 생각할 수 있는 유일한 다른 방법은 파일을 여러 번 처리하는 것입니다. 메모리에 로딩하는 데 문제가 있으면 알려주세요. 다른 옵션이 있는지 알아보겠습니다.

각 그룹의 다수값을 기준으로 데이터 추정

답변1

관련 정보