키가 다른 파일과 일치하고 조건에 따라 파일의 값을 합산합니다.

Question 1

$4이 작업을 위해서는 행 1의 각 키( )에 대한 값을 저장해야 합니다. 아래 스크립트에서는 $1이를 위해 호출된 배열을 키와 값으로 사용합니다.keys$1$4

또한 각 실제 행을 다른 배열에 저장해야 합니다( lines행 번호를 키로 사용하고 전체 행을 이에 대한 값으로 사용하겠습니다). 이것이 큰 경우 많은 메모리를 소비할 수 있다는 점에 유의하십시오 file1. 그러나 매우 크지 않은 한 RAM이 많은 최신 시스템에서는 문제가 되지 않을 것입니다. 너무 커서 RAM에 맞지 않는 경우 배열에 저장하는 대신 첫 번째 파일을 다시 반복하도록 스크립트를 수정해야 합니다 lines.

linekeys마지막으로 각 행 번호에 해당하는 키($1)도 저장해야 합니다 . 행 번호를 인덱스로, 키를 $1값으로 사용하여 이를 위해 호출된 배열을 사용하겠습니다 . 그런데 첫 번째 파일이 너무 커서 두 번째로 처리해야 하는 경우 $1각 행을 다시 처리하면서 가져올 수 있으므로 이 배열이 필요하지 않습니다. 기술적으로 이 배열은 필요할 때 블록에서 가져올 수 있으므로 실제로는 필요하지 않지만 split()더 쉽습니다 lines[l]. 더 간단한 코드와 잠재적으로 더 빠른 런타임을 위해 더 많은 메모리 사용량을 교환하는 것입니다.END{}

awk '# process the first file
     NR==FNR {
       keys[$1] = $4;      # remember the value of $4 for the key ($1)
       lines[FNR] = $0;    # store the entire line
       linekeys[FNR] = $1; # remember the key for that line
       next
     };

     # process any remaining file(s)
     $1 in keys {
       if ($2 < keys[$1]) {
         sum[$1]+=$3
       };
     };

     # All files have been processed, so print the output
     END {
       for (l in lines) {
         print lines[l], sum[linekeys[l]]
       }
     }' file1 file2
NC_000001.11_NM_001005484.2 69270   234 69037 9
NC_000001.11_NM_001005484.2 69511   475 69037 9
NC_000001.11_NM_001005484.2 69761   725 69037 9
NC_000001.11_NM_001385640.1 942155  20  942136 1361

그런데, 이것을 두 sh스크립트 중 하나에 유지하는 것이 좋습니다( this "$@"대신 인수 로 사용하는 경우는 제외 하고 실행할 때 명령줄에서 입력 줄을 지정할 수 있습니다(예: ,awkfile1 file2bash scriptname.sh file1 file2또는로 awk사용할 수 있도록 awk 스크립트(명령, 작은따옴표 및 파일 이름 제거)로 저장합니다 awk -f scriptname.awk file1 file2.#!첫 번째줄을 실행하면 실행 시 명령줄에 인터프리터 이름을 입력하지 않고도 직접 실행할 수 있도록 실행 가능하게 만들 수도 있습니다.

또는 정말로 주장한다면 전체 스크립트를 한 줄로 압축할 수 있습니다. 이를 달성하려면 문 사이에 필요한 곳에 세미콜론을 남겨 두십시오. 하지만 쉘 명령줄은 이렇게 짧은 스크립트라도 편집하기에 끔찍한 장소이고 심지어 Ctrl-XCtrl-E현재 줄이나 즐겨 사용하는 편집기를 편집할 수 있는 bash 와 같은 편리한 기능도 있기 때문에 권장하지 않습니다 vi.

Answer

$4이 작업을 위해서는 행 1의 각 키( )에 대한 값을 저장해야 합니다. 아래 스크립트에서는 $1이를 위해 호출된 배열을 키와 값으로 사용합니다.keys$1$4

또한 각 실제 행을 다른 배열에 저장해야 합니다( lines행 번호를 키로 사용하고 전체 행을 이에 대한 값으로 사용하겠습니다). 이것이 큰 경우 많은 메모리를 소비할 수 있다는 점에 유의하십시오 file1. 그러나 매우 크지 않은 한 RAM이 많은 최신 시스템에서는 문제가 되지 않을 것입니다. 너무 커서 RAM에 맞지 않는 경우 배열에 저장하는 대신 첫 번째 파일을 다시 반복하도록 스크립트를 수정해야 합니다 lines.

linekeys마지막으로 각 행 번호에 해당하는 키($1)도 저장해야 합니다 . 행 번호를 인덱스로, 키를 $1값으로 사용하여 이를 위해 호출된 배열을 사용하겠습니다 . 그런데 첫 번째 파일이 너무 커서 두 번째로 처리해야 하는 경우 $1각 행을 다시 처리하면서 가져올 수 있으므로 이 배열이 필요하지 않습니다. 기술적으로 이 배열은 필요할 때 블록에서 가져올 수 있으므로 실제로는 필요하지 않지만 split()더 쉽습니다 lines[l]. 더 간단한 코드와 잠재적으로 더 빠른 런타임을 위해 더 많은 메모리 사용량을 교환하는 것입니다.END{}

awk '# process the first file
     NR==FNR {
       keys[$1] = $4;      # remember the value of $4 for the key ($1)
       lines[FNR] = $0;    # store the entire line
       linekeys[FNR] = $1; # remember the key for that line
       next
     };

     # process any remaining file(s)
     $1 in keys {
       if ($2 < keys[$1]) {
         sum[$1]+=$3
       };
     };

     # All files have been processed, so print the output
     END {
       for (l in lines) {
         print lines[l], sum[linekeys[l]]
       }
     }' file1 file2
NC_000001.11_NM_001005484.2 69270   234 69037 9
NC_000001.11_NM_001005484.2 69511   475 69037 9
NC_000001.11_NM_001005484.2 69761   725 69037 9
NC_000001.11_NM_001385640.1 942155  20  942136 1361

그런데, 이것을 두 sh스크립트 중 하나에 유지하는 것이 좋습니다( this "$@"대신 인수 로 사용하는 경우는 제외 하고 실행할 때 명령줄에서 입력 줄을 지정할 수 있습니다(예: ,awkfile1 file2bash scriptname.sh file1 file2또는로 awk사용할 수 있도록 awk 스크립트(명령, 작은따옴표 및 파일 이름 제거)로 저장합니다 awk -f scriptname.awk file1 file2.#!첫 번째줄을 실행하면 실행 시 명령줄에 인터프리터 이름을 입력하지 않고도 직접 실행할 수 있도록 실행 가능하게 만들 수도 있습니다.

또는 정말로 주장한다면 전체 스크립트를 한 줄로 압축할 수 있습니다. 이를 달성하려면 문 사이에 필요한 곳에 세미콜론을 남겨 두십시오. 하지만 쉘 명령줄은 이렇게 짧은 스크립트라도 편집하기에 끔찍한 장소이고 심지어 Ctrl-XCtrl-E현재 줄이나 즐겨 사용하는 편집기를 편집할 수 있는 bash 와 같은 편리한 기능도 있기 때문에 권장하지 않습니다 vi.

Question 2

배열의 배열을 처리하려면 GNU awk를 사용하십시오.

$ cat tst.awk
NR==FNR {
    addends[$1][$2][$3]
    next
}
$1 in addends {
    sum = 0
    for ( val in addends[$1] ) {
        if ( val < $4 ) {
            for ( addend in addends[$1][val] ) {
                sum += addend
            }
        }
    }
    print $0, sum
}

$ awk -f tst.awk file2 file1
NC_000001.11_NM_001005484.2 69270   234 69037 9
NC_000001.11_NM_001005484.2 69511   475 69037 9
NC_000001.11_NM_001005484.2 69761   725 69037 9
NC_000001.11_NM_001385640.1 942155  20  942136 1361

위의 내용은 file1 에 나타나는 것과 동일한 순서로 단순히 file1 의 행을 출력한다는 점에 유의하세요. 메모리에 쓰는 file1대신 읽는 다른 file2솔루션은 이를 수행하지 않을 수 있습니다. 예를 들어 for (i in array)를 사용한 후에 인쇄하면 "random"으로 섞이게 됩니다. " 순서는 사용 중인 awk 버전의 내부에 따라 결정됩니다.https://www.gnu.org/software/gawk/manual/gawk.html#Scanning-an-Array, 따라서 일부 특정 예제 입력에 대해 예상되는 출력을 얻는 경우에도 모든 입력에 대해 항상 발생하는 결과에 의존하지 마십시오.

Answer

배열의 배열을 처리하려면 GNU awk를 사용하십시오.

$ cat tst.awk
NR==FNR {
    addends[$1][$2][$3]
    next
}
$1 in addends {
    sum = 0
    for ( val in addends[$1] ) {
        if ( val < $4 ) {
            for ( addend in addends[$1][val] ) {
                sum += addend
            }
        }
    }
    print $0, sum
}

$ awk -f tst.awk file2 file1
NC_000001.11_NM_001005484.2 69270   234 69037 9
NC_000001.11_NM_001005484.2 69511   475 69037 9
NC_000001.11_NM_001005484.2 69761   725 69037 9
NC_000001.11_NM_001385640.1 942155  20  942136 1361

위의 내용은 file1 에 나타나는 것과 동일한 순서로 단순히 file1 의 행을 출력한다는 점에 유의하세요. 메모리에 쓰는 file1대신 읽는 다른 file2솔루션은 이를 수행하지 않을 수 있습니다. 예를 들어 for (i in array)를 사용한 후에 인쇄하면 "random"으로 섞이게 됩니다. " 순서는 사용 중인 awk 버전의 내부에 따라 결정됩니다.https://www.gnu.org/software/gawk/manual/gawk.html#Scanning-an-Array, 따라서 일부 특정 예제 입력에 대해 예상되는 출력을 얻는 경우에도 모든 입력에 대해 항상 발생하는 결과에 의존하지 마십시오.

키가 다른 파일과 일치하고 조건에 따라 파일의 값을 합산합니다.

답변1

답변2

관련 정보