UNIX 열을 붙여넣고 모든 누락된 값에 대해 0을 삽입합니다.

UNIX 열을 붙여넣고 모든 누락된 값에 대해 0을 삽입합니다.

행 수는 다르지만 열 수는 동일한 두 txt 파일의 특정 열을 병합하고 싶습니다(아래 참조).

  file1:
  xyz   desc1   12
  uvw   desc2   55
  pqr   desc3   12

  file2:
  xyz   desc1   56
  uvw   desc2   88


  Preferred output:
  xyz   desc1   12  56
  uvw   desc2   55  88
  pqr   desc3   12   0

현재 awk를 사용하는 붙여넣기 명령은 다음과 같습니다.

  paste <(awk '{print $1}' file1) <(awk '{print $2}' file1) <(awk '{print $3}' file1) <(awk '{print $3}' file2) 

그러나 이것은 단지 겹치는 열을 병합하는 것 같습니다. 줄 자체를 생략하는 대신 0을 삽입하는 방법이 awk에 있습니까?

출력 파일에 102개의 열이 포함되도록 100개의 파일을 병합해야 합니다.

답변1

열 순서가 중요한 경우, 즉 동일한 파일의 숫자가 동일한 열에 유지되어야 하는 경우 다른 파일을 읽을 때 패딩을 추가해야 합니다. GNU awk를 사용하여 이를 수행하는 한 가지 방법은 다음과 같습니다.

merge.awk

# Set k to be a shorthand for the key
{ k = $1 SUBSEP $2 }

# First element with this key, add zeros to align it with other rows
!(k in h) {
  for(i=1; i<=ARGIND-1; i++)
    h[k] = h[k] OFS 0 
}

# Remember the data element
{ h[k] = h[k] OFS $3 }

# Before moving to the next file, ensure that all rows are aligned
ENDFILE {
  for(k in h) {
    if(split(h[k], a) < ARGIND)
      h[k] = h[k] OFS 0
  }
}

# Print out the collected data
END {
  for(k in h) {
    split(k, a, SUBSEP)
    print a[1], a[2], h[k]
  }
}

다음은 몇 가지 테스트 파일입니다: f1, f2f3:f4

$ tail -n+1 f[1-4]
==> f1 <==
xyz desc1 21
uvw desc2 22
pqr desc3 23

==> f2 <==
xyz desc1 56
uvw desc2 57

==> f3 <==
xyz desc1 87
uvw desc2 88

==> f4 <==
xyz desc1 11
uvw desc2 12
pqr desc3 13
stw desc1 14
arg desc2 15

테스트 1

awk -f merge.awk f[1-4] | column -t

산출:

pqr  desc3  23  0   0   13
uvw  desc2  22  57  88  12
stw  desc1  0   0   0   14
arg  desc2  0   0   0   15
xyz  desc1  21  56  87  11

테스트 2

awk -f merge.awk f2 f3 f4 f1 | column -t

산출:

pqr  desc3  0   0   13  23
uvw  desc2  57  88  12  22
stw  desc1  0   0   14  0
arg  desc2  0   0   15  0
xyz  desc1  56  87  11  21

편집하다:

출력을 탭으로 구분해야 하는 경우 그에 따라 출력 필드 구분 기호를 설정하십시오.

awk -f merge.awk OFS='\t' f[1-4]

답변2

이 시도:

$ awk '
    FNR == NR { a[$1,$2] = $3; next }
    {
        print $0,(($1,$2) in a) ? a[$1,$2] : "0"
    }
' file2 file1
xyz   desc1   12 56
uvw   desc2   55 88
pqr   desc3   12 0

답변3

약간 길지만 작동합니다.

$ cat file1 file2 | awk '{a[$1FS$2]=a[$1FS$2]FS$3; b[$1FS$2]++} END {for (i in b) max=max<b[i]?b[i]:max; for (i in a) {printf "%s %s", i, a[i]; for (j=b[i]; j<max; j++) printf "%s0", FS  printf "%s", RS}}' 
pqr desc3  12 0
xyz desc1  12 56
uvw desc2  55 88

awk 블록의 형식은 다음과 같습니다.

awk '{a[$1FS$2]=a[$1FS$2]FS$3; b[$1FS$2]++}
      END {for (i in b) max=max<b[i]?b[i]:max
          for (i in a) {printf "%s%s%s", i, FS, a[i]
                        for (j=b[i]; j<max; j++) printf "%s0", FS
                        printf "%s", RS}
          }'

아이디어는 모든 파일을 인쇄한 다음 배열의 중복 값을 캡처하는 것입니다 a[$1 $2]. 또한 ( , ) 쌍의 발생 횟수도 포함됩니다 b[$1 $2].$1$2

END{}블록 내에서 우리는 값을 계속 반복하고 0요소 수에서 최대 요소 수까지 누락된 s를 완성합니다.

관련 정보