awk 명령을 사용하여 업데이트된 일련 번호로 2개의 파일을 병합합니다.

Question 1

다음을 시도해 볼 수 있습니다.

awk 'FNR==1 {if (NR>1) next; print;} \
     /^D/ {seq++; sid=sprintf("SEQ%07d",seq); sub(/SEQ[0-9]+/,sid); print} \
     END {printf("T%05d\n",seq);}' file1.txt file2.txt

이것은 것이다

첫 번째 줄이 "있는 그대로" 인쇄되는 첫 번째 파일을 제외한 모든 파일의 첫 번째 줄을 건너뜁니다.
로 시작하는 모든 라인에 대해 D시퀀스 카운터를 증가시키고 seq기존 시퀀스를 새 시퀀스 ID로 바꾼 다음 라인을 인쇄합니다.

파일 끝에는 마지막 값의 합계가 인쇄됩니다 seq.

이 솔루션은 2개 이상의 파일에도 적용됩니다.

Answer

다음을 시도해 볼 수 있습니다.

awk 'FNR==1 {if (NR>1) next; print;} \
     /^D/ {seq++; sid=sprintf("SEQ%07d",seq); sub(/SEQ[0-9]+/,sid); print} \
     END {printf("T%05d\n",seq);}' file1.txt file2.txt

이것은 것이다

첫 번째 줄이 "있는 그대로" 인쇄되는 첫 번째 파일을 제외한 모든 파일의 첫 번째 줄을 건너뜁니다.
로 시작하는 모든 라인에 대해 D시퀀스 카운터를 증가시키고 seq기존 시퀀스를 새 시퀀스 ID로 바꾼 다음 라인을 인쇄합니다.

파일 끝에는 마지막 값의 합계가 인쇄됩니다 seq.

이 솔루션은 2개 이상의 파일에도 적용됩니다.

Question 2

기존 입력과 동일한 너비의 0 패딩 문자열로 새 시퀀스 번호를 인쇄하려면 GNU awk를 사용하여 세 번째 인수를 match()로 설정하십시오.

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { printf "%s%0*d%s\n", prev[1], length(prev[2]), ++seqNr, prev[3] }
{ match($0,/([^1-9]+)([0-9]+)(.*)/,prev) }
END { printf "%s%0*d\n", prev[1], length(prev[2]), seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

awk의 경우( prev[]gawk 스크립트와 비교하기 위해 스칼라를 사용하는 대신 배열을 유지하는 경우)는 다음과 같습니다.

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { printf "%s%0*d%s\n", prev[1], lgth2, ++seqNr, prev[3] }
{
    match($0,/[^1-9]+/)
    prev[1] = substr($0,RSTART,RLENGTH)
    match($0,/[^1-9]+[0-9]+/)
    lgth2 = RLENGTH - length(prev[1])
    prev[3] = substr($0,RSTART+RLENGTH)
}
END { printf "%s%0*d\n", prev[1], lgth2, seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

또는 동일한 수의 선행 0을 유지하려면 GNU awk를 사용하십시오.

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { print prev[1] (++seqNr) prev[2] }
{ match($0,/([^1-9]+)[0-9]+(.*)/,prev) }
END { print prev[1] seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

그리고 어떤 이상한 :

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { print prev[1] (++seqNr) prev[2] }
{
    match($0,/[^1-9]+/)
    prev[1] = substr($0,RSTART,RLENGTH)
    sub(/[^0-9]+[0-9]+/,"")
    prev[2] = $0
}
END { print prev[1] seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

Answer

기존 입력과 동일한 너비의 0 패딩 문자열로 새 시퀀스 번호를 인쇄하려면 GNU awk를 사용하여 세 번째 인수를 match()로 설정하십시오.

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { printf "%s%0*d%s\n", prev[1], length(prev[2]), ++seqNr, prev[3] }
{ match($0,/([^1-9]+)([0-9]+)(.*)/,prev) }
END { printf "%s%0*d\n", prev[1], length(prev[2]), seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

awk의 경우( prev[]gawk 스크립트와 비교하기 위해 스칼라를 사용하는 대신 배열을 유지하는 경우)는 다음과 같습니다.

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { printf "%s%0*d%s\n", prev[1], lgth2, ++seqNr, prev[3] }
{
    match($0,/[^1-9]+/)
    prev[1] = substr($0,RSTART,RLENGTH)
    match($0,/[^1-9]+[0-9]+/)
    lgth2 = RLENGTH - length(prev[1])
    prev[3] = substr($0,RSTART+RLENGTH)
}
END { printf "%s%0*d\n", prev[1], lgth2, seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

또는 동일한 수의 선행 0을 유지하려면 GNU awk를 사용하십시오.

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { print prev[1] (++seqNr) prev[2] }
{ match($0,/([^1-9]+)[0-9]+(.*)/,prev) }
END { print prev[1] seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

그리고 어떤 이상한 :

$ cat tst.awk
NR==1 && FNR==1 { print }
FNR > 2 { print prev[1] (++seqNr) prev[2] }
{
    match($0,/[^1-9]+/)
    prev[1] = substr($0,RSTART,RLENGTH)
    sub(/[^0-9]+[0-9]+/,"")
    prev[2] = $0
}
END { print prev[1] seqNr }

$ awk -f tst.awk file1 file2
H20200428
DSEQ0000001USA
DSEQ0000002MEXICO
DSEQ0000003BRAZIL
DSEQ0000004USA
DSEQ0000005MEXICO
DSEQ0000006BRAZIL
T00006

awk 명령을 사용하여 업데이트된 일련 번호로 2개의 파일을 병합합니다.

답변1

답변2

관련 정보