한 파일의 인덱스 값을 사용하여 인쇄하고, 두 번째 파일에서 데이터를 추출하고, 출력을 세 번째 파일에 저장하려면 어떻게 해야 합니까?

Question 1

awk는 이를 자체적으로 처리할 수 있습니다. 여기에 "combine.awk" 파일이 있습니다.

# first file, first line
FILENAME == ARGV[1] && FNR == 1  {
    for (i=5; i<=NF; i++) head[i] = $i
}

# first file,  subsequent lines
FILENAME == ARGV[1] && FNR > 1 {
    for (i=5; i<=NF; i++) {
        split($i, f, /:/)
        value[$2, head[i]] = f[3]
    }
}

# second file
FILENAME == ARGV[2] {
    print $0, (FNR == 1 ? "Output" : value[$3, $1])
}

그러면 이렇게 부르죠

awk -f combine.awk file2 file1 > file3

출력 파일에는 다음이 포함됩니다.

SampleName   Type     Position Output
5R01924      ABC      92184093 R
5R01028      ABC      15589809 J
5R01092      ABC      48759348 AL

Answer

awk는 이를 자체적으로 처리할 수 있습니다. 여기에 "combine.awk" 파일이 있습니다.

# first file, first line
FILENAME == ARGV[1] && FNR == 1  {
    for (i=5; i<=NF; i++) head[i] = $i
}

# first file,  subsequent lines
FILENAME == ARGV[1] && FNR > 1 {
    for (i=5; i<=NF; i++) {
        split($i, f, /:/)
        value[$2, head[i]] = f[3]
    }
}

# second file
FILENAME == ARGV[2] {
    print $0, (FNR == 1 ? "Output" : value[$3, $1])
}

그러면 이렇게 부르죠

awk -f combine.awk file2 file1 > file3

출력 파일에는 다음이 포함됩니다.

SampleName   Type     Position Output
5R01924      ABC      92184093 R
5R01028      ABC      15589809 J
5R01092      ABC      48759348 AL

Question 2

파일을 읽기 위해 bash를 호출할 필요가 없습니다.

우리는 이 모든 것을 awk에서 다음과 같이 할 수 있습니다:

### sanitize inputs
for f in ./File1 ./File2; do
  dos2unix "$f"
done

awk '
  !NF || $1 ~ /^#/ {next}
  NR==FNR {
    for (i=5; i<=NF; i++)
      if (NR > 1) {
        split($i, t, /:/)
        a[sample[i-4],$2] = t[3]
        split("", t, ":")
      }
      else sample[i-4] = $i
    next
  }
  {
    k = $1 SUBSEP $3
    f = FNR == 1  ? "Output" \
      : !(k in a) ? "N/A"    \
      : a[k]
    print $0, f
  }
' File2 OFS="\t" File1

산출:

SampleName   Type     Position  Output
5R01924      ABC      92184093  R
5R01028      ABC      15589809  J
5R01092      ABC      48759348  AL

Answer

파일을 읽기 위해 bash를 호출할 필요가 없습니다.

우리는 이 모든 것을 awk에서 다음과 같이 할 수 있습니다:

### sanitize inputs
for f in ./File1 ./File2; do
  dos2unix "$f"
done

awk '
  !NF || $1 ~ /^#/ {next}
  NR==FNR {
    for (i=5; i<=NF; i++)
      if (NR > 1) {
        split($i, t, /:/)
        a[sample[i-4],$2] = t[3]
        split("", t, ":")
      }
      else sample[i-4] = $i
    next
  }
  {
    k = $1 SUBSEP $3
    f = FNR == 1  ? "Output" \
      : !(k in a) ? "N/A"    \
      : a[k]
    print $0, f
  }
' File2 OFS="\t" File1

산출:

SampleName   Type     Position  Output
5R01924      ABC      92184093  R
5R01028      ABC      15589809  J
5R01092      ABC      48759348  AL

Question 3

첫째, 귀하의 질문은 복잡하므로 간단한 답변을 기대할 수 없습니다.

awk 'BEGIN{IFS="[[:space:]]+";OFS=" ";} NR>1 && NR==FNR {Trr[$3]=$0;Arr[$1]=$3;next} NR>FNR && FNR==1 {for(key in Arr) {for(i=5;i<=NF;i++) {if(key==$i) {nArr[key]=i;break}}}} NR>FNR && FNR>1 {for(tKey in Trr) {if($2==tKey) {for(aKey in Arr) {if(Arr[aKey]==$2) {i=nArr[aKey];Trr[tKey]=Trr[tKey]" "$i;break}}}}}END{for(key in Trr) print Trr[key]}' A B | tr ':' ' ' | awk -F'[[:space:]]+' '{print $1,$2,$3,$6}'

위의 설명:

IFS그리고오르페우스: 입력 및 출력 파일 구분 기호입니다.
[[:space:]]+: 파일 구분 기호에 공백이 여러 개 있으므로 이것을 사용해야 합니다.
NR예줄 번호처음부터...
FNR: 예파일 줄 번호입니다. 여러 파일 이름을 지정하는 awk경우NR그런데 1부터 시작해서FNR파일 변경을 통해 1로 재설정
다음,나머지매우 명확한
{}: 통역사의 혼란을 방지하기 위해 모든 블록에서 이것을 사용해야 합니다.

Answer

첫째, 귀하의 질문은 복잡하므로 간단한 답변을 기대할 수 없습니다.

awk 'BEGIN{IFS="[[:space:]]+";OFS=" ";} NR>1 && NR==FNR {Trr[$3]=$0;Arr[$1]=$3;next} NR>FNR && FNR==1 {for(key in Arr) {for(i=5;i<=NF;i++) {if(key==$i) {nArr[key]=i;break}}}} NR>FNR && FNR>1 {for(tKey in Trr) {if($2==tKey) {for(aKey in Arr) {if(Arr[aKey]==$2) {i=nArr[aKey];Trr[tKey]=Trr[tKey]" "$i;break}}}}}END{for(key in Trr) print Trr[key]}' A B | tr ':' ' ' | awk -F'[[:space:]]+' '{print $1,$2,$3,$6}'

위의 설명:

IFS그리고오르페우스: 입력 및 출력 파일 구분 기호입니다.
[[:space:]]+: 파일 구분 기호에 공백이 여러 개 있으므로 이것을 사용해야 합니다.
NR예줄 번호처음부터...
FNR: 예파일 줄 번호입니다. 여러 파일 이름을 지정하는 awk경우NR그런데 1부터 시작해서FNR파일 변경을 통해 1로 재설정
다음,나머지매우 명확한
{}: 통역사의 혼란을 방지하기 위해 모든 블록에서 이것을 사용해야 합니다.

한 파일의 인덱스 값을 사용하여 인쇄하고, 두 번째 파일에서 데이터를 추출하고, 출력을 세 번째 파일에 저장하려면 어떻게 해야 합니까?

답변1

답변2

답변3

관련 정보