awk를 통해 CSV 데이터 작업

Question 1

$ awk -F'\t' '(NR==1) || ($3=="Blue")' file
ID      Name    Eye Color
1       Bill    Blue
2       Sam     Blue
5       Ted     Blue

그러나 실제로 원하는 것은 각 ID에 대해 새 파일을 만드는 것 같습니다. 예에서와 같이 ID가 고유하다고 가정하면 다음과 같습니다.

awk -F'\t' '{ out="out_" $1 ".txt"; print > out; close(out) }' BindingDB_All.tsv

또는 각 출력 파일에 헤더를 포함시키려는 경우:

awk -F'\t' '
    NR==1 { hdr=$0; next }
    { out="out_" $1 ".txt"; print hdr ORS $0 > out; close(out) }
' BindingDB_All.tsv

Answer

$ awk -F'\t' '(NR==1) || ($3=="Blue")' file
ID      Name    Eye Color
1       Bill    Blue
2       Sam     Blue
5       Ted     Blue

그러나 실제로 원하는 것은 각 ID에 대해 새 파일을 만드는 것 같습니다. 예에서와 같이 ID가 고유하다고 가정하면 다음과 같습니다.

awk -F'\t' '{ out="out_" $1 ".txt"; print > out; close(out) }' BindingDB_All.tsv

또는 각 출력 파일에 헤더를 포함시키려는 경우:

awk -F'\t' '
    NR==1 { hdr=$0; next }
    { out="out_" $1 ".txt"; print hdr ORS $0 > out; close(out) }
' BindingDB_All.tsv

Question 2

나중에 이 문제를 발견할 수 있는 사람을 위해 해결책이 있습니다. 내가 한 첫 번째 일은 다음 명령을 사용하여 TSV를 CSV로 변환하는 것입니다.

sed 's/\t/,/g' filename_with_tabs > filename_with_commas.csv

그러면 내가 찾고 있는 파일을 검색하는 코드는 다음과 같습니다.

awk -F, 'FNR==NR {h[$1] = $0; next} {print $0,h[$1]}' file1 file2 > new_file.csv

그러면 별도의 CSV에 포함된 텍스트의 첫 번째 열을 검색합니다. 이 예에서 "file1"은 검색할 파일이고 "file2"에는 검색할 문자열이 포함되어 있습니다. 두 파일 모두 CSV 형식입니다.

그러면 file2에 포함된 ID 중 하나와 일치하는 열 1의 특정 ID가 있는 file1의 모든 행을 포함하는 별도의 CSV 파일이 생성됩니다.

이것이 몇 주 동안 내 두뇌를 죽였기 때문에 언젠가 누군가에게 도움이 되기를 바랍니다. 나 스스로 해결책을 찾지도 못했고, 상사가 나에게 보여줘야만 했다.

Answer

나중에 이 문제를 발견할 수 있는 사람을 위해 해결책이 있습니다. 내가 한 첫 번째 일은 다음 명령을 사용하여 TSV를 CSV로 변환하는 것입니다.

sed 's/\t/,/g' filename_with_tabs > filename_with_commas.csv

그러면 내가 찾고 있는 파일을 검색하는 코드는 다음과 같습니다.

awk -F, 'FNR==NR {h[$1] = $0; next} {print $0,h[$1]}' file1 file2 > new_file.csv

그러면 별도의 CSV에 포함된 텍스트의 첫 번째 열을 검색합니다. 이 예에서 "file1"은 검색할 파일이고 "file2"에는 검색할 문자열이 포함되어 있습니다. 두 파일 모두 CSV 형식입니다.

그러면 file2에 포함된 ID 중 하나와 일치하는 열 1의 특정 ID가 있는 file1의 모든 행을 포함하는 별도의 CSV 파일이 생성됩니다.

이것이 몇 주 동안 내 두뇌를 죽였기 때문에 언젠가 누군가에게 도움이 되기를 바랍니다. 나 스스로 해결책을 찾지도 못했고, 상사가 나에게 보여줘야만 했다.

관련 정보