저는 다음 형식을 사용하여 다중 열 데이터 파일(여기서는 10개 행의 예이지만 실제 로그에는 150개 행이 포함됩니다!) 분석 작업을 진행하고 있습니다.
ID(Prot), ID(lig), ID(cluster), dG(rescored), dG(before), POP(before)
9000, lig662, 1, 0.421573, -7.8400, 153
10V2, lig662, 1, 0.42692, -8.0300, 149
3000, lig158, 1, 0.427342, -8.1900, 147
3000, lig158, 1, 0.427342, -8.1900, 147
10V2, lig342, 1, 0.432943, -9.4200, 137
10V1, lig807, 1, 0.434338, -8.0300, 147
10V2, lig369, 1, 0.440377, -7.3200, 156
10V1, lig342, 1, 0.441205, -9.4200, 135
10V1, lig369, 1, 0.465029, -7.3600, 148
10V1, lig158, 1, 0.504513, -7.4800, 135
9000
이 데이터를 기반으로 첫 번째 열(예: , 10V1
또는 )과 두 번째 열(예: ligXXX) 3000
의 인덱스 에 집중해야 합니다 . 특히 인쇄해야 해요상위 3개두 열의 인덱스와 CSV의 모든 행에서 인덱스가 발생하는 횟수(두 열에서 가장 일반적인 인덱스를 나타냄):
TOP PROT; TOP LIG
10V1 (number of cases:4), lig 158 (number of cases: 3)
10V2 (number of cases:3), lig 662 (number of cases: 2)
3000 (number of cases: 2), lig 369 (number of cases: 2)
AWK를 직접 적용하여 정렬할 수 있는 선택된 열의 발생 횟수 등을 계산할 수 있습니다.
awk '{print $1}' file.csv | sort | uniq -c
두 개의 열에 대해 이 아이디어를 개발하고 발생 횟수별로 순위를 매겨야 합니다.
답변1
GNU awk 사용
gawk -F',[[:blank:]]+' -v N=3 '
{
count["prot"][$1]++
count["lig"][$2]++
}
function show(thing, n, id) {
print "TOP " toupper(thing)
n = N
for (id in count[thing]) {
printf "%s (number of cases: %d)\n", id, count[thing][id]
if (--n == 0) break
}
}
END {
PROCINFO["sorted_in"] = "@val_num_desc"
show("prot")
show("lig")
}
' file.csv | pr -2Ts$'\t' | sed 's/\t/, /'
TOP PROT, TOP LIG
10V1 (number of cases: 4), lig158 (number of cases: 3)
10V2 (number of cases: 3), lig662 (number of cases: 2)
3000 (number of cases: 2), lig369 (number of cases: 2)
답변2
배열의 배열과 sorted_in을 처리하려면 GNU awk를 사용하십시오.
$ cat tst.awk
BEGIN { FS=", *"; OFS=", " }
NR > 1 {
cnts[1][$1]++
cnts[2][$2]++
}
END {
numRows = 3
numCols = 2
PROCINFO["sorted_in"] = "@val_num_desc"
for (colNr=1; colNr<=numCols; colNr++) {
rowNr = 0
for (key in cnts[colNr]) {
vals[++rowNr][colNr] = sprintf("%s (number of cases: %d)", key, cnts[colNr][key])
}
}
print "TOP PROT", "TOP LIG"
for (rowNr=1; rowNr<=numRows; rowNr++) {
for (colNr=1; colNr<=numCols; colNr++) {
printf "%s%s", vals[rowNr][colNr], (colNr<numCols ? OFS : ORS)
}
}
}
$ awk -f tst.awk file
TOP PROT, TOP LIG
10V1 (number of cases: 4), lig158 (number of cases: 3)
10V2 (number of cases: 3), lig662 (number of cases: 2)
3000 (number of cases: 2), lig369 (number of cases: 2)