두 번째 열에서 인접한 모든 행을 빼고 첫 번째 열을 유지하는 방법

두 번째 열에서 인접한 모든 행을 빼고 첫 번째 열을 유지하는 방법

다음 명령을 사용하여 파일을 생성합니다.

awk '{print $2 " "$7" "$8}' REACTOME_EXTENSION_OF_TELOMERES.xls |  awk '$8!="No"  {print $1 " " $2}' | awk 'NR>1' | awk 'BEGIN { OFS=", "; print "Name" " " "0" };{ print $0 " " "" }'

출력은 다음과 같습니다:

    Name 0
WRAP53 0.08495288 
NHP2 0.17606254 
POLA1 0.25320756 
POLD3 0.32372433 
PRIM1 0.38140765 
RFC5 0.44302294 
POLD1 0.497649 
...

두 번째 열에서 인접한 각 행을 빼고 다음 결과를 제공하는 명령이 필요합니다.

WRAP53 0.0849529 
NHP2 0.0911097 
POLA1 0.077145 
POLD3 0.0705168 
PRIM1 0.0576833 
RFC5 0.0616153 
POLD1 0.0546261 
...

두 번째 열만 유지하면 어떻게 해야 할지 알고 있습니다. 다음과 같습니다.

awk '{print $2 " "$7" "$8}' REACTOME_EXTENSION_OF_TELOMERES.xls |  awk '$8!="No"  {print $1 " " $2}' | awk 'NR>1' | awk 'BEGIN { OFS=", "; print "Name" " " "0" };{ print $0 " " "" }' | awk '{print $NF}' | awk 'NR-1{print $0-p}{p=$0}'

그런데 위와 같이 첫 번째 열을 어떻게 유지할 수 있습니까?

REACTOME_EXTENSION_OF_TELOMERES.xls 파일은 다음과 같습니다.

NAME    PROBE   GENE SYMBOL     GENE_TITLE      RANK IN GENE LIST       RANK METRIC SCORE       RUNNING ES      CORE ENRICHMENT
row_0   WRAP53  null    null    163     1.5818238258361816      0.08495288      Yes
row_1   NHP2    null    null    201     1.5055444240570068      0.17606254      Yes
row_2   POLA1   null    null    283     1.3435969352722168      0.25320756      Yes
row_3   POLD3   null    null    367     1.240567684173584       0.32372433      Yes
row_4   PRIM1   null    null    501     1.1049883365631104      0.38140765      Yes
row_5   RFC5    null    null    557     1.0596935749053955      0.44302294      Yes
row_6   POLD1   null    null    653     1.0035457611083984      0.497649        Yes

전체 명령의 출력을 REACTOME_EXTENSION_OF_TELOMERES.y에 쓸 수 있다면 좋을 것입니다.

답변1

전체 awk 파이프라인은 다음으로 대체될 수 있습니다.

awk 'NR > 1 && $8 != "No" {print $2, $7 - prev} {prev = $7}' REACTOME_EXTENSION_OF_TELOMERES.xls

어느 출력

WRAP53 0.0849529
NHP2 0.0911097
POLA1 0.077145
POLD3 0.0705168
PRIM1 0.0576833
RFC5 0.0616153
POLD1 0.0546261

답변2

$ awk 'BEGIN { OFS=FS } $8 == "No" { next } { tmp = $7 } NR > 2 { $7 -= prev } { prev = tmp; print }' inputfile
NAME    PROBE   GENE SYMBOL     GENE_TITLE      RANK IN GENE LIST       RANK METRIC SCORE       RUNNING ES      CORE ENRICHMENT
row_0   WRAP53  null    null    163     1.5818238258361816      0.08495288      Yes
row_1   NHP2    null    null    201     1.5055444240570068      0.0911097       Yes
row_2   POLA1   null    null    283     1.3435969352722168      0.077145        Yes
row_3   POLD3   null    null    367     1.240567684173584       0.0705168       Yes
row_4   PRIM1   null    null    501     1.1049883365631104      0.0576833       Yes
row_5   RFC5    null    null    557     1.0596935749053955      0.0616153       Yes
row_6   POLD1   null    null    653     1.0035457611083984      0.0546261       Yes

awk프로그램에는 다음과 같은 설명이 포함되어 있습니다.

# Set output delimiter to input delimiter (tab, set with -F)
BEGIN { OFS = FS }

# Skip lines whose 8th column is "No"
$8 == "No" { next }  # or { exit } if "No"-lines are sorted at the end.

# Save the original value in column 7.
{ tmp = $7 }

# For any row past both the header and the first data line,
# decrease column 7 by the previous row's column 7 value.
NR > 2 { $7 -= prev }

# Remember the current row's original column 7 value
# in prev and print the (possibly) modified row.
{
    prev = tmp
    print
}

출력을 새 파일 이름으로 리디렉션하여 저장합니다.

awk '...as above...' inputfile >outputfile

관련 정보