큰 파일에서 중복된 첫 번째 필드/열이 있는 행 제거

Question

이것이 우리가 가장 잘하는 일입니다 awk:

$ awk '{ if(NR==1 || $1 == last+1){print; last=$1}}' file
 40812        20406.000000         0.843859468      1083.209050130      -994.562279080      -993.349611938        22.120868921
 40813        20406.500000         0.829362077      1064.599666089      -994.546948121      -993.348764740        22.087239027
 40814        20407.000000         0.822524589      1055.822814442      -994.540118434      -993.348757318        22.083606005
 40815        20407.500000         0.823511602      1057.089780943      -994.541681744      -993.349315083        22.432111979
 40816        20408.000000         0.824550451      1058.423286012      -994.543159511      -993.349731194        22.481428146
 40817        20408.500000         0.819160081      1051.504008955      -994.537767061      -993.349702160        22.268819809
 40818        20409.000000         0.807571275      1036.628191427      -994.525675417      -993.349169067        22.332761049
 40819        20409.500000         0.797104599      1023.192780242      -994.514563564      -993.348491176        22.622548103
 40820        20410.000000         0.796605925      1022.552664951      -994.513928312      -993.348319789        22.193170071

아니면 골프를 좀 치세요.

$ awk '(NR==1 || $1 == last+1) && last=$1' file
 40812        20406.000000         0.843859468      1083.209050130      -994.562279080      -993.349611938        22.120868921
 40813        20406.500000         0.829362077      1064.599666089      -994.546948121      -993.348764740        22.087239027
 40814        20407.000000         0.822524589      1055.822814442      -994.540118434      -993.348757318        22.083606005
 40815        20407.500000         0.823511602      1057.089780943      -994.541681744      -993.349315083        22.432111979
 40816        20408.000000         0.824550451      1058.423286012      -994.543159511      -993.349731194        22.481428146
 40817        20408.500000         0.819160081      1051.504008955      -994.537767061      -993.349702160        22.268819809
 40818        20409.000000         0.807571275      1036.628191427      -994.525675417      -993.349169067        22.332761049
 40819        20409.500000         0.797104599      1023.192780242      -994.514563564      -993.348491176        22.622548103
 40820        20410.000000         0.796605925      1022.552664951      -994.513928312      -993.348319789        22.193170071

설명하다

if(NR==1 || $1 == last+1): NR현재 줄 번호입니다. 따라서 NR == 1파일의 첫 번째 줄을 읽을 때만 유지됩니다. 이것이 필요하므로 항상 첫 번째 줄을 인쇄합니다. 그런 다음 $1 == last +1행의 첫 번째 필드( $1)가 변수에 저장된 값에 last1을 더한 값과 같으면 true입니다. 요약하면 이는 대상 라인이 정의된 "이것이 마지막 행이거나 첫 번째 필드가 마지막 + 1과 같은 경우"를 의미합니다.
print; last=$1: 위의 두 조건 중 하나가 true인 경우 행을 인쇄하고 값을 last첫 번째 필드에 설정합니다.이것좋아요, 그럼 다음 작업을 진행하겠습니다.

Answer 1

이것이 우리가 가장 잘하는 일입니다 awk:

$ awk '{ if(NR==1 || $1 == last+1){print; last=$1}}' file
 40812        20406.000000         0.843859468      1083.209050130      -994.562279080      -993.349611938        22.120868921
 40813        20406.500000         0.829362077      1064.599666089      -994.546948121      -993.348764740        22.087239027
 40814        20407.000000         0.822524589      1055.822814442      -994.540118434      -993.348757318        22.083606005
 40815        20407.500000         0.823511602      1057.089780943      -994.541681744      -993.349315083        22.432111979
 40816        20408.000000         0.824550451      1058.423286012      -994.543159511      -993.349731194        22.481428146
 40817        20408.500000         0.819160081      1051.504008955      -994.537767061      -993.349702160        22.268819809
 40818        20409.000000         0.807571275      1036.628191427      -994.525675417      -993.349169067        22.332761049
 40819        20409.500000         0.797104599      1023.192780242      -994.514563564      -993.348491176        22.622548103
 40820        20410.000000         0.796605925      1022.552664951      -994.513928312      -993.348319789        22.193170071

아니면 골프를 좀 치세요.

$ awk '(NR==1 || $1 == last+1) && last=$1' file
 40812        20406.000000         0.843859468      1083.209050130      -994.562279080      -993.349611938        22.120868921
 40813        20406.500000         0.829362077      1064.599666089      -994.546948121      -993.348764740        22.087239027
 40814        20407.000000         0.822524589      1055.822814442      -994.540118434      -993.348757318        22.083606005
 40815        20407.500000         0.823511602      1057.089780943      -994.541681744      -993.349315083        22.432111979
 40816        20408.000000         0.824550451      1058.423286012      -994.543159511      -993.349731194        22.481428146
 40817        20408.500000         0.819160081      1051.504008955      -994.537767061      -993.349702160        22.268819809
 40818        20409.000000         0.807571275      1036.628191427      -994.525675417      -993.349169067        22.332761049
 40819        20409.500000         0.797104599      1023.192780242      -994.514563564      -993.348491176        22.622548103
 40820        20410.000000         0.796605925      1022.552664951      -994.513928312      -993.348319789        22.193170071

설명하다

if(NR==1 || $1 == last+1): NR현재 줄 번호입니다. 따라서 NR == 1파일의 첫 번째 줄을 읽을 때만 유지됩니다. 이것이 필요하므로 항상 첫 번째 줄을 인쇄합니다. 그런 다음 $1 == last +1행의 첫 번째 필드( $1)가 변수에 저장된 값에 last1을 더한 값과 같으면 true입니다. 요약하면 이는 대상 라인이 정의된 "이것이 마지막 행이거나 첫 번째 필드가 마지막 + 1과 같은 경우"를 의미합니다.
print; last=$1: 위의 두 조건 중 하나가 true인 경우 행을 인쇄하고 값을 last첫 번째 필드에 설정합니다.이것좋아요, 그럼 다음 작업을 진행하겠습니다.

큰 파일에서 중복된 첫 번째 필드/열이 있는 행 제거

답변1

설명하다

관련 정보