연속적으로 번호가 매겨진 각 하위 그룹/군에 대해 텍스트 파일에서 주어진 열의 가장 높은 값을 포함하는 단일 행을 추출합니다.

Question 1

그리고GNU 데이터 혼합(그리고 의 약간의 도움 cut):

$ datamash -Wf groupby 2 max 3 < file.txt | cut -f1-6
TTGSCA  family_1    18.123083   681 36349   1
CTTRAG  family_2    17.844843   685 37001   1
WGCCAA. family_3    19.99668    747 38506   1
SCACTT  family_4    19.759317   687 34686   1

Answer

그리고GNU 데이터 혼합(그리고 의 약간의 도움 cut):

$ datamash -Wf groupby 2 max 3 < file.txt | cut -f1-6
TTGSCA  family_1    18.123083   681 36349   1
CTTRAG  family_2    17.844843   685 37001   1
WGCCAA. family_3    19.99668    747 38506   1
SCACTT  family_4    19.759317   687 34686   1

Question 2

datamash나는 이것이 아마도 최고의 도구라고 생각 하지만 여기에 독특한 대안이 있습니다.

<infile sort -k2,2V -k3,3n | awk 'NR==1 || $2!=p; { p=$2 }'

Answer

datamash나는 이것이 아마도 최고의 도구라고 생각 하지만 여기에 독특한 대안이 있습니다.

<infile sort -k2,2V -k3,3n | awk 'NR==1 || $2!=p; { p=$2 }'

Question 3

이전 답변보다 원하는 출력을 얻는 더 깔끔한 방법이 있습니다. 두 번 사용해야 하지만 , 및 를 네 번 사용하는 것보다 훨씬 낫습니다 sort.sortgreptail

sort -k3r numbers | awk '!seen[$2]++' | sort -k2

산출:

TTGSCA  family_1    18.123083   681 36349   1
CTTRAG  family_2    17.844843   685 37001   1
WGCCAA. family_3    19.99668    747 38506   1
SCACTT  family_4    19.759317   687 34686   1

Answer

이전 답변보다 원하는 출력을 얻는 더 깔끔한 방법이 있습니다. 두 번 사용해야 하지만 , 및 를 네 번 사용하는 것보다 훨씬 낫습니다 sort.sortgreptail

sort -k3r numbers | awk '!seen[$2]++' | sort -k2

산출:

TTGSCA  family_1    18.123083   681 36349   1
CTTRAG  family_2    17.844843   685 37001   1
WGCCAA. family_3    19.99668    747 38506   1
SCACTT  family_4    19.759317   687 34686   1

연속적으로 번호가 매겨진 각 하위 그룹/군에 대해 텍스트 파일에서 주어진 열의 가장 높은 값을 포함하는 단일 행을 추출합니다.

답변1

답변2

답변3

관련 정보