GNU Datamash의 계산 작업

2024-5-14 • tag-icon

다음과 유사한 구조를 가진 거대한 파일이 있습니다.

A B 1980
A C 1985
A B 1979
A D 1990
A C 1981

작업은 처음 두 열의 요소 빈도를 계산하고 각 쌍과 관련된 최소 수를 반환하는 것입니다. 더 명확하게 하려면 출력은 다음과 같아야 합니다.

A B 2 1979
A C 2 1981
A D 1 1990

내 대사 중 하나는 다음과 같습니다(장난감 데이터에 따르면 정확함).

datamash -t' ' -s -g 1,2 count 1 min 3 < test.tsv

질문: 명령문과 함께 count액션이 어떻게 사용되는지 잘 모르겠습니다 . group by구문을 올바르게 이해했다면 count 1첫 번째 열의 요소만 계산되어야 합니다. 누군가 이것을 설명할 수 있나요?

관련 정보