AWK를 사용하여 데이터프레임의 행을 필터링하여 특정 필드의 X 인스턴스가 있는 항목만 표시

Question 1

awk 스크립트를 개선한 Ed Morton에게 감사드립니다.

awk -v n=$1 '
NR==1
{a[$1]=($1 in a ? a[$1] RS : "") $0}
END{for(i in a){if(gsub(RS,"&",a[i])==n-1){print a[i]}}}
' "$2"

NR==1제목을 인쇄하세요. 마지막 문은 각 배열 요소에 행 수를 확인하기 위해 분할 함수를 호출합니다. 4개이면 인쇄하세요.

./script 4 file실행 가능하게 만든 후 다음을 사용하여 호출할 수 있습니다(첫 번째 인수는 반복 횟수, 두 번째 인수는 파일 이름).

이 답변은 동일한 첫 번째 필드가 있는 줄이 입력 파일에서 서로 옆에 있어야 한다고 강제하지 않습니다.

Answer

awk 스크립트를 개선한 Ed Morton에게 감사드립니다.

awk -v n=$1 '
NR==1
{a[$1]=($1 in a ? a[$1] RS : "") $0}
END{for(i in a){if(gsub(RS,"&",a[i])==n-1){print a[i]}}}
' "$2"

NR==1제목을 인쇄하세요. 마지막 문은 각 배열 요소에 행 수를 확인하기 위해 분할 함수를 호출합니다. 4개이면 인쇄하세요.

./script 4 file실행 가능하게 만든 후 다음을 사용하여 호출할 수 있습니다(첫 번째 인수는 반복 횟수, 두 번째 인수는 파일 이름).

이 답변은 동일한 첫 번째 필드가 있는 줄이 입력 파일에서 서로 옆에 있어야 한다고 강제하지 않습니다.

Question 2

$ awk -v n=4 '
    NR==1 { print; next }
    $1 != prev { if (cnt==n) printf "%s", buf; prev=$1; cnt=0; buf="" }
    { cnt++; buf=buf $0 ORS }
    END { if (cnt==n) printf "%s", buf }
' file
ID  structureA  structureB
sample_2    1   1
sample_2    2   1
sample_2    1   2
sample_2    2   2
sample_4    1   1
sample_4    2   1
sample_4    3   1
sample_4    4   1

Answer

$ awk -v n=4 '
    NR==1 { print; next }
    $1 != prev { if (cnt==n) printf "%s", buf; prev=$1; cnt=0; buf="" }
    { cnt++; buf=buf $0 ORS }
    END { if (cnt==n) printf "%s", buf }
' file
ID  structureA  structureB
sample_2    1   1
sample_2    2   1
sample_2    1   2
sample_2    2   2
sample_4    1   1
sample_4    2   1
sample_4    3   1
sample_4    4   1

AWK를 사용하여 데이터프레임의 행을 필터링하여 특정 필드의 X 인스턴스가 있는 항목만 표시

답변1

답변2

관련 정보