문자열(부분 및 정확한)을 기반으로 필드 추출

Question 1

match(), \<단어 경계 및 \s/\S약어 에 대한 세 번째 인수로 GNU awk를 사용합니다 .

$ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
DP4=30,13,22,16 missense_variant        MODERATE        ABCB6

Answer

match(), \<단어 경계 및 \s/\S약어 에 대한 세 번째 인수로 GNU awk를 사용합니다 .

$ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
DP4=30,13,22,16 missense_variant        MODERATE        ABCB6

Question 2

awk 'BEGIN{ OFS="\t" } {
    nrf=split($0, tmp); s1=s2=0;
    for(i=1; i<=nrf; i++){
        printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                     (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
    }; print "";
}' infile

우리는 사용했었다분할() 함수현재 처리된 행을 매번 임시 배열로 분할합니다.tmp기본 FS(공백, 즉 탭/공백)에서 이것은 nrf분할() 함수에 의해 분할된 필드 수를 보유하는 데 사용하는 임시 변수일 뿐입니다.

그런 다음 이 필드에 대해 for-look을 사용하고 현재 읽은 필드가 tmp[i]원하는 조건을 만족하는지 확인하고, 그렇다면 인쇄하고, 그렇지 않으면 다음 조건을 확인하고, 표시되면 이전 필드를 인쇄합니다. tmp[i-1]그런 다음 현재 필드 그 자체, tmp[i]그 오른쪽의 다음 필드 tmp[i+1], 그렇지 않으면 빈 문자열을 인쇄합니다 "".

임시 변수s1그리고s2첫 번째와 두 번째 인쇄 조건 작업 사이의 필드 구분 기호를 제어하는 데 사용됩니다. 따라서 다음 필드 앞에 필드가 있으면 OFS 이전이 인쇄되어야 합니다.

Answer

awk 'BEGIN{ OFS="\t" } {
    nrf=split($0, tmp); s1=s2=0;
    for(i=1; i<=nrf; i++){
        printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                     (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
    }; print "";
}' infile

우리는 사용했었다분할() 함수현재 처리된 행을 매번 임시 배열로 분할합니다.tmp기본 FS(공백, 즉 탭/공백)에서 이것은 nrf분할() 함수에 의해 분할된 필드 수를 보유하는 데 사용하는 임시 변수일 뿐입니다.

그런 다음 이 필드에 대해 for-look을 사용하고 현재 읽은 필드가 tmp[i]원하는 조건을 만족하는지 확인하고, 그렇다면 인쇄하고, 그렇지 않으면 다음 조건을 확인하고, 표시되면 이전 필드를 인쇄합니다. tmp[i-1]그런 다음 현재 필드 그 자체, tmp[i]그 오른쪽의 다음 필드 tmp[i+1], 그렇지 않으면 빈 문자열을 인쇄합니다 "".

임시 변수s1그리고s2첫 번째와 두 번째 인쇄 조건 작업 사이의 필드 구분 기호를 제어하는 데 사용됩니다. 따라서 다음 필드 앞에 필드가 있으면 OFS 이전이 인쇄되어야 합니다.

문자열(부분 및 정확한)을 기반으로 필드 추출

답변1

답변2

관련 정보