탭으로 구분된 버전

Question

구분 기호로 공백이 있다고 가정합니다.

$ while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2; done <file1
LOC102908761
Rftn1
LOC102913870

설명하다

while read -r id pos; do FOO; done <file1: 이것은 file1한 줄씩 읽고 첫 번째 필드(예: NW_006502347.1)를 쉘 변수에 넣고 $id두 번째 필드(예: 316684)를 쉘 변수에 넣습니다 $pos. 그런 다음 FOO각 행에 대해 실행됩니다.
awk -v id="$id" -v pos="$pos" 'BAR' <file2: 의 각 줄에 대해 실행할 명령을 file1실행합니다 . 그러면 일치하는 부품이 검색됩니다 . 우리는 이 스크립트에 셸에서 두 개의 "외부" 변수를 알려주어야 합니다 . 즉, awk 변수에는 쉘 변수와 동일한 값이 할당되고 , awk 변수 와 쉘 변수에도 동일한 값이 할당됩니다 .awkBARfile2awkid$idpos$pos
$1 == id && pos > $4 && pos < $5: 이것은 스크립트의 "조건부" 부분입니다 awk. 이러한 조건이 충족되면 다음 명령이 실행됩니다. 여기서는 첫 번째 필드가 $1현재 행과 동일하고 의 file2네 번째와 다섯 번째 필드 사이에 있는지 확인합니다.idfile1pos$4$5file2
{ print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }: 위의 조건이 충족되면 이 코드가 실행됩니다. 우리는 그것을 first 로 바꾸고 싶습니다 gensub. gene=영숫자 문자열 뒤에 임의의 길이가 오는 문자열을 검색합니다 ([A-Za-z0-9]*). 영숫자 문자열은 (괄호로 묶입니다. 또한 전체 문자열 앞과 뒤의 모든 문자를 )"검색"합니다 . 따라서 이것은 전체 줄을 "검색"하고 (첫 번째이자 유일한) 캡처 그룹 인 다음의 영숫자 문자열 로 바꿉니다 . 궁극적으로 첫 번째 항목을 바꾸는 것을 의미하지만 한 줄에 일치 항목이 하나만 있다고 가정하기 때문에 이는 의미가 없습니다 ..*gene=([A-Za-z0-9]*)"\\1"gene=1gene=

탭으로 구분된 버전

일반적으로 저는 탭으로 구분된 파일을 사용하는 것을 선호하며, 특히 GFF/GTF 파일이라고 가정할 경우 더욱 그렇습니다. 이를 통해 특히 필드 9에서 공백을 구별할 수 있습니다.

while IFS=$'\t' read -r id pos; do awk -F'\t' -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2.tsv ; done <file1.tsv

스크립트 수정은 탭에서 쉘 라인 IFS=$'\t'과 awk라인을 명시적으로 분할하는 것입니다 -F'\t'.

Answer 1

구분 기호로 공백이 있다고 가정합니다.

$ while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2; done <file1
LOC102908761
Rftn1
LOC102913870

설명하다

while read -r id pos; do FOO; done <file1: 이것은 file1한 줄씩 읽고 첫 번째 필드(예: NW_006502347.1)를 쉘 변수에 넣고 $id두 번째 필드(예: 316684)를 쉘 변수에 넣습니다 $pos. 그런 다음 FOO각 행에 대해 실행됩니다.
awk -v id="$id" -v pos="$pos" 'BAR' <file2: 의 각 줄에 대해 실행할 명령을 file1실행합니다 . 그러면 일치하는 부품이 검색됩니다 . 우리는 이 스크립트에 셸에서 두 개의 "외부" 변수를 알려주어야 합니다 . 즉, awk 변수에는 쉘 변수와 동일한 값이 할당되고 , awk 변수 와 쉘 변수에도 동일한 값이 할당됩니다 .awkBARfile2awkid$idpos$pos
$1 == id && pos > $4 && pos < $5: 이것은 스크립트의 "조건부" 부분입니다 awk. 이러한 조건이 충족되면 다음 명령이 실행됩니다. 여기서는 첫 번째 필드가 $1현재 행과 동일하고 의 file2네 번째와 다섯 번째 필드 사이에 있는지 확인합니다.idfile1pos$4$5file2
{ print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }: 위의 조건이 충족되면 이 코드가 실행됩니다. 우리는 그것을 first 로 바꾸고 싶습니다 gensub. gene=영숫자 문자열 뒤에 임의의 길이가 오는 문자열을 검색합니다 ([A-Za-z0-9]*). 영숫자 문자열은 (괄호로 묶입니다. 또한 전체 문자열 앞과 뒤의 모든 문자를 )"검색"합니다 . 따라서 이것은 전체 줄을 "검색"하고 (첫 번째이자 유일한) 캡처 그룹 인 다음의 영숫자 문자열 로 바꿉니다 . 궁극적으로 첫 번째 항목을 바꾸는 것을 의미하지만 한 줄에 일치 항목이 하나만 있다고 가정하기 때문에 이는 의미가 없습니다 ..*gene=([A-Za-z0-9]*)"\\1"gene=1gene=

탭으로 구분된 버전

일반적으로 저는 탭으로 구분된 파일을 사용하는 것을 선호하며, 특히 GFF/GTF 파일이라고 가정할 경우 더욱 그렇습니다. 이를 통해 특히 필드 9에서 공백을 구별할 수 있습니다.

while IFS=$'\t' read -r id pos; do awk -F'\t' -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2.tsv ; done <file1.tsv

스크립트 수정은 탭에서 쉘 라인 IFS=$'\t'과 awk라인을 명시적으로 분할하는 것입니다 -F'\t'.

탭으로 구분된 버전

답변1

설명하다

탭으로 구분된 버전

관련 정보