공백으로 구분된 두 개의 파일:
파일_A
MT 50000
groupI 7850000
groupI 7950000
groupI 9050000
groupI 21750000
groupII 8750000
groupII 10550000
groupII 16150000
groupII 20850000
groupIII 14750000
groupIII 15250000
groupIII 15450000
groupIII 15550000
groupIII 15650000
groupIV 7850000
첫 번째 열은 그룹 ID이고,두 번째 열은 100,000 단위 길이의 간격의 중간점입니다.에스. 예를 들어, 첫 번째 행은 MT 그룹의 간격 1-100000에 해당하고, 두 번째 행은 7800000-7900000 간격에 해당하는 식입니다.
파일_B
MT 2851 3825 Name=mt-nd1
MT 4036 5082 Name=mt-nd2
MT 5465 7015 Name=mt-co1
MT 7173 7863 Name=mt-co2
MT 8097 8780 Name=mt-atp6
groupI 18791 22890 Name=FGF12
groupI 36880 38991 Name=MB21D2
groupI 65279 68049 Name=cldn15lb
groupI 77722 105198 Name=col4a4
groupI 117583 141390 Name=col4a3
groupI 150455 155401 Name=sst1.1
groupI 9050030 9058000 Name=bco2b
groupI 1076088 1085084 Name=SORL1
groupI 1175505 1181937 Name=abcg4b
groupI 1184288 1184688 Name=lyrm9
groupI 1185206 1186192 Name=ift20
File_B의 첫 번째 열은 유전자가 위치한 그룹/염색체의 이름이고, 두 번째와 세 번째 열은 유전자의 간격이며, 두 번째 열은 시작이고 세 번째 열은 끝입니다. 마지막으로 열 4는 유전자 이름입니다. File_A의 100,000 간격 내에 있는 File_B의 열 4에서 고유한 유전자 이름을 추출하고 싶습니다.
결과물 파일
mt-nd1
mt-nd2
mt-co1
mt-co2
mt-atp6
bco2b
다르지만 비슷한 프로세스에 대해 다음 코드를 사용하고 있습니다(File_B에는 더 많은 열이 있고 File_A의 두 번째 열은 간격 대신 점입니다).
while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { if (gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) !~ /\s/) print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1); }' <File_B.txt; done < File_A.txt > Output_file.txt
답변1
그룹 이름이 동일해야 한다고 가정합니다(설명에서는 명확하지 않지만 데이터 및 예상 출력에서는 그렇게 제안함).
$ sort -k1,1 -k2n,2n <(awk '{print $1, $2-50000, $2+50000, $2}' File_A) File_B |
awk '
!gsub(/[^=]*=/, "", $4) {g=$1; s=$2; e=$3; m=$4; next}
$2 > s && $3 <= e && $1 == g {if(m){print g, m; m=""} print " "$4}
'
MT 50000
mt-nd1
mt-nd2
mt-co1
mt-co2
mt-atp6
groupI 9050000
bco2b
제목 없음:
$ sort -k1,1 -k2n,2n <(awk '{print $1, $2-50000, $2+50000}' File_A) File_B |
awk '
!gsub(/[^=]*=/, "", $4) {g=$1; s=$2; e=$3; next}
$2 > s && $3 <= e && $1 == g {print $4}
'
mt-nd1
mt-nd2
mt-co1
mt-co2
mt-atp6
bco2b