awk를 사용하여 시퀀스 길이에 따라 fastq 파일의 부분 집합을 지정하세요.

Question

레코드 및 필드 구분 기호를 사용하여 awk가 개행 및 공백을 사용하지 못하도록 할 수 있습니다. 대신 "\n@"을 사용하여 레코드 구분을 표시하고 일반 "\n"을 사용하여 필드를 구분할 수 있습니다.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

각 줄은 서로 다른 필드이므로 $2를 사용하여 두 번째 줄의 길이를 확인할 수 있습니다. 레코드 구분 기호에 먹히기 때문에 인쇄할 때 "@"를 추가해야 합니다.

Answer 1

레코드 및 필드 구분 기호를 사용하여 awk가 개행 및 공백을 사용하지 못하도록 할 수 있습니다. 대신 "\n@"을 사용하여 레코드 구분을 표시하고 일반 "\n"을 사용하여 필드를 구분할 수 있습니다.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

각 줄은 서로 다른 필드이므로 $2를 사용하여 두 번째 줄의 길이를 확인할 수 있습니다. 레코드 구분 기호에 먹히기 때문에 인쇄할 때 "@"를 추가해야 합니다.

awk를 사용하여 시퀀스 길이에 따라 fastq 파일의 부분 집합을 지정하세요.

답변1

관련 정보