시퀀싱 실행에서 얻은 FASTQ 파일이 있고 Unix를 사용하여 두 번째 인덱스 프라이머의 시퀀스를 제거하려고 합니다. 다음은 FASTQ 파일의 처음 몇 줄입니다. +AGCGCGAT
첫 번째 행, +AGCTCGCG
다섯 번째 행 등에서 제거 하려고 합니다 . 기본적으로 더하기 기호와 그 뒤의 8개 문자( A
, C
, 또는 ) G
를 제거합니다 T
. N
도움을 주셔서 미리 감사드립니다.
@NS500663:433:HGFVKBGX2:1:11101:2828:1039 1:N:0:CGAGTGCT+AGCGCGAT
TCTGGNAACTTGGCTGATTCACTGGCCACGATACCTCATGTCCTCATCCATCAGGATTATCAGCTGCATAGACGG
+
AAAAA#EEEEEEEEEEEEEA/EEEEEE/EE6E/E/E///E//6EE///EA/////E/E/</E/A6/<E////6//
@NS500663:433:HGFVKBGX2:1:11101:8765:1039 1:N:0:ATCACGAT+AGCTCGCG
CATGTNAAATGAAATACATGGGAGACAAATATTTTTACTTATATAGAGTAGTTTCTCAAGGATTTTATAAATACA
+
AAAAA#EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEAEAEEEEAEEEEEEEEEEEEEEEEEEE
답변1
$ sed 's/^\(@.*\)+.*$/\1/' file.fastq >new-file.fastq
+
이렇게 하면 해당 행에서 프라이머 서열 합계가 제거됩니다.
@
해당 기호로 시작 하고 해당 기호를 포함하는 모든 줄을 찾습니다 +
. 기호 앞의 비트만으로 줄을 바꾸고 +
나머지는 삭제합니다.
입력은 에서 오고 file.fastq
출력은 으로 이동합니다 new-file.fastq
.
다음은 뒤에 언급한 문자와 명시적으로 일치하므로 더 제한적입니다 +
.
$ sed 's/^\(@.*\)+[ACGTN]*$/\1/' file.fastq >new-file.fastq