FASTQ에서 두 번째 프라이머 서열을 제거합니다.

FASTQ에서 두 번째 프라이머 서열을 제거합니다.

시퀀싱 실행에서 얻은 FASTQ 파일이 있고 Unix를 사용하여 두 번째 인덱스 프라이머의 시퀀스를 제거하려고 합니다. 다음은 FASTQ 파일의 처음 몇 줄입니다. +AGCGCGAT첫 번째 행, +AGCTCGCG다섯 번째 행 등에서 제거 하려고 합니다 . 기본적으로 더하기 기호와 그 뒤의 8개 문자( A, C, 또는 ) G를 제거합니다 T. N도움을 주셔서 미리 감사드립니다.

@NS500663:433:HGFVKBGX2:1:11101:2828:1039 1:N:0:CGAGTGCT+AGCGCGAT
TCTGGNAACTTGGCTGATTCACTGGCCACGATACCTCATGTCCTCATCCATCAGGATTATCAGCTGCATAGACGG
+
AAAAA#EEEEEEEEEEEEEA/EEEEEE/EE6E/E/E///E//6EE///EA/////E/E/</E/A6/<E////6//
@NS500663:433:HGFVKBGX2:1:11101:8765:1039 1:N:0:ATCACGAT+AGCTCGCG
CATGTNAAATGAAATACATGGGAGACAAATATTTTTACTTATATAGAGTAGTTTCTCAAGGATTTTATAAATACA
+
AAAAA#EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEAEAEEEEAEEEEEEEEEEEEEEEEEEE

답변1

$ sed 's/^\(@.*\)+.*$/\1/' file.fastq >new-file.fastq

+이렇게 하면 해당 행에서 프라이머 서열 합계가 제거됩니다.

@해당 기호로 시작 하고 해당 기호를 포함하는 모든 줄을 찾습니다 +. 기호 앞의 비트만으로 줄을 바꾸고 +나머지는 삭제합니다.

입력은 에서 오고 file.fastq출력은 으로 이동합니다 new-file.fastq.

다음은 뒤에 언급한 문자와 명시적으로 일치하므로 더 제한적입니다 +.

$ sed 's/^\(@.*\)+[ACGTN]*$/\1/' file.fastq >new-file.fastq

관련 정보