파일의 특정 위치에서 시퀀스 정보 제거 및 추가

Question 1

사용 awk:

awk '(FNR-1) % 2 == 0 { name=$1; chr=$2; len=$3; next }
     (FNR-2) % 4 == 0 { seq=substr($0,1,6) }
                      { print name "." seq, chr, len
                        print substr($0,7) }' file.fastq >newfile.fastq

프로그램은 awk세 개의 블록으로 나누어져 있습니다.

첫 번째 블록은 첫 번째 행에서 시작하여 두 행(시퀀스 및 대량 데이터 헤더 행)마다 실행됩니다. 행에 대한 3비트 정보를 3개의 변수에 저장합니다. 그런 다음 즉시 다음 입력 줄로 점프합니다.
두 번째 블록은 시퀀스 라인의 처음 6개 문자를 추출 seq하지만, 라인 2에서 시작하는 네 번째 라인에만 해당됩니다(시퀀스 라인에만 해당).
마지막 블록은 첫 번째 블록에서 처리되지 않은 행(각 시퀀스 또는 품질 데이터 행)에서만 실행되어 출력을 구성합니다.

gzip압축 파일에 사용하려면(또는bgzip-생물정보학 프로젝트에서 자주 사용되는 압축 파일)

zcat file.fastq.gz | awk '...' | bgzip -c >newfile.gz

절단 값으로 변수를 사용하려면 다음을 고려하십시오.

awk -v n=6 '(FNR-1) % 2 == 0 { name=$1; chr=$2; len=$3; next }
            (FNR-2) % 4 == 0 { seq=substr($0,1,n) }
                             { print name "." seq, chr, len
                               print substr($0,n+1) }'

-v n=6절단 길이를 제어합니다 .

실제 awk코드(작은따옴표 안의 모든 내용)를 자체 스크립트 파일에 넣고 다음과 같이 사용할 수도 있습니다.

awk -v n=6 -f script.awk file.fastq

Answer