fasta 시퀀스에서 개행 문자를 제거하는 방법

Question

fasta 헤더 문자로 시작하지 않는 줄에서 모든 줄 바꿈을 제거하려고 합니다 >.

awk '/^[>;]/ { if (seq) { print seq }; seq=""; print } /^[^>;]/ { seq = seq $0 } END { print seq }' data.fa

awk 스크립트는 다음과 같습니다.

/^[>;]/    { if (seq) { print seq }; seq=""; print }
/^[^>;]/ { seq = seq $0 }
END     { print seq }

...파일에서 찾은 내용에 따라 세 가지 다른 작업을 수행합니다.

fasta 헤더 라인( 로 시작하는 라인 >) 또는 fasta 주석 라인( 로 시작하는 라인 ;): 우리가 기억하는 시퀀스 seq(있는 경우)를 인쇄합니다(이전 헤더에 속함). 기억된 순서를 지웁니다. 현재 줄(제목 또는 설명)을 인쇄합니다.
fasta 제목 없음(및 주석 없음) 줄: 기억된 시퀀스를 해당 줄의 시퀀스와 연결합니다. 이렇게 하면 개행 문자가 효과적으로 제거됩니다.
파일 끝: 인쇄 순서. 이는 파일의 마지막 헤더와 연관된 시퀀스입니다.

시퀀스를 예쁘게 인쇄하려면 예를 들어 한 줄에 60자로 제한하세요.

#!/usr/bin/awk -f

function pretty(s) {
  p = "";
  n = 1;

  while (n < length(s)) {
    p = (p ? p "\n" : "") substr(s, n, 60);
    n += 60;
  }

  return p;
}

/^[>;]/  { if (seq) { print pretty(seq) }; seq=""; print }
/^[^>;]/ { seq = seq $0 } 
END      { print pretty(seq) }

그것을 넣고 prettyfasta.awk실행 가능하게 만든 chmod +x prettyfasta.awk다음( ) 실행하십시오.

$ ./prettyfasta.awk data.fa

Answer 1