다음 일치 전에 일치 항목과 모든 항목을 추출합니다. 각 일치 항목에 대해 이 작업을 수행합니다.

Question 1

awk에서는 이 작업을 쉽게 수행할 수 있습니다.

awk '{ if(/^>/){name=$0; sub(/^>/,"", name);}{print >> name".fa"}}' file.fa

이것은 입력 파일의 모든 줄을 반복하고 첫 번째 문자가 이면 >줄을 로 저장 합니다. 그런 다음 파일 이름에 해당 내용을 원하지 않기 때문에 에서 내용을 제거 name합니다 . 마지막으로, 각 행은 현재 시퀀스의 이름이 무엇이든 where 라는 파일 에 추가됩니다 .>namename.faname

N 라인보다 긴 시퀀스만 인쇄하려면 다음을 사용할 수 있습니다.

awk -v min=4 '{ 
               if(/^>/){ 
                    if(num >= min){
                        print seq >> name".fa"
                    } 
                    name=$0; 
                    sub(/^>/,"", name); 
                    seq=$0; 
                    num=0
                }
                else{
                    seq = seq"\n"$0; 
                    num++
                }
               }
               END{
                 if(num >= min){
                    print seq >> name".fa"
                 }
               }' file.fa

기본 원칙으로는,텍스트 처리에 쉘 루프를 사용하지 마십시오. 느리고 투박하며 오류가 발생하기 쉽습니다.

Answer

awk에서는 이 작업을 쉽게 수행할 수 있습니다.

awk '{ if(/^>/){name=$0; sub(/^>/,"", name);}{print >> name".fa"}}' file.fa

이것은 입력 파일의 모든 줄을 반복하고 첫 번째 문자가 이면 >줄을 로 저장 합니다. 그런 다음 파일 이름에 해당 내용을 원하지 않기 때문에 에서 내용을 제거 name합니다 . 마지막으로, 각 행은 현재 시퀀스의 이름이 무엇이든 where 라는 파일 에 추가됩니다 .>namename.faname

N 라인보다 긴 시퀀스만 인쇄하려면 다음을 사용할 수 있습니다.

awk -v min=4 '{ 
               if(/^>/){ 
                    if(num >= min){
                        print seq >> name".fa"
                    } 
                    name=$0; 
                    sub(/^>/,"", name); 
                    seq=$0; 
                    num=0
                }
                else{
                    seq = seq"\n"$0; 
                    num++
                }
               }
               END{
                 if(num >= min){
                    print seq >> name".fa"
                 }
               }' file.fa

기본 원칙으로는,텍스트 처리에 쉘 루프를 사용하지 마십시오. 느리고 투박하며 오류가 발생하기 쉽습니다.

Question 2

(귀하의 의견에서 제안한 대로) 귀하의 응용 분야에 더 적합한 생물정보학 도구가 있을 수 있지만 다음을 사용하여 수행할 수 있습니다 csplit.

csplit -sz file '/^>/' '{*}'

주어진

$ head xx*
==> xx00 <==
>Number_one
[some thousands lines]

==> xx01 <==
>Number_two
[some other thousands lines, less than the latter]

==> xx02 <==
>Number_three
[Some other hundreds lines]

출력 파일 이름의 번호 지정 및 형식 지정에 대한 옵션은 매뉴얼 페이지( man csplit) 를 참조하십시오.

Answer

(귀하의 의견에서 제안한 대로) 귀하의 응용 분야에 더 적합한 생물정보학 도구가 있을 수 있지만 다음을 사용하여 수행할 수 있습니다 csplit.

csplit -sz file '/^>/' '{*}'

주어진

$ head xx*
==> xx00 <==
>Number_one
[some thousands lines]

==> xx01 <==
>Number_two
[some other thousands lines, less than the latter]

==> xx02 <==
>Number_three
[Some other hundreds lines]

출력 파일 이름의 번호 지정 및 형식 지정에 대한 옵션은 매뉴얼 페이지( man csplit) 를 참조하십시오.

다음 일치 전에 일치 항목과 모든 항목을 추출합니다. 각 일치 항목에 대해 이 작업을 수행합니다.

답변1

답변2

관련 정보