괄호 안을 제외하고 모두 제거

Question 1

그리고 perl:

perl -ne 'push @l, ">" . join("", /\[(.*?)\]/g) . "\n" . <>;
          END{print for sort @l}' your-file

그리고 sed:

<your-file sed 's/^[^[]*\[/>/
                s/\][^[]*\[\{0,1\}//g
                N;s/\n/\[/' |
  sort |
  tr '[' '\n'

Answer

그리고 perl:

perl -ne 'push @l, ">" . join("", /\[(.*?)\]/g) . "\n" . <>;
          END{print for sort @l}' your-file

그리고 sed:

<your-file sed 's/^[^[]*\[/>/
                s/\][^[]*\[\{0,1\}//g
                N;s/\n/\[/' |
  sort |
  tr '[' '\n'

Question 2

나의 (복잡한) 조언:

cat file | grep -Po "^[CGTA-]*$|^>.*$" | grep -Po "(?<=\[).*(?=])|^[ACGT-]*$" | awk '{printf (NR%2==0) ? $0 "\n" : ">"$0"::"}' | sort | sed 's/#/\n/'

Grep에는 다음으로 시작하는 문자 CGTA- 와 줄을 포함하는 줄만 포함됩니다.>

grep -Po "^[CGTA-]*$|^>.*$"

괄호 안에 있는 내용(제외)과 패턴과 일치하는 행만 Grep합니다.ACGT-

| grep -Po "(?<=\[).*(?=])|^[ACGT-]*$"

두 줄마다 연결하고 구분 기호 #와 첫 번째 문자를 추가한 >다음 정렬합니다.

| awk '{printf (NR%2==0) ? $0 "\n" : ">"$0"#"}' | sort

#마지막으로 구분 기호를 새 줄로 바꿉니다.

| sed 's/#/\n/'

산출:

>Archaeoglobus_fulgidus_DSM_4304.gbfspecies
ATGCGCGCGATAGCTAGCTAGCTAGCTTTAGGGGGATTAGCTA----ACTCTGATTCGGA
>Ignicoccus_hospitalis_KIN4-I.gbfspecies
ATGAGTGTGACTA---TTT---GCAATCAGCTAGCTACTACGTACTGATCGTAGCTGACG

Answer