시퀀스가 개행 문자로 구분되는 fasta 파일이 있습니다. 개행 문자를 제거하고 싶습니다. 내 파일의 예는 다음과 같습니다.
>accession1
ATGGCCCATG
GGATCCTAGC
>accession2
GATATCCATG
AAACGGCTTA
나는 이것을 다음과 같이 변환하고 싶습니다 :
>accession1 ATGGCCCATGGGATCCTAGC
>accession2 GATATCCATGAAACGGCTTA
두 개의 열이 있는 두 번째 파일을 원합니다. 첫 번째는 식별 번호이고 두 번째는 순서입니다.
답변1
awk를 사용하세요:
awk '/^>/&&NR>1{print "";}{printf "%s",/^>/ ? $0" " : $0}' file
>accession1 ATGGCCCATGGGATCCTAGC
>accession2 GATATCCATGAAACGGCTTA