FASTA 파일을 사용한 히스토그램

FASTA 파일을 사용한 히스토그램

저는 리눅스를 처음 접했습니다. 다음과 같은 FASTA 파일이 있습니다.

>scaffold1
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATGTATTTTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTAACAAATAAAATTAATGCAATTTATTTTTTCAAATAAAAATACACGGAGAAAAATAATTTGTAAATTTT

등. 대략 5,000개가 넘는 비계가 있습니다.

비계 길이를 사용하여 히스토그램을 만들고 싶습니다.
Biopython 등에 대해 읽었지만 이러한 프로그램 설치에 대해서는 아무것도 모릅니다. Linux 명령(터미널)만 사용하거나 R을 사용하여 히스토그램을 얻는 방법이 있습니까? 감사해요

답변1

적절한 히스토그램 그래픽 도구를 사용하는 것이 더 현명합니다. 그러나 스캐폴딩을 일부 길이 표현으로 바꾸려면 다음 awk 명령을 시도해 볼 수 있습니다.

$ awk '{if (NR%2){printf $0" "}else{print}}' file1.txt | awk '{gsub(".", "-", $2); print( $1, $2)}'
>scaffold1 -----------------------------------------------------------
>scaffold2 --------------------------------------------
>scaffold3 ---------------------------------------
>scaffold4 ------------------------------------------------------------------

테스트 파일은 다음과 같습니다.

$ cat file1.txt
>scaffold1
TTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTATGTAAATTTT
>scaffold3
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATG
>scaffold4
TTATCCCTTAATATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT

관련 정보