FASTA(여러 세그먼트만 포함) 파일에서 HSAT1 반복 시퀀스를 식별하고 발생 빈도를 계산하는 방법은 무엇입니까?

FASTA(여러 세그먼트만 포함) 파일에서 HSAT1 반복 시퀀스를 식별하고 발생 빈도를 계산하는 방법은 무엇입니까?

저는 먼저 패턴을 식별한 다음 패턴이 발생하는 횟수를 계산하는 데 도움이 될 수 있는 것을 셸에서 찾고 있습니다. 제목이 훌륭할 것이기 때문에 이러한 시퀀스가 ​​시작되고 끝나는 위치를 알 수 있는지가 중요합니다!

문제를 잘 알고 있어야 합니다.

먼저 HSAT1 좌표를 사용하여 게놈을 마스킹하려고 시도했지만 RepeatMasker잘 작동하지 않았습니다. 그래서 모든 HSAT1 영역이 포함된 FASTA 파일을 얻었습니다.

이제 예를 들면,

acataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgt

그러니 여기서 스트레칭을 10번 반복하세요.

먼저 변수로 확장되었는지 감지한 다음 위치와 함께 계산하고 싶습니다.

결과:

Chr17 acataaaatatcaaagtacacaaaatatatattatatactgt 10

감사해요.

관련 정보