공백을 기준으로 선을 분할하고 두 번째 부분을 삭제합니다.

2024-5-21 • tag-icon

큰 파일이 있습니다

>fid|29290408|locus|VBIEntCas2262_0001|   Phosphoglycolate phosphatase (EC 3.1.3.18)   [Enterococcus casseliflavus EC20]
gtgagaaagaaagtactttttgatttagatggaacgatcattgattcgagtgaaggaatc
tatggatcgattcaatatgcgatggaaaaaatgggaaaagagcaattagcgcaagacgta
ctgcggagctttgtggggccgcctttgattgaatccttccgtggcttgggcttcgatgaa
>fid|29290410|locus|VBIEntCas2262_0002|   hypothetical protein   [Enterococcus casseliflavus EC20]
atgatcggcgaacgttttttgatcacaccgatcgacgaaccgttagacccatacaatgag
ttagtctcaagcaatcagtttactttctttacatcaacctatgatcaaatgttcttgact
ggtcatctgattctagatgttcacccaacttcaggaactttgattttgaaaaacgaaagc
ggctatttggataccaatcttttattggaatcctctccacagttaaaacaaacgaatgcg
>fid|29290414|locus|VBIEntCas2262_0004|   FIG00630550: hypothetical protein   [Enterococcus casseliflavus EC20]
atgaagcgtgttgcagaaaactatttggttgttttttcgattcttttgctgattatatgg
ctaggcttgatccaagtgaaagaatattcgcaagaagtagccctgtcgatcatttacttt

공백을 기준으로 ">"로 시작하는 각 줄을 분할하고 다음 줄을 사용하여 새 파일의 공백 앞 부분만 유지해야 합니다.

따라서 필요한 파일은 다음과 같아야 합니다.

>fid|29290408|locus|VBIEntCas2262_0001|
gtgagaaagaaagtactttttgatttagatggaacgatcattgattcgagtgaaggaatc
tatggatcgattcaatatgcgatggaaaaaatgggaaaagagcaattagcgcaagacgta
ctgcggagctttgtggggccgcctttgattgaatccttccgtggcttgggcttcgatgaa

등.

제목 뒤의 줄 수(>로 시작)는 고정되어 있지 않습니다.

나는 무엇을 해야 합니까?

답변1

다음 명령을 사용할 수 있습니다.

awk '{print $1}' filename > newfile

어디에 filename원본 대용량 파일의 이름이 있고 newfile결과를 얻은 파일이 있습니다.

답변1

관련 정보