file1의 일치하는 문자열을 file2의 다른 문자열로 바꾸는 방법

Question

질문에 대한 나의 이해는 인덱스 파일을 기반으로 fatsa 파일을 검색하고 싶다는 것입니다. 아래 답변에서 인덱스 파일은 Patterns.txt입니다. 또한 프로세스를 테스트하고 시연하기 위해 파일을 일부 변경했습니다. 이 답변을 읽은 후 자신만의 Pattern.txt 파일을 사용할 수 있습니다.

따라서 가정은 다음과 같습니다.

$ cat fasta
>rev-bc-1
TGTGTTGAGACCACACAGGCCTCAGTCTCGTGGGCTCGG
>rev-bc-2
GTCTGTCGCCATGGAAAGTCAACTGTCTCGTGGGCTCGG
>rev-bc-3
TTGCTACGGTTGACCATGCAGTTAGTCTCGTGGGCTCGG
>rev-bc-4
AACTTGAGGTATCGTATATTCAATGTCTCGTGGGCTCGG
>rev-bc-5
GCAGGTGGGCATCCGGACCGATATGTCTCGTGGGCTCGG

$ cat patterns.txt 
>1
bc-4
>2
bc-2

먼저 이 명령을 실행하여 fasta 파일에서 Pattern.txt에 필요한 콘텐츠를 추출합니다.

$ awk '/bc/{print}' patterns.txt | xargs -I{} awk -v q=$(echo {}) '($0 ~ q){getline; print}' fasta
AACTTGAGGTATCGTATATTCAATGTCTCGTGGGCTCGG
GTCTGTCGCCATGGAAAGTCAACTGTCTCGTGGGCTCGG

이 출력을 임시 파일에 저장합니다.

이제 두 번째 명령을 실행하여 최종 결과를 얻으십시오.

awk '!/bc/{print}' patterns.txt | paste -d '\n' - fasout

>1
AACTTGAGGTATCGTATATTCAATGTCTCGTGGGCTCGG
>2
GTCTGTCGCCATGGAAAGTCAACTGTCTCGTGGGCTCGG

설명: 첫 번째 명령은 Pattern.txt에서 bc-1, bc-2 등이 포함된 행을 추출합니다. 그런 다음 해당 줄을 찾기 위해 두 번째 awk(한 번에 하나씩)로 파이프되고 일단 발견되면 awk의 getline 옵션을 사용하여 다음 줄을 인쇄합니다.

두 번째 명령은 단순히 Pattern.txt 파일을 fastout과 병합하여 bc-1, bc-2 등의 행이 fasout의 내용으로 대체되도록 합니다.

이것이 실제로 원하는 솔루션인지 확실하지 않기 때문에 언급하지 않은 몇 가지 주의 사항이 있습니다. 그렇다면 나중에 답변을 수정하여 포함하겠습니다.

Answer 1