패턴으로 시작하는 중복 줄과 그 다음 줄을 제거하는 방법은 무엇입니까?

Question 1

getline다음 줄을 얻으려면 awk에서 사용할 수 있습니다 .

awk '/^>/{ if(!seen[$0]++){ print;getline;print } else { getline } }'

여러 줄을 처리하는 더 간단한 대답이 있습니다.

awk '/^>/{ skip = seen[$0]++ }
     { if(!skip)print }'

Answer

getline다음 줄을 얻으려면 awk에서 사용할 수 있습니다 .

awk '/^>/{ if(!seen[$0]++){ print;getline;print } else { getline } }'

여러 줄을 처리하는 더 간단한 대답이 있습니다.

awk '/^>/{ skip = seen[$0]++ }
     { if(!skip)print }'

Question 2

POSIX 도구 상자 사용:

paste - - <file | awk '{$1=$1};!seen[$0]++' | tr '\t' '\n'

Answer

POSIX 도구 상자 사용:

paste - - <file | awk '{$1=$1};!seen[$0]++' | tr '\t' '\n'

Question 3

그리고 awk:

awk 'NR%2==1{l=$0;next} !seen[l"\n"$0]++{print l"\n"$0}' file

NR%2==1>1모든 두 번째 행은 true이므로 , >2및 가 있는 행은 입니다 >3. 이 경우 내용을 변수에 저장하고 l해당 줄을 계속 진행하세요 next.
!seen[l"\n"$0]++여기서는 고유한 행을 확인하지 않고 확인합니다.2독특한 연속선.
- 고유한 경우 마지막 줄 l과 현재 줄 $0사이에 개행 문자를 넣어 인쇄합니다 \n.

산출:

>1 
ACCGGTTTCCTTGAAATT
>2 
AACCTTCCGGTTAATT
>3 
AACCTTCCGGTTAATT

Answer

그리고 awk:

awk 'NR%2==1{l=$0;next} !seen[l"\n"$0]++{print l"\n"$0}' file

NR%2==1>1모든 두 번째 행은 true이므로 , >2및 가 있는 행은 입니다 >3. 이 경우 내용을 변수에 저장하고 l해당 줄을 계속 진행하세요 next.
!seen[l"\n"$0]++여기서는 고유한 행을 확인하지 않고 확인합니다.2독특한 연속선.
- 고유한 경우 마지막 줄 l과 현재 줄 $0사이에 개행 문자를 넣어 인쇄합니다 \n.

산출:

>1 
ACCGGTTTCCTTGAAATT
>2 
AACCTTCCGGTTAATT
>3 
AACCTTCCGGTTAATT

관련 정보