sed 그룹화는 전체 그룹을 캡처할 수 없습니다.

Question 1

문제는 .+.,다음을 포함하여 모든 것을 탐욕스럽게 일치시키는 것입니다.마지막 ,

이를 수정하거나 CSV 컨텍스트에서 탐욕스럽지 않은 것을 에뮬레이트할 수 [^,]+.,있습니다 [^,]+,. 그러나 다음과 같이 더 간단한 작업을 수행할 수도 있습니다.

$ sed 's/_transcript_id_[^,]*//' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

Answer

문제는 .+.,다음을 포함하여 모든 것을 탐욕스럽게 일치시키는 것입니다.마지막 ,

이를 수정하거나 CSV 컨텍스트에서 탐욕스럽지 않은 것을 에뮬레이트할 수 [^,]+.,있습니다 [^,]+,. 그러나 다음과 같이 더 간단한 작업을 수행할 수도 있습니다.

$ sed 's/_transcript_id_[^,]*//' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

Question 2

이미 설명했듯이 문제는 정규 표현식이 가능한 가장 긴 일치 항목을 찾는다는 것입니다. 또 다른 해결책은 탐욕스럽지 않은 정규식을 허용하는 도구를 사용하는 것입니다.

$ perl -pe 's/(TsM_.+?)_.+?,/$1,/' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

또는 원래 시도를 약간 수정한 버전을 사용하세요.

$ perl -pe 's/(^.+)_transcript_id_.+?,(.*$)/\1,\2/' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

물론 데이터에서 성적표 ID가 마지막에 반복되는 것으로 나타나므로 간단히 다음을 수행할 수 있습니다.

$ cut -d_ -f9- file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

또는:

$ sed 's/.*TsM/TsM/' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

Answer

이미 설명했듯이 문제는 정규 표현식이 가능한 가장 긴 일치 항목을 찾는다는 것입니다. 또 다른 해결책은 탐욕스럽지 않은 정규식을 허용하는 도구를 사용하는 것입니다.

$ perl -pe 's/(TsM_.+?)_.+?,/$1,/' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

또는 원래 시도를 약간 수정한 버전을 사용하세요.

$ perl -pe 's/(^.+)_transcript_id_.+?,(.*$)/\1,\2/' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

물론 데이터에서 성적표 ID가 마지막에 반복되는 것으로 나타나므로 간단히 다음을 수행할 수 있습니다.

$ cut -d_ -f9- file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

또는:

$ sed 's/.*TsM/TsM/' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31

sed 그룹화는 전체 그룹을 캡처할 수 없습니다.

답변1

답변2

관련 정보