지정된 일치 항목을 기반으로 파일에서 중복 항목 제거

Question 1

그리고 sed:

sed -e :1 -e 's/\("[^",]*"\)\(.*\),\1/\1\2/;t1'

:1루프를 표시하는 점프 마커
"[^",]*"필드입니다. 패턴에서 쉼표를 제외하면 패턴이 ","필드로 처리되지 않습니다. 이 필드를 입력하면 동일한 필드를 다시 참조할 수 있습니다.\1
이 s명령은 쉼표와 함께 동일한 필드의 두 번째 발생을 제거합니다.
대체가 이루어지면 t명령은 시작 부분의 점프 마커로 점프합니다.

Answer

그리고 sed:

sed -e :1 -e 's/\("[^",]*"\)\(.*\),\1/\1\2/;t1'

:1루프를 표시하는 점프 마커
"[^",]*"필드입니다. 패턴에서 쉼표를 제외하면 패턴이 ","필드로 처리되지 않습니다. 이 필드를 입력하면 동일한 필드를 다시 참조할 수 있습니다.\1
이 s명령은 쉼표와 함께 동일한 필드의 두 번째 발생을 제거합니다.
대체가 이루어지면 t명령은 시작 부분의 점프 마커로 점프합니다.

Question 2

한 가지 방법은 다음과 같습니다.

$ perl -lne '/^(.*?->\s*\[)(.*)(\].*)/; $k{$_}++ for split(/,/,$2); 
             print "$1", join ",", keys(%k), "$3"' file
"nirmal" -> ["web:webapi","web:identity_gateway","ds:config_store","app:ticket","ds:user_store","web:loginsvc","ds:cts        _store","web:loginui","web:am","ds:cts_store","app:loginui","app:am","app:identity_gateway","app:webapi","web:ticket","app:loginsvc",];
"mbl" -> ["s2:acctcomm","cws:mesg","txn:olsvc","app:loginsvc","web:b2b","app:loginui","app:optchart","app:phxcfgsvr","cws3:risk","s2core:billpay","s2:detsvc","app:spring","app:phxdshbrd","ds:user_store","web:ticket","batch:admin","at:eqsroll","s2:asset","s2core:mblsvc","txn:acct","app:am","s2:espsvc","development:mobile","web:fidoproxy","app:webapi","txn:rtmm","s2:mblsvc","app:redis","cws:user","cws3:acctaggtr","ds:cts_store","txn:detsvc","web:mobile","app:webapiagg","txb:b2bsvc","fhs:oqs","cws3:wsproxy","web:landing","web:olxml","fhs:eqs","web:prospect","s2core:ibsvc","cws:risk","web:phx","s2:ibsvc","s2core:espsvc","txn:services","web:ibxml","web:tablet","at:admin","web:identity_gateway","web:spring","web:phxdshbrd","web:phxcfgsvr","s2core:snapquotes","app:sentinel","s2core:asset","ets:ord","cws3:rtmm","web:loginui","txn:wtools","web:loginsvc","s2:snapquotes","app:fidoproxy","web:etsecxml","s2:aarcomm","web:am","web:wtxml","app:noknok","ds:config_store","app:ticket","txn:ibank2","s2core:services","s2:billpay","web:detsvc","app:landing","cws3:content","web:aempros_mpublish","s2core:aarcomm","app:mobile","web:webapiagg","s2core:detsvc","web:webapi","cws3:rtao","app:identity_gateway","web:xmlrtmm","web:xmlacct","ds:cts        _store","s2:services","at:oqsroll","app:vas","app:phx","cws:ctnt",];

설명하다

perl -lne-e: 입력 파일의 각 줄에서 ( )에 지정된 스크립트를 실행합니다 -n. -l입력에서 후행 줄바꿈을 제거하고 각 호출에 줄바꿈을 추가합니다 print.
/^(.*?->\s*\[)(.*)(\].*)/: 각 입력 라인에서 세 개의 데이터 세트를 일치시킵니다. 첫 번째는 .*?->\s*\[파일의 시작 부분부터 첫 번째 ->, 그 다음 0개 이상의 공백 문자, 그 다음 \[. 패턴이 괄호 안에 있으므로 이라고 부를 수 있습니다 $1. 다음으로 마지막 항목 ]( .*))까지 모두 일치시킵니다. 이것은 ~이 될 것이다 $2. 마지막으로 나머지 줄 ( \].*)을 일치시켜 가 됩니다 $3.
$k{$_}++ for split(/,/,$2);: 중복을 제거하는 방법은 다음과 같습니다. 분할하여 $2(중복 데이터)를 배열에 넣은 ,다음 해당 배열의 각 요소를 해시의 키로 사용합니다 %k. 해시 키는 항상 고유하므로 이는 제거됩니다 $2.
print "$1", join ",", keys(%k), "$3"': 이제 원본, 줄의 시작, 쉼표로 연결된 해시 키 $1, 마지막으로 줄의 나머지 부분인 을 인쇄합니다. 이렇게 하면 원래 입력 순서가 유지되지 않지만 중복된 내용은 제거됩니다.%k$3

Answer

한 가지 방법은 다음과 같습니다.

$ perl -lne '/^(.*?->\s*\[)(.*)(\].*)/; $k{$_}++ for split(/,/,$2); 
             print "$1", join ",", keys(%k), "$3"' file
"nirmal" -> ["web:webapi","web:identity_gateway","ds:config_store","app:ticket","ds:user_store","web:loginsvc","ds:cts        _store","web:loginui","web:am","ds:cts_store","app:loginui","app:am","app:identity_gateway","app:webapi","web:ticket","app:loginsvc",];
"mbl" -> ["s2:acctcomm","cws:mesg","txn:olsvc","app:loginsvc","web:b2b","app:loginui","app:optchart","app:phxcfgsvr","cws3:risk","s2core:billpay","s2:detsvc","app:spring","app:phxdshbrd","ds:user_store","web:ticket","batch:admin","at:eqsroll","s2:asset","s2core:mblsvc","txn:acct","app:am","s2:espsvc","development:mobile","web:fidoproxy","app:webapi","txn:rtmm","s2:mblsvc","app:redis","cws:user","cws3:acctaggtr","ds:cts_store","txn:detsvc","web:mobile","app:webapiagg","txb:b2bsvc","fhs:oqs","cws3:wsproxy","web:landing","web:olxml","fhs:eqs","web:prospect","s2core:ibsvc","cws:risk","web:phx","s2:ibsvc","s2core:espsvc","txn:services","web:ibxml","web:tablet","at:admin","web:identity_gateway","web:spring","web:phxdshbrd","web:phxcfgsvr","s2core:snapquotes","app:sentinel","s2core:asset","ets:ord","cws3:rtmm","web:loginui","txn:wtools","web:loginsvc","s2:snapquotes","app:fidoproxy","web:etsecxml","s2:aarcomm","web:am","web:wtxml","app:noknok","ds:config_store","app:ticket","txn:ibank2","s2core:services","s2:billpay","web:detsvc","app:landing","cws3:content","web:aempros_mpublish","s2core:aarcomm","app:mobile","web:webapiagg","s2core:detsvc","web:webapi","cws3:rtao","app:identity_gateway","web:xmlrtmm","web:xmlacct","ds:cts        _store","s2:services","at:oqsroll","app:vas","app:phx","cws:ctnt",];

설명하다

perl -lne-e: 입력 파일의 각 줄에서 ( )에 지정된 스크립트를 실행합니다 -n. -l입력에서 후행 줄바꿈을 제거하고 각 호출에 줄바꿈을 추가합니다 print.
/^(.*?->\s*\[)(.*)(\].*)/: 각 입력 라인에서 세 개의 데이터 세트를 일치시킵니다. 첫 번째는 .*?->\s*\[파일의 시작 부분부터 첫 번째 ->, 그 다음 0개 이상의 공백 문자, 그 다음 \[. 패턴이 괄호 안에 있으므로 이라고 부를 수 있습니다 $1. 다음으로 마지막 항목 ]( .*))까지 모두 일치시킵니다. 이것은 ~이 될 것이다 $2. 마지막으로 나머지 줄 ( \].*)을 일치시켜 가 됩니다 $3.
$k{$_}++ for split(/,/,$2);: 중복을 제거하는 방법은 다음과 같습니다. 분할하여 $2(중복 데이터)를 배열에 넣은 ,다음 해당 배열의 각 요소를 해시의 키로 사용합니다 %k. 해시 키는 항상 고유하므로 이는 제거됩니다 $2.
print "$1", join ",", keys(%k), "$3"': 이제 원본, 줄의 시작, 쉼표로 연결된 해시 키 $1, 마지막으로 줄의 나머지 부분인 을 인쇄합니다. 이렇게 하면 원래 입력 순서가 유지되지 않지만 중복된 내용은 제거됩니다.%k$3

지정된 일치 항목을 기반으로 파일에서 중복 항목 제거

답변1

답변2

설명하다

관련 정보