sed: 한 줄에서 여러 번 발생하는 패턴에서 텍스트를 추출합니다.

Question 1

개행으로 구분된 토큰 문자열 목록을 얻으려면 다음을 수행하십시오.

$ grep -o '\[dbo\]\.\[[^]]*\]' file | cut -d . -f 2 | tr -d '[]'
something
something_else
something
something
something
something
anything
elsewhere
otherthing
ultra
references
pattern

첫 번째는 grep으로 비트를 생성 [dbo].[word]하고 그 합계를 제거 cut합니다 .[word]tr[]

토큰 문자열을 발생하는 행별로 그룹화하려면 다음을 수행하십시오.

$ sed -e 's/\][^.[]*\[/] [/g' -e 's/^[^[]*//' -e 's/[^]]*$//' -e 's/\[dbo\]\.\[\([^]]*\)\]/\1/g' file
something something_else
something
something something
something anything elsewhere
otherthing
ultra references pattern

여기에 사용된 네 가지 대체는 다음과 같습니다.

]점이나 기호가 아닌 사이의 [모든 항목을 제거합니다 [(실제로는 공백으로 바꿉니다. 이는 최종 출력의 공백입니다).
첫 번째 것 이전의 모든 것을 삭제하십시오 [.
마지막 것 이후의 모든 것을 삭제하십시오 ].
나머지 콘텐츠에서 태그된 단어를 추출합니다.

Answer

개행으로 구분된 토큰 문자열 목록을 얻으려면 다음을 수행하십시오.

$ grep -o '\[dbo\]\.\[[^]]*\]' file | cut -d . -f 2 | tr -d '[]'
something
something_else
something
something
something
something
anything
elsewhere
otherthing
ultra
references
pattern

첫 번째는 grep으로 비트를 생성 [dbo].[word]하고 그 합계를 제거 cut합니다 .[word]tr[]

토큰 문자열을 발생하는 행별로 그룹화하려면 다음을 수행하십시오.

$ sed -e 's/\][^.[]*\[/] [/g' -e 's/^[^[]*//' -e 's/[^]]*$//' -e 's/\[dbo\]\.\[\([^]]*\)\]/\1/g' file
something something_else
something
something something
something anything elsewhere
otherthing
ultra references pattern

여기에 사용된 네 가지 대체는 다음과 같습니다.

]점이나 기호가 아닌 사이의 [모든 항목을 제거합니다 [(실제로는 공백으로 바꿉니다. 이는 최종 출력의 공백입니다).
첫 번째 것 이전의 모든 것을 삭제하십시오 [.
마지막 것 이후의 모든 것을 삭제하십시오 ].
나머지 콘텐츠에서 태그된 단어를 추출합니다.

Question 2

현재, sed를 반복적으로 호출하는 것보다 더 나은 방법은 파일에 나타나지 않을 자리 표시자 "링크"로 바꾸는 것입니다.

cat dborefs.txt | sed -E "
 s/\[dbo\]\.\[([^]]+)\]/_-\1-_/g;
 s/(^|-_)([^_]+|_[^-])*(\$|_-)/ /g;
 s/(^ +| +\$)//g"

다시 말해서:

먼저 모든 것을 [dbo].[<extract>]얻고 _-<extract>-_;
그런 다음 마지막 텍스트 앞 _-, 사이, -_뒤 의 모든 텍스트를 단일 공백 문자로 바꿉니다 ._--_
그런 다음 각 줄의 시작과 끝 부분에 있는 공백 문자를 정리합니다.

이렇게 하면 원하는 결과를 얻을 수 있습니다. 이를 모두 배열로 연결한 다음 sort고유한 항목을 필터링할 수 있습니다. 하지만 나는 여전히 명령을 연결하지 않는 더 나은 방법이 있어야 한다고 생각합니다 sed.

Answer

현재, sed를 반복적으로 호출하는 것보다 더 나은 방법은 파일에 나타나지 않을 자리 표시자 "링크"로 바꾸는 것입니다.

cat dborefs.txt | sed -E "
 s/\[dbo\]\.\[([^]]+)\]/_-\1-_/g;
 s/(^|-_)([^_]+|_[^-])*(\$|_-)/ /g;
 s/(^ +| +\$)//g"

다시 말해서:

먼저 모든 것을 [dbo].[<extract>]얻고 _-<extract>-_;
그런 다음 마지막 텍스트 앞 _-, 사이, -_뒤 의 모든 텍스트를 단일 공백 문자로 바꿉니다 ._--_
그런 다음 각 줄의 시작과 끝 부분에 있는 공백 문자를 정리합니다.

이렇게 하면 원하는 결과를 얻을 수 있습니다. 이를 모두 배열로 연결한 다음 sort고유한 항목을 필터링할 수 있습니다. 하지만 나는 여전히 명령을 연결하지 않는 더 나은 방법이 있어야 한다고 생각합니다 sed.

Question 3

일치 항목을 고유화하기 위해 해시(연관 배열)를 사용하면 Perl에서 이 작업을 더 쉽게 수행할 수 있습니다.

$ perl -nE 'while ($_ =~ /\[dbo\]\.\[(.*?)\]/g) {$h{$1}++} }{ for $k (keys %h) {say $k}' dborefs.txt 
otherthing
anything
elsewhere
something
pattern
something_else
ultra
references

이 함수를 반복적으로 적용하면 GNU Awk에서도 유사한 접근 방식이 가능합니다 match.

$ gawk '{
    while (match($0,/\[dbo\]\.\[([^]]+)\]/,a)) {h[a[1]]++; $0 = substr($0,RSTART+RLENGTH)}
  } 
  END{
    for (k in h) print k
  }' dborefs.txt 
references
elsewhere
something
something_else
pattern
otherthing
anything
ultra

캡처 그룹 배열을 제공하지 않는 기능을 가진 다른 Awk 구현의 경우 match일치 항목을 잘라야 합니다.

while (match($0,/\[dbo\]\.\[([^]]+)\]/)) {h[substr($0,RSTART+7,RLENGTH-8)]++; $0 = substr($0,RSTART+RLENGTH)}

Answer

일치 항목을 고유화하기 위해 해시(연관 배열)를 사용하면 Perl에서 이 작업을 더 쉽게 수행할 수 있습니다.

$ perl -nE 'while ($_ =~ /\[dbo\]\.\[(.*?)\]/g) {$h{$1}++} }{ for $k (keys %h) {say $k}' dborefs.txt 
otherthing
anything
elsewhere
something
pattern
something_else
ultra
references

이 함수를 반복적으로 적용하면 GNU Awk에서도 유사한 접근 방식이 가능합니다 match.

$ gawk '{
    while (match($0,/\[dbo\]\.\[([^]]+)\]/,a)) {h[a[1]]++; $0 = substr($0,RSTART+RLENGTH)}
  } 
  END{
    for (k in h) print k
  }' dborefs.txt 
references
elsewhere
something
something_else
pattern
otherthing
anything
ultra

캡처 그룹 배열을 제공하지 않는 기능을 가진 다른 Awk 구현의 경우 match일치 항목을 잘라야 합니다.

while (match($0,/\[dbo\]\.\[([^]]+)\]/)) {h[substr($0,RSTART+7,RLENGTH-8)]++; $0 = substr($0,RSTART+RLENGTH)}

Question 4

이번에는 여러 유틸리티를 사용하는 또 다른 방법이 있습니다. 파이프라인의 sed 부분은 패턴을 추출하고, awk 부분은 첫 번째 발생 순서를 유지하면서 패턴을 고유하게 지정합니다.

sed -Ee '
  /\n/{P;D;}
  s/\[dbo]\.\[([^]]+)]/\n\1\n/;D
' dborefs.txt | awk '!a[$0]++'

Answer

이번에는 여러 유틸리티를 사용하는 또 다른 방법이 있습니다. 파이프라인의 sed 부분은 패턴을 추출하고, awk 부분은 첫 번째 발생 순서를 유지하면서 패턴을 고유하게 지정합니다.

sed -Ee '
  /\n/{P;D;}
  s/\[dbo]\.\[([^]]+)]/\n\1\n/;D
' dborefs.txt | awk '!a[$0]++'

sed: 한 줄에서 여러 번 발생하는 패턴에서 텍스트를 추출합니다.

답변1

답변2

답변3

답변4

관련 정보