Grep 데이터만(-o) 및 첫 번째 열

Question 1

$ cat script.awk
NR == FNR {
  a[$0]
  next
}

{
  for (i = 2; i <= NF; i++) {
    for (k in a) {
      if ($i == k) {
        a[k] = a[k] ? a[k] "," $1 : $1
      }
    }
  }
}

END {
  for (k in a) {
    print a[k] "\t" k
  }
}

다음과 같이 실행하세요:

$ cat search.txt
2.2.2.3
3.3.3.3
4.4.4.4
5.5.5.5

$ awk -F, -f script.awk search.txt data.csv
A,B     3.3.3.3
D       2.2.2.3
A       4.4.4.4
        5.5.5.5

Answer

$ cat script.awk
NR == FNR {
  a[$0]
  next
}

{
  for (i = 2; i <= NF; i++) {
    for (k in a) {
      if ($i == k) {
        a[k] = a[k] ? a[k] "," $1 : $1
      }
    }
  }
}

END {
  for (k in a) {
    print a[k] "\t" k
  }
}

다음과 같이 실행하세요:

$ cat search.txt
2.2.2.3
3.3.3.3
4.4.4.4
5.5.5.5

$ awk -F, -f script.awk search.txt data.csv
A,B     3.3.3.3
D       2.2.2.3
A       4.4.4.4
        5.5.5.5

Question 2

먼저 정규식은 2.2.2.3일치할 뿐만 아니라(모든 문자와 일치하는 정규식 연산자와 마찬가지로) 내부적으로도 일치합니다.2.2.2.3212.243.22.2.2.36

여기서는 다음을 사용합니다 perl.

<data.csv perl -F, -lane '
  BEGIN {for (@l = qw{2.2.2.3 3.3.3.3 4.4.4.4 5.5.5.5}) {$v{$_} = []}}
  for (grep $v{$_}, @F[1..$#F]) {push @{$v{$_}}, $F[0]}
  END {for (@l) {print(join(",", @{$v{$_}}) || "-", "\t$_")}}'

이것은 만든다:

D       2.2.2.3
A,B     3.3.3.3
A       4.4.4.4
-       5.5.5.5

항목의 질문에 대답하려면 grep -o( -obtw, 비표준 확장으로) 출력 행에서 입력 행의 여러 부분을 보고하려면 다음을 사용할 수 있습니다 pcregrep.

<data.csv pcregrep -o1 -o2 --om-separator=$'\t' \
  '^([^,]*).*?,(2\.2\.2\.3|3\.3\.3\.3|4\.4\.4\.4|5\.5\.5\.5)(,|$)'

그러나 이는 한 줄에 한 단어만 보고합니다. 여기에 주어진:

A       4.4.4.4
B       3.3.3.3
D       2.2.2.3

을 사용하여 Perl과 같은 정규식 지원(BTW, 대부분의 구현에서 PCRE는 Perl과 같은 정규식 일치에 사용되므로 와 동일)으로 빌드한다고 grep -Po가정하면 다음을 수행할 수 있습니다.greppcregrep -o

$ grep -Po '^[^,]*+(?=.*?(?1))|((?<![^,])(2\.2\.2\.3|3\.3\.3\.3|4\.4\.4\.4|5\.5\.5\.5)(?![^,]))' data.csv
A
4.4.4.4
3.3.3.3
B
3.3.3.3
D
2.2.2.3

이것은 first-field-provided-there-is-matching-data|matching-data.

이는 전방 예측 연산자를 사용하여 구현 provided-there-is-matching-data됩니다 .(?=...)전제는 다음 내용이 일치한다는 것입니다...., 여기서 (?1)정규식은 첫 번째 캡처링 그룹에 저장되므로 일치하는 데이터 뒤에는 임의 개수의 문자( .*?)가 옵니다.

(2\.2\.2\.3|3\.3\.3\.3|4\.4\.4\.4|5\.5\.5\.5)일치하는 데이터의 경우 이스케이프를 위해 s를 사용 .하지만 다음을 나타내기 위해 일부 부정 탐색 연산자( (?<!...)및 (?!...))를 사용합니다.전제는 전후의 내용이아니요캐릭터 이외의 캐릭터,csv 필드의 내용과 정확히 일치하는지 확인하세요.

Answer