별도의 csv 파일에 있는 필드에서 3개 이상의 단어를 일치시킵니다.

Question

perl아마도 좀 더 쉘 중심적인 솔루션(awk?)이 있을 것입니다. 그러나 문제가 복잡해지면 저는 보통 그것을 사용합니다. 이것은 모든 것을 csv2메모리로 읽어 들여 행을 해시의 키로 수집하는 Perl 스크립트입니다. 해당 값은 해당 헤더입니다.

그런 다음 을 반복하고 csv1제목을 꺼낸 다음 의 각 제목에 대해 csv2제목의 각 단어가 나타나는 횟수를 계산합니다. 더 큰 경우 desired일치하는 헤더와 해당 헤더의 "소스" 줄을 인쇄합니다 csv1.

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

Answer 1

perl아마도 좀 더 쉘 중심적인 솔루션(awk?)이 있을 것입니다. 그러나 문제가 복잡해지면 저는 보통 그것을 사용합니다. 이것은 모든 것을 csv2메모리로 읽어 들여 행을 해시의 키로 수집하는 Perl 스크립트입니다. 해당 값은 해당 헤더입니다.

그런 다음 을 반복하고 csv1제목을 꺼낸 다음 의 각 제목에 대해 csv2제목의 각 단어가 나타나는 횟수를 계산합니다. 더 큰 경우 desired일치하는 헤더와 해당 헤더의 "소스" 줄을 인쇄합니다 csv1.

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

별도의 csv 파일에 있는 필드에서 3개 이상의 단어를 일치시킵니다.

답변1

관련 정보