csv 파일을 구문 분석하여 열 값의 일치하는 문자 집합을 기반으로 행을 필터링합니다.

Question 1

awk두 문자열 사이의 공통 시작 문자를 찾기 위해 작은 함수를 작성했습니다 .

awk '
BEGIN{OFS=FS=","}
function common_chars(a,b, o){
    split(a,asplit,"")
    split(b,bsplit,"")
    n=1
    while (asplit[n]==bsplit[n]){
        o=o""asplit[n]
        n++
    }
    return o
}
s[$1] {v[$1]=common_chars(v[$1],$2)}
!s[$1] {v[$1]=$2;s[$1]=1 }
END {for(a in v){print a,v[a]}}
' file

표시 되지 않으면 $1(상태는 에 저장됨 ) 배열에 s[$1]저장됩니다 . 표시된 경우 함수의 반환 값을 자체와 사이에 설정하세요 . 이 함수는 첫 번째 문자에서 불일치를 찾을 때까지 개별 문자에 대해 while 루프를 실행합니다.$2v[$1]=$2v[$1]$2

for C,404그리고 C,304그것은 인쇄됩니다C,

산출:

A,3300   
B,844
C,
M,55

Answer

awk두 문자열 사이의 공통 시작 문자를 찾기 위해 작은 함수를 작성했습니다 .

awk '
BEGIN{OFS=FS=","}
function common_chars(a,b, o){
    split(a,asplit,"")
    split(b,bsplit,"")
    n=1
    while (asplit[n]==bsplit[n]){
        o=o""asplit[n]
        n++
    }
    return o
}
s[$1] {v[$1]=common_chars(v[$1],$2)}
!s[$1] {v[$1]=$2;s[$1]=1 }
END {for(a in v){print a,v[a]}}
' file

표시 되지 않으면 $1(상태는 에 저장됨 ) 배열에 s[$1]저장됩니다 . 표시된 경우 함수의 반환 값을 자체와 사이에 설정하세요 . 이 함수는 첫 번째 문자에서 불일치를 찾을 때까지 개별 문자에 대해 while 루프를 실행합니다.$2v[$1]=$2v[$1]$2

for C,404그리고 C,304그것은 인쇄됩니다C,

산출:

A,3300   
B,844
C,
M,55

Question 2

60,000개 행의 경우 약간 느릴 수 있지만 실행 가능한 것으로 보입니다. 하다아니요여기에 따옴표를 넣으세요 $line!

스크립트 어딘가에 처리할 데이터가 더 많이 표시되는 버그가 있다는 이상한 느낌이 아직도 듭니다...

$ sort -u testfile | datamash -t, -g1 collapse 2  \
| tr ',' ' ' | while read line ; do ./my_filter $line ; done
A,3300
B,844
C,304
C,404
M,55

데이터를 전처리 datamash하고 정렬된 데이터를 얻으려면 my_filter한 줄씩 입력하면 됩니다.

$ sort -u testfile | datamash -t, -g1 collapse 2 
A,3300
B,8440,8443,8444
C,304,404
M,5502,5511

그것은 my_filter:

$ cat my_filter
#!/bin/bash
_longest_match () {
  if ((${#1}>${#2})); then
    long="$1" short="$2"
  else
    long="$2" short="$1"
  fi

  lshort=${#short}
  score=0
  for ((l=score+1;l<=lshort;++l)); do
    sub="${short:0:l}"

    [[ $long != $sub* ]] && break
    subfound="$sub" score="$l"
  done

  if ((score)); then
    printf '%s\n' "$subfound"
  fi
} # ----------  end of function _longest_match  ----------


_output () {
  for item in $(echo "$@"|tr ' ' '\n' | sort -u) ; do
    printf '%s,%s\n' "$key" "$item"
  done
} # ----------  end of function _output  ----------

declare -A matches
declare -A no_matches

key=$1
shift

for item in $( printf '%s\n' "$@"| sort -nr ); do
  if [ -z "$one" ]; then
    one=$1
    two=${2:-$1}
    shift 2
  else
    two=$1
    shift
  fi

  three=$(_longest_match $one $two)

  [ ${#three} -gt 0 ] && matches[$key]+="$three " || no_matches[$key]+="$one $two "
  [ ${#three} -gt 0 ] && one="$three" || one="$two"
done

  _output "${matches[@]} ${no_matches[@]}" | sort -u

_longest_match영감을 찾았어요https://stackoverflow.com/a/23297950

테스트 파일의 이중 항목을 사용하여 몇 가지 추가 테스트를 수행했습니다.

$ cat testfile.new 
A,3300
B,8440
B,8440
U,3
U,7
U,7
U,73
B,8440
B,8443
B,8444
B,976
C,304
C,404
M,5502
M,5511

결과 :

$ sort -u testfile | datamash -t, -g1 collapse 2  \
| tr ',' ' ' | while read line ; do ./my_filter $line ; done
A,3300
B,844
B,976
C,304
C,404
M,55
U,3
U,7

예상했던 결과와 같나요?

Answer