일반 awk - 배열 인덱스를 쉽게 정렬하여 선택한 순서대로 출력합니다.

Question 1

GNU를 사용하면 "코프로세싱" 기능( )을 사용하여 양방향으로 상호 작용할 수 있고 awk, 정렬할 데이터를 보내고 gawk를 사용하여 결과를 얻을 수 있지만 이는 gawk에만 해당됩니다.sortinfo gawk coprocprint |& "sort""sort" |& getline

배열을 통한 루프만남의 순서, 녹음할 수 있습니다만남의 순서배열을 채울 때:

awk '
  !seen[$1]++ {sequence[n++] = $1}
  END {
    for (i = 0; i < n; i++)
      print sequence[i], seen[sequence[i]]
  }'

NET에서 정렬 알고리즘을 구현할 수도 있습니다 awk. 빌릴 수도 있고 gawk, quicksort.awk빌릴 수도 있어요매뉴얼에서 찾아보세요(여기에서는 비교 루틴에 대한 리터럴 호출로 대체할 수 있는 또 다른 GNU 특정 기능인 간접 함수 호출을 보여줍니다.) 그것은 다음과 같습니다:

awk '
  function less_than(left, right) {
    return "" left <= "" right
  }
  function quicksort(data, left, right,   i, last)
  {
    if (left >= right)
      return

    quicksort_swap(data, left, int((left + right) / 2))
    last = left
    for (i = left + 1; i <= right; i++)
      if (less_than(data[i], data[left]))
        quicksort_swap(data, ++last, i)
    quicksort_swap(data, left, last)
    quicksort(data, left, last - 1)
    quicksort(data, last + 1, right)
  }
  function quicksort_swap(data, i, j,   temp)
  {
    temp = data[i]
    data[i] = data[j]
    data[j] = temp
  }

  {seen[$1]++}
  END {
    for (i in seen) keys[n++]=i
    quicksort(keys, 0, n-1)
    for (i = 0; i < n; i++)
      print keys[i], seen[keys[i]]
  }'

perl개인적으로 저는 여기서 대신 사용합니다 awk.

Answer

GNU를 사용하면 "코프로세싱" 기능( )을 사용하여 양방향으로 상호 작용할 수 있고 awk, 정렬할 데이터를 보내고 gawk를 사용하여 결과를 얻을 수 있지만 이는 gawk에만 해당됩니다.sortinfo gawk coprocprint |& "sort""sort" |& getline

배열을 통한 루프만남의 순서, 녹음할 수 있습니다만남의 순서배열을 채울 때:

awk '
  !seen[$1]++ {sequence[n++] = $1}
  END {
    for (i = 0; i < n; i++)
      print sequence[i], seen[sequence[i]]
  }'

NET에서 정렬 알고리즘을 구현할 수도 있습니다 awk. 빌릴 수도 있고 gawk, quicksort.awk빌릴 수도 있어요매뉴얼에서 찾아보세요(여기에서는 비교 루틴에 대한 리터럴 호출로 대체할 수 있는 또 다른 GNU 특정 기능인 간접 함수 호출을 보여줍니다.) 그것은 다음과 같습니다:

awk '
  function less_than(left, right) {
    return "" left <= "" right
  }
  function quicksort(data, left, right,   i, last)
  {
    if (left >= right)
      return

    quicksort_swap(data, left, int((left + right) / 2))
    last = left
    for (i = left + 1; i <= right; i++)
      if (less_than(data[i], data[left]))
        quicksort_swap(data, ++last, i)
    quicksort_swap(data, left, last)
    quicksort(data, left, last - 1)
    quicksort(data, last + 1, right)
  }
  function quicksort_swap(data, i, j,   temp)
  {
    temp = data[i]
    data[i] = data[j]
    data[j] = temp
  }

  {seen[$1]++}
  END {
    for (i in seen) keys[n++]=i
    quicksort(keys, 0, n-1)
    for (i = 0; i < n; i++)
      print keys[i], seen[keys[i]]
  }'

perl개인적으로 저는 여기서 대신 사용합니다 awk.

Question 2

$ cat tst.awk
{ cnt[$0]++ }
END {
    n = sort(cnt,idxs)
    for (i=1; i<=n; i++) {
        idx = idxs[i]
        printf "%s:%d%s", idx, cnt[idx], (i<n ? OFS : ORS)
    }

}

function sort(arr, idxs, args,      i, str, cmd) {
    for (i in arr) {
        gsub(/\047/, "\047\\\047\047", i)
        str = str i ORS
    }

    cmd = "printf \047%s\047 \047" str "\047 |sort " args

    i = 0
    while ( (cmd | getline idx) > 0 ) {
        idxs[++i] = idx
    }

    close(cmd)

    return i
}

# create the 2 basic files to be parsed by the awk:
printf 'a b a a a c c d e s s s s e f s a e r r f\ng f r e d e z z c s d r\n' >fileA
printf 's f g r e d f g e z s d v f e z a d d g r f e a\ns d f e r\n'>fileB

for f in fileA fileB ; do
    printf 'for file: %s: ' "$f"
    tr ' ' '\n' < "$f" |
    awk -f tst.awk
done
for file: fileA: a:5 b:1 c:3 d:3 e:5 f:3 g:1 r:4 s:6 z:2
for file: fileB: a:2 d:5 e:5 f:5 g:3 r:3 s:3 v:1 z:2

위의 내용은 단순히 배열 인덱스에서 개행으로 구분된 문자열을 작성하고(적절하게 인용하기 위해 sh) 해당 문자열을 로 파이프하는 쉘 스크립트를 생성한 sort다음 출력을 반복합니다. s의 동작을 수정하려면 sort함수 호출에 Unix sort인수 문자열을 추가하면 됩니다 sort(예: ) sort(seen,"-fu"). sort()반환 시 반복되는 인덱스 배열을 채우는 대신(원하는 경우) 인쇄하거나 함수 내에서 원하는 다른 작업을 수행하도록 수정될 수 있지만 함수는 응집력이 있습니다.

그러나 시스템의 최대 명령줄 길이로 제한됩니다.

\047코드의 s는 쉘이 -구분된 문자열이나 스크립트 '에 포함될 수 없음 을 의미합니다. 따라서 위에서 했던 것처럼 파일에서 읽는 awk 스크립트에서 직접 사용할 수 있지만, 다른 곳에서 사용하려는 경우 명령줄 대체할 항목이 필요 하고 스크립트가 명령줄과 파일 모두에서 해석될 때 작동하기 때문에 -replacement에 대한 가장 이식성이 뛰어난 옵션 입니다.''awk 'script' file'\047'

s '( \047s) str는 문자열이 파이프를 통해 정렬될 때 쉘이 변수를 확장하지 않고 따옴표가 일치하지 않는지 확인하기 위해 존재합니다. 즉, 다음을 수행합니다.

$ echo 'foo'\''bar $(ls) $HOME' | awk '{
    str=$0; gsub(/\047/, "\047\\\047\047", str); print "str="str
    cmd="printf \047%s\047 \047" str "\047"; print "cmd="cmd
}'
str=foo'\''bar $(ls) $HOME
cmd=printf '%s' 'foo'\''bar $(ls) $HOME'

따라서 우리는 깨지기 쉽고 버그가 있는 이와 같은 것을 얻지 못하고 대신 다음과 같은 결과를 얻습니다.

$ echo 'foo'\''bar $(ls) $HOME' | awk '{
    str=$0; print "str="str
    cmd="printf \"%s\" \"" str "\""; print "cmd="cmd
}'
str=foo'bar $(ls) $HOME
cmd=printf "%s" "foo'bar $(ls) $HOME"

Answer

$ cat tst.awk
{ cnt[$0]++ }
END {
    n = sort(cnt,idxs)
    for (i=1; i<=n; i++) {
        idx = idxs[i]
        printf "%s:%d%s", idx, cnt[idx], (i<n ? OFS : ORS)
    }

}

function sort(arr, idxs, args,      i, str, cmd) {
    for (i in arr) {
        gsub(/\047/, "\047\\\047\047", i)
        str = str i ORS
    }

    cmd = "printf \047%s\047 \047" str "\047 |sort " args

    i = 0
    while ( (cmd | getline idx) > 0 ) {
        idxs[++i] = idx
    }

    close(cmd)

    return i
}

# create the 2 basic files to be parsed by the awk:
printf 'a b a a a c c d e s s s s e f s a e r r f\ng f r e d e z z c s d r\n' >fileA
printf 's f g r e d f g e z s d v f e z a d d g r f e a\ns d f e r\n'>fileB

for f in fileA fileB ; do
    printf 'for file: %s: ' "$f"
    tr ' ' '\n' < "$f" |
    awk -f tst.awk
done
for file: fileA: a:5 b:1 c:3 d:3 e:5 f:3 g:1 r:4 s:6 z:2
for file: fileB: a:2 d:5 e:5 f:5 g:3 r:3 s:3 v:1 z:2