"*"로 끝나는 줄 수 계산

Question 1

이와 같이앗:

awk '$NF=="*"{$NF=""; arr[$0]++}END{for (i in arr) print i arr[i]}' ./*

$NF기본값은 공백으로 구분된 최신 문자열입니다.
주요 비결은 arr현재 단어가 있는 곳에 ay라는 관련 단어를 만드는 것입니다.열쇠그리고 증가값
아, 우리 END는 각 키/값을 반복합니다.arrprint

그리고진주하나의 선:

perl -anE '
    if ($F[-1] eq "*") {
        $k = join " ", @F[0..@F-2];
        $a->{$k}++
    }
    END{say "$_ $a->{$_}" for keys %$a}
' ./*

-a예나뉘다@F기본 배열의 패턴

Answer

이와 같이앗:

awk '$NF=="*"{$NF=""; arr[$0]++}END{for (i in arr) print i arr[i]}' ./*

$NF기본값은 공백으로 구분된 최신 문자열입니다.
주요 비결은 arr현재 단어가 있는 곳에 ay라는 관련 단어를 만드는 것입니다.열쇠그리고 증가값
아, 우리 END는 각 키/값을 반복합니다.arrprint

그리고진주하나의 선:

perl -anE '
    if ($F[-1] eq "*") {
        $k = join " ", @F[0..@F-2];
        $a->{$k}++
    }
    END{say "$_ $a->{$_}" for keys %$a}
' ./*

-a예나뉘다@F기본 배열의 패턴

Question 2

다음을 수행할 수 있습니다.

sed -n 's/[[:blank:]]*\*$//p' ./* |
  LC_ALL=C sort |
  LC_ALL=C uniq -c |
  sort -rn

<blanks>*끝 부분의 줄을 제거하고 ( p그러한 대체 항목이 있는 줄만 인쇄함) sort | uniq -c고유한 줄 수를 계산하는 데 사용됩니다(C 로케일에서는 바이트 간 비교입니다).

Answer

다음을 수행할 수 있습니다.

sed -n 's/[[:blank:]]*\*$//p' ./* |
  LC_ALL=C sort |
  LC_ALL=C uniq -c |
  sort -rn

<blanks>*끝 부분의 줄을 제거하고 ( p그러한 대체 항목이 있는 줄만 인쇄함) sort | uniq -c고유한 줄 수를 계산하는 데 사용됩니다(C 로케일에서는 바이트 간 비교입니다).

Question 3

이것이 성능에 영향을 미칠지 확실하지 않습니다. (매우 큰 파일이 있는 경우 이 명령은 느려져야 한다고 생각합니다):

grep -Fh '*' | tr -s ' ' | sort | uniq -c

휴대성이 향상되었습니다.

grep -Fh '*' * 2>/dev/null | tr -s ' ' | sort | uniq -c

하위 디렉터리에 검색하려는 파일이 더 많이 포함되어 있는 경우:

grep -Fh '*' **/* 2>/dev/null | tr -s ' ' | sort | uniq -c | sed 's/.$//'

또는 다음을 사용하지 마십시오 2>/dev/null.

find . -type f -exec grep -Fh '*' {} + | tr -s ' ' | sort | uniq -c | sed 's/.$//'

이 부분은 grep -Fh '*'끝에 가 있는 모든 줄이 일치함을 의미합니다. 패턴과 일치하는 파일 이름의 인쇄를 억제하고 리터럴 문자열을 사용할 때 사용됩니다("*"는 패턴이 아닌 문자열로 동작함). 예를 들어 각 줄 사이의 중복 공백을 제거하고 있습니다.*-h-F
tr -s ' '

Need *
Word   buzz *
Need *
More   *
More *
Word   *
More   *
More *
Word   *
Word   *
Need *
More *

이 tr명령은 이를 다음과 같이 구문 분석합니다.

Need *
Word buzz *
Need *
More *
More *
Word *
More *
More *
Word *
Word *
Need *
More *

위의 내용은 다음과 같은 출력을 얻기 위해 파이프됩니다 sort.

More *
More *
More *
More *
More *
Need *
Need *
Need *
Word *
Word *
Word *
Word buzz *

마지막으로 uniq -c원하는 각 단어의 발생 횟수를 줄 앞에 붙입니다.

정렬 명령은 중요합니다. 사용하지 않으면 예상 결과가 달라집니다.

위의 출력을 기반으로 최종 출력(사용됨 uniq -c)은 다음과 같습니다.

5 More *
3 Need *
3 Word *
1 Word buzz *

삭제하려면 파이프를 통해 마지막 문자를 제거하거나 다음을 *수행할 수 있습니다 .sed*

grep -Fh '*'  * | tr -s ' ' | sort | uniq -c | sed 's/.$//'
#or
grep -Fh '*' * | tr -s ' ' | sort | uniq -c | sed 's/\*//'

여기에서는 원하는 출력을 얻기 위해 여러 명령을 사용했기 때문에 이를 달성하는 더 좋은 방법이 있다고 생각하고 희망합니다. 앞서 말했듯이 이로 인해 성능이 저하될 수 있습니다.

Answer