파일에서 각 문장 부호의 수를 얻는 방법

Question 1

그러면 파일에 있는 모든 구두점 문자 목록이 한 줄에 하나씩, 파일에 있는 해당 문자 수에 따라 각 구두점 문자 목록이 인쇄됩니다.

grep -o '[[:punct:]]' file | sort | uniq -c

나는 /var/log/syslog를 실행하여 테스트하는 것을 좋아합니다. 현재 내 라인은 150,000개가 넘습니다.

Answer

그러면 파일에 있는 모든 구두점 문자 목록이 한 줄에 하나씩, 파일에 있는 해당 문자 수에 따라 각 구두점 문자 목록이 인쇄됩니다.

grep -o '[[:punct:]]' file | sort | uniq -c

나는 /var/log/syslog를 실행하여 테스트하는 것을 좋아합니다. 현재 내 라인은 150,000개가 넘습니다.

Question 2

파일에서 이러한 구두점의 총 수를 찾으려면 tr다른 모든 구두점을 제거한 다음 wc개수를 셀 수 있습니다.

tr -dc '.?!' | wc -c

Answer

파일에서 이러한 구두점의 총 수를 찾으려면 tr다른 모든 구두점을 제거한 다음 wc개수를 셀 수 있습니다.

tr -dc '.?!' | wc -c

Question 3

이는 또는 가 .포함 된 행을 찾는 awk 스크립트입니다 . 문장 부호가 포함된 각 줄의 줄 번호, 발견된 각 토큰 수, 줄에 있는 총 토큰 수를 인쇄합니다. 데이터가 끝나면 합계가 인쇄됩니다.?!

cat명령줄에서 여러 파일 이름을 전달할 수 있으며 모든 파일을 함께 모은 것처럼 작동 하지만 각 파일을 개별적으로 처리하도록 이 스크립트를 수정하는 것은 매우 쉽습니다.

#!/usr/bin/awk -f

# Count punctuation marks
# See http://unix.stackexchange.com/q/239894/88378
# Written by PM 2Ring 2015.10.131

BEGIN{
    FS = ""
    punc = ".?!"
    fmt = "%5s: .=%s, ?=%s, !=%s, all=%s\n"
}

/[.?!]+/{
    #print NR, $0, NF
    count[1] = count[2] = count[3] = 0
    for(i=1; i<=NF; i++)
    {
        n = index(punc, $i)
        if(n)
            count[n] += 1
    }
    all = count[1] + count[2] + count[3]
    printf fmt, NR, count[1], count[2], count[3], all
    for(i=1; i<=3; i++)
        total[i] += count[i]
}

END{
    all = total[1] + total[2] + total[3]
    printf fmt, "Total", total[1], total[2], total[3], all
}

다음은 이 스크립트를 테스트하는 데 사용한 임의의 데이터입니다.

Some test data
.a.?? .u o..ru. !!?aarl.?...t  s
e.?a.eli?.?s.. ?.r. s.t .e.a.le!
ti h  ..rs.  ?er.t. dn!t?.?.l.?t
?.n!rer e. d..!???? a .!..a.tit.
No punctuation
!.a.n..!isda!.o a!le.d..a.!sh.t?
?!?. ..!i  hi...h iii.?..a i hh?
.h r.u?....t..s !.. a  .li?hs !.
ia tso???.tr?t .hl..i.aids l.?.?
Bye-bye.

생성된 출력은 다음과 같습니다.

    2: .=10, ?=4, !=2, all=16
    3: .=11, ?=4, !=1, all=16
    4: .=8, ?=4, !=1, all=13
    5: .=9, ?=5, !=3, all=17
    7: .=10, ?=1, !=5, all=16
    8: .=9, ?=4, !=2, all=15
    9: .=12, ?=2, !=2, all=16
   10: .=7, ?=6, !=0, all=13
   11: .=1, ?=0, !=0, all=1
Total: .=77, ?=30, !=16, all=123

GNU Awk 3.1.7에서 테스트되었습니다.

Answer