매개변수로 전달된 모든 "n"개 파일에서 해당 파일에 속하는 각 단어의 발생 횟수를 어떻게 계산합니까?

Question 1

나는 그것을 할 것이다:

#! /bin/sh -
# usage: wordcount <file-with-words-to-search-for> [<file>...]
words=$(tr -s '[[:space:]]' '[\n*]' < "${1?No word list provided}" | grep .)
[ -n "$words" ] || exit

shift
for file do
  printf 'File: %s\n' "$file"
  tr -s '[[:space:]]' '[\n*]' | grep -Fxe "$words" | sort | uniq -c | sort -rn
done

(이것은 각 파일에서 적어도 한 번 이상 발견된 단어 수만 제공합니다).

Answer

나는 그것을 할 것이다:

#! /bin/sh -
# usage: wordcount <file-with-words-to-search-for> [<file>...]
words=$(tr -s '[[:space:]]' '[\n*]' < "${1?No word list provided}" | grep .)
[ -n "$words" ] || exit

shift
for file do
  printf 'File: %s\n' "$file"
  tr -s '[[:space:]]' '[\n*]' | grep -Fxe "$words" | sort | uniq -c | sort -rn
done

(이것은 각 파일에서 적어도 한 번 이상 발견된 단어 수만 제공합니다).

Question 2

다음과 같이 명령줄에 제공된 파일 목록을 반복할 수 있습니다.

for file in "$@"
do
    echo "Considering file ==> $file <=="
done

귀하의 단어 일치 방법은 매우 효율적이어야 합니다. 다음을 사용하여 단어의 발생을 검색할 수도 있습니다.grep -o

echo 'I can cry cryogenic tears when I scry my hands. Can you cry too?' |
    grep -o '\bcry\b'    # \b marks a word boundary

파이프라인을 통해 결과를 입력하여 wc -l입력 스트림에서 발생 횟수를 가져옵니다.

사용을 사용하면 $( ... )한 명령의 출력을 다른 명령에서 사용하는 텍스트에 삽입할 수 있습니다. 예를 들어

echo "The date and time right now is $(date)"

첫 번째 파일을 검색하지 않고 대신 단어 목록으로 사용하려면 추가 작업이 필요합니다. 하지만 그것들을 합치면 다음과 같은 결과를 얻을 수 있습니다:

wordfile="$1"
wordlist=($(cat "$wordfile"))
shift

for file in "$@"
do
    for word in "${wordlist[@]}"
    do
        # echo "$file: $word:" $(grep -o "\b${word}\b" "$file" | wc -l)  # My way
        echo "$file: $word:" $(tr ' ' '\n' <"$file" | grep -c "$word")   # Your way
    done
done

N 단어에 대해 각 파일을 N 번 검색하기 때문에 매우 효율적이지 않습니다. 이것이 grep -f도움이 될 수 있습니다.

Answer

다음과 같이 명령줄에 제공된 파일 목록을 반복할 수 있습니다.

for file in "$@"
do
    echo "Considering file ==> $file <=="
done

귀하의 단어 일치 방법은 매우 효율적이어야 합니다. 다음을 사용하여 단어의 발생을 검색할 수도 있습니다.grep -o

echo 'I can cry cryogenic tears when I scry my hands. Can you cry too?' |
    grep -o '\bcry\b'    # \b marks a word boundary

파이프라인을 통해 결과를 입력하여 wc -l입력 스트림에서 발생 횟수를 가져옵니다.

사용을 사용하면 $( ... )한 명령의 출력을 다른 명령에서 사용하는 텍스트에 삽입할 수 있습니다. 예를 들어

echo "The date and time right now is $(date)"

첫 번째 파일을 검색하지 않고 대신 단어 목록으로 사용하려면 추가 작업이 필요합니다. 하지만 그것들을 합치면 다음과 같은 결과를 얻을 수 있습니다:

wordfile="$1"
wordlist=($(cat "$wordfile"))
shift

for file in "$@"
do
    for word in "${wordlist[@]}"
    do
        # echo "$file: $word:" $(grep -o "\b${word}\b" "$file" | wc -l)  # My way
        echo "$file: $word:" $(tr ' ' '\n' <"$file" | grep -c "$word")   # Your way
    done
done

N 단어에 대해 각 파일을 N 번 검색하기 때문에 매우 효율적이지 않습니다. 이것이 grep -f도움이 될 수 있습니다.

Question 3

fgrep -cw 'word' file1 file2 ... fileN

그러면 다음이 출력됩니다.

file1:4
file2:16

한 줄에 하나씩. 모든 파일의 총 개수인 경우 다음을 수행합니다.

echo "Total: $(( $(fgrep -cw 'word' file1 file2 ... fileN | awk -F: '{ print $NF" + " }') 0 ))"

그러면 다음이 출력됩니다.

Total: 20

Answer

fgrep -cw 'word' file1 file2 ... fileN

그러면 다음이 출력됩니다.

file1:4
file2:16

한 줄에 하나씩. 모든 파일의 총 개수인 경우 다음을 수행합니다.

echo "Total: $(( $(fgrep -cw 'word' file1 file2 ... fileN | awk -F: '{ print $NF" + " }') 0 ))"

그러면 다음이 출력됩니다.

Total: 20

매개변수로 전달된 모든 "n"개 파일에서 해당 파일에 속하는 각 단어의 발생 횟수를 어떻게 계산합니까?

답변1

답변2

답변3

관련 정보