사용자가 지정한 단어를 제외한 텍스트 파일의 단어 수를 찾는 방법

사용자가 지정한 단어를 제외한 텍스트 파일의 단어 수를 찾는 방법

텍스트 파일이 많이 있습니다. 각 기사는 로 구분됩니다 15 stopwords. 이 파일에서 다음을 제외한 총 단어 수를 알고 싶습니다.stopword

답변1

GNU 사용 grep:

grep -Eo '\S+' < file | grep -vcxF stopword

-c( ) 단어 수를 계산합니다 .단어적어도 유효한 텍스트에서는 정확히 ( ) wc -w가 아닌 일련의 공백이 아닌 문자( )입니다 \S+.-v-xFstopword

답변2

단어 수에서 s 수를 input뺀 값 (사용stopwordGNU grep-o, Linux 태그를 지정했으므로):

echo $(( $(wc -w < input) - $( grep -o stopword input | wc -l ) ))

입력 예:

I have the large set of the text file. In that, each article is separated by 15 stopwords. I want to find out the total number of words count in that file excluding the stopword.
stopword stopword stopword stopword stopword stopword stopword stopword stopword stopword stopword stopword stopword stopword stopword
I have the large set of the text file. In that, each article is separated by 15 stopwords. I want to find out the total number of words count in that file excluding the stopword.

산출:

$ echo $(( $(wc -w < input) - $( grep -o stopword input | wc -l ) ))
66

답변3

awk '{ gsub("stopword",""); words+=NF }; END { print words; }' /text/file

awk관련된 모든 필드의 내용을 계산합니다 . 비록 의미상 그런 단어는 아니지만

  • 하이픈
  • 공백 뒤에 마침표 추가(문장이 잘못되었습니다. 다음 문장)
  • 제목의 숫자 (1. 소개)

관련 정보