텍스트에서 가장 일반적인 단어 제거

Question

"news.articles1", "news.articles2" 등의 파일이 있고 일반적인 단어가 "stop.words"라는 파일에 있다고 가정합니다.

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

이 파이프의 출력에는 일반적인 단어가 포함되어서는 안 됩니다. 파이프라인의 추가 단계를 통해 모든 구두점을 제거해야 할 수도 있습니다. 예를 들면 다음과 같습니다.

tr -d '[:punct:]'

"stop.words"의 좋은 영어 버전은 일반적으로 에 있습니다 /usr/share/groff/<version>/eign.

Answer 1

"news.articles1", "news.articles2" 등의 파일이 있고 일반적인 단어가 "stop.words"라는 파일에 있다고 가정합니다.

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

이 파이프의 출력에는 일반적인 단어가 포함되어서는 안 됩니다. 파이프라인의 추가 단계를 통해 모든 구두점을 제거해야 할 수도 있습니다. 예를 들면 다음과 같습니다.

tr -d '[:punct:]'

"stop.words"의 좋은 영어 버전은 일반적으로 에 있습니다 /usr/share/groff/<version>/eign.

관련 정보