텍스트에서 가장 일반적인 단어 제거

텍스트에서 가장 일반적인 단어 제거

간단한 질문이 있는데 안타깝게도 어디서부터 시작해야 할지 모르겠습니다(이제 막 시작하는 중입니다). 그래서 궁극적으로 제가 하고 싶은 것은 어휘력을 늘리는 것입니다. 뉴스 기사에서 가장 많이 사용되는 단어를 삭제하려고 생각했습니다. 가장 많이 쓰이는 5,000개의 단어 목록을 찾아서 저장해두었습니다. 가장 흔한 단어를 제거한 후 TextSTAT에서 말뭉치를 생성하고 단어 빈도 통계를 수행한 다음 이런 방식으로 배우고 싶은 단어를 선택할 수 있습니다. 그런데 저장하고 싶은 기사에서 가장 많이 사용되는 단어 목록에서 단어를 제거하려면 어떻게 해야 하나요?

답변1

"news.articles1", "news.articles2" 등의 파일이 있고 일반적인 단어가 "stop.words"라는 파일에 있다고 가정합니다.

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words 

이 파이프의 출력에는 일반적인 단어가 포함되어서는 안 됩니다. 파이프라인의 추가 단계를 통해 모든 구두점을 제거해야 할 수도 있습니다. 예를 들면 다음과 같습니다.

tr -d '[:punct:]'

"stop.words"의 좋은 영어 버전은 일반적으로 에 있습니다 /usr/share/groff/<version>/eign.

관련 정보