![쉘 스크립트를 사용하여 대규모 코퍼스의 데이터를 필터링하는 방법은 무엇입니까? [폐쇄]](https://linux55.com/image/15398/%EC%89%98%20%EC%8A%A4%ED%81%AC%EB%A6%BD%ED%8A%B8%EB%A5%BC%20%EC%82%AC%EC%9A%A9%ED%95%98%EC%97%AC%20%EB%8C%80%EA%B7%9C%EB%AA%A8%20%EC%BD%94%ED%8D%BC%EC%8A%A4%EC%9D%98%20%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A5%BC%20%ED%95%84%ED%84%B0%EB%A7%81%ED%95%98%EB%8A%94%20%EB%B0%A9%EB%B2%95%EC%9D%80%20%EB%AC%B4%EC%97%87%EC%9E%85%EB%8B%88%EA%B9%8C%3F%20%5B%ED%8F%90%EC%87%84%5D.png)
대규모 트위터 코퍼스에서 트윗을 추출하고 트윗이 게시된 특정 위치에서 필터링하려고 합니다. 그런 다음 트윗에서 특정 단어를 검색하고 싶습니다. tsv 파일의 모든 트윗을 나열하는 명령이 있습니다.
$ zless location/of/tweets.out.gz | /net/corpora/twitter2/tools/tweet2tab -i user.location text
그러면 탭으로 구분된 다음 출력이 제공됩니다.
user.location tweet
이제 의 트윗을 나열하고 싶습니다 location: Amsterdam
. 그런 다음 word: hallo
암스테르담의 모든 트윗 중에서 검색하세요. 쉘 스크립트를 사용하여 이 문제를 해결하는 가장 좋은 방법은 무엇입니까?