![터미널의 텍스트 파일에서 첫 번째 단어로만 나타나는 지정된 단어를 제거합니다.](https://linux55.com/image/166881/%ED%84%B0%EB%AF%B8%EB%84%90%EC%9D%98%20%ED%85%8D%EC%8A%A4%ED%8A%B8%20%ED%8C%8C%EC%9D%BC%EC%97%90%EC%84%9C%20%EC%B2%AB%20%EB%B2%88%EC%A7%B8%20%EB%8B%A8%EC%96%B4%EB%A1%9C%EB%A7%8C%20%EB%82%98%ED%83%80%EB%82%98%EB%8A%94%20%EC%A7%80%EC%A0%95%EB%90%9C%20%EB%8B%A8%EC%96%B4%EB%A5%BC%20%EC%A0%9C%EA%B1%B0%ED%95%A9%EB%8B%88%EB%8B%A4..png)
JSON 형식의 고음 텍스트 데이터를 처리하고 이를 텍스트 파일에 저장하고 있습니다. 리트윗에는 관심이 없어서 대부분의 텍스트를 추출하는 파서를 만들었으나 왠지 일부 리트윗도 나타납니다. 그래서 이 문제에 대한 빠른 해결책을 알고 싶습니다. RT로 시작하는 텍스트를 제거하는 것입니다.
따라서 파일의 텍스트는 다음과 같습니다.
`"RT ...... RT ....."`
"..."은 문장의 다른 단어입니다. "RT"라는 단어로 시작하는 줄을 삭제하고 다른 파일에 저장하고 싶습니다. RT로 시작하지 않는 텍스트 중간에 동일한 단어인 RT가 나타날 수 있으므로 이러한 텍스트는 삭제하면 안 됩니다. 다음 명령을 사용해 보았지만 확실하지 않습니다.
grep -v "RT" twitterDataset.txt > clean_RT.txt
이 문제에 대한 해결책을 알려주시면 정말 감사하겠습니다. 코드에 대한 설명도 도움이 될 것입니다.
답변1
문제의 파일이 일반 텍스트인 경우 다음을 수행할 수 있습니다.
grep -v "^RT" twitterDataset.txt > clean_RT.txt
이는 문자열 "RT"로 시작하는 줄과 일치하지 않습니다.