터미널의 텍스트 파일에서 첫 번째 단어로만 나타나는 지정된 단어를 제거합니다.

2024-6-4 • tag-icon

터미널의 텍스트 파일에서 첫 번째 단어로만 나타나는 지정된 단어를 제거합니다.

JSON 형식의 고음 텍스트 데이터를 처리하고 이를 텍스트 파일에 저장하고 있습니다. 리트윗에는 관심이 없어서 대부분의 텍스트를 추출하는 파서를 만들었으나 왠지 일부 리트윗도 나타납니다. 그래서 이 문제에 대한 빠른 해결책을 알고 싶습니다. RT로 시작하는 텍스트를 제거하는 것입니다.

따라서 파일의 텍스트는 다음과 같습니다.

`"RT ...... RT ....."`

"..."은 문장의 다른 단어입니다. "RT"라는 단어로 시작하는 줄을 삭제하고 다른 파일에 저장하고 싶습니다. RT로 시작하지 않는 텍스트 중간에 동일한 단어인 RT가 나타날 수 있으므로 이러한 텍스트는 삭제하면 안 됩니다. 다음 명령을 사용해 보았지만 확실하지 않습니다.

grep -v "RT" twitterDataset.txt > clean_RT.txt

이 문제에 대한 해결책을 알려주시면 정말 감사하겠습니다. 코드에 대한 설명도 도움이 될 것입니다.

답변1

문제의 파일이 일반 텍스트인 경우 다음을 수행할 수 있습니다.

grep -v "^RT" twitterDataset.txt > clean_RT.txt

이는 문자열 "RT"로 시작하는 줄과 일치하지 않습니다.

답변1

관련 정보