나는 수십 개의 큰 txt 파일(신문 기사)과 다음 줄로 이어지는 신문 단어의 수천 개의 하이픈을 가지고 있습니다. 다음 두 예와 같이 하이픈과 공백이 있고 나머지 단어가 있습니다.
유엔의 조치 가능성
이 문제가 포함되지 않도록 차단하려고 할 수도 있습니다.
이러한 문제를 해결하는 방법에 대한 조언이 있습니까?
답변1
sed 's/\([[:alpha:]]\)- \([[:alpha:]]\)/\1\2/g' < file.txt > file-processed.txt
<letter1>- <letter2>
로 교체하세요 <letter1><letter2>
.
sed 's/- //g'
이는 대체 하이픈을 사용하는 다른 용도보다 덜 급진적입니다.13 - 4 = 9