Calibre를 사용하여 일부 PDF 파일을 텍스트로 변환했습니다. 텍스트 예는 다음과 같습니다.
The booming population, coupled with a development strategy pre-
mised on high levels of investment, meant that an increasingly large pop-
ulation would be condemned indefinitely to living standards barely above
subsistence level.
"premised"와 "population"이라는 단어를 결합하고 싶습니다. 패턴은 "-\n\n"이어야 합니다. 하지만 하이픈 뒤에 줄바꿈이 두 개 있는 경우에는 or 로 단어를 바꿀 수 없습니다 perl -p -e 's/-\n\n//
. tr -d '\-\n\n'
어떤 아이디어가 있나요?
답변1
cuonglm이 제공하는댓글로 답변해주세요이것은 작동하는 것 같습니다:
perl -0pe 's/-\n\n//g'