필요한 일반 텍스트와 html 태그가 혼합된 파일이 있습니다. REGEX를 사용하면 html 태그를 식별하고 sed를 사용하여 이를 빈 문자열로 바꿀 수 있다는 것을 알고 있지만 이를 구체적으로 적용하는 방법은 모르겠습니다.
답변1
고집하지 않는다면 sed
가장 좋은 방법은 이렇게 하는 것입니다 lynx
.
lynx --dump <filename>.html
그러면 html 코드가 표시하려는 형식으로 html 파일의 내용이 출력됩니다. 유일한 조건은 파일 이름에 .html
또는 .htm
확장자가 있어야 한다는 것입니다.
답변2
HTML 마크업이 한 줄로 제한되어 있으면 다음이 작동합니다.
sed 's/<[^>]*>//g'