sed를 사용하여 파일에서 html 태그를 제거하는 방법은 무엇입니까?

sed를 사용하여 파일에서 html 태그를 제거하는 방법은 무엇입니까?

필요한 일반 텍스트와 html 태그가 혼합된 파일이 있습니다. REGEX를 사용하면 html 태그를 식별하고 sed를 사용하여 이를 빈 문자열로 바꿀 수 있다는 것을 알고 있지만 이를 구체적으로 적용하는 방법은 모르겠습니다.

답변1

고집하지 않는다면 sed가장 좋은 방법은 이렇게 하는 것입니다 lynx.

lynx --dump <filename>.html

그러면 html 코드가 표시하려는 형식으로 html 파일의 내용이 출력됩니다. 유일한 조건은 파일 이름에 .html또는 .htm확장자가 있어야 한다는 것입니다.

답변2

HTML 마크업이 한 줄로 제한되어 있으면 다음이 작동합니다.

sed 's/<[^>]*>//g'

답변3

(html2text1) (2) 반대로. HTML을 구문 분석하는 것은 생각보다 어렵습니다.

관련 정보