sed/grep/awk를 사용하여 HTML 태그 제거

sed/grep/awk를 사용하여 HTML 태그 제거

다음과 같은 경우 모든 태그를 어떻게 제거할 수 있나요?

Study eases concerns about taking antidepressants during pregnancy and autism risk <a href="https://t.co/Cs0mdeYEBo" rel="nofollow noopener" dir="ltr" data-expanded-url="http://cbsn.ws/2oTosqU" class="twitter-timeline-link" target="_blank" title="http://cbsn.ws/2oTosqU" ><span class="tco-ellipsis"></span><span class="invisible">http://</span><span class="js-display-url">cbsn.ws/2oTosqU</span><span class="invisible"></span><span class="tco-ellipsis"><span class="invisible">&nbsp;</span></span></a><a href="https://t.co/rs5813GdLG" class="twitter-timeline-link u-hidden" data-pre-embedded="true" dir="ltr" >pic.twitter.com/rs5813GdLG</a>

이 명령을 사용한 후의 결과는 다음과 같아야 합니다.

Study eases concerns about taking antidepressants during pregnancy and autism risk

다음을 사용한 후:

sed -e 's/<[^>]*>//g'

또는

sed 's/<[^>]\+>//g'

나는 얻다:

Study eases concerns about taking antidepressants during pregnancy and autism risk http://cbsn.ws/2oTosqU&nbsp;pic.twitter.com/rs5813GdLG

이것은 내가 원하는 것이 아닙니다. 이 작업을 수행하려면 sed, awk, grep을 사용해야 합니다.

답변1

명령은 제대로 작동하지만 파일 형식이 잘못되었습니다. grep --color=yes <[^>]*>' file각 항목 뒤에 개행 문자를 추가하면 이를 사용하거나 볼 수 있습니다 >.

$ sed -e 's/>/>\n/g' file 
Study eases concerns about taking antidepressants during pregnancy and autism risk <a href="https://t.co/Cs0mdeYEBo" rel="nofollow noopener" dir="ltr" data-expanded-url="http://cbsn.ws/2oTosqU" class="twitter-timeline-link" target="_blank" title="http://cbsn.ws/2oTosqU" >
<span class="tco-ellipsis">
</span>
<span class="invisible">
http://</span>
<span class="js-display-url">
cbsn.ws/2oTosqU</span>
<span class="invisible">
</span>
<span class="tco-ellipsis">
<span class="invisible">
&nbsp;</span>
</span>
</a>
<a href="https://t.co/rs5813GdLG" class="twitter-timeline-link u-hidden" data-pre-embedded="true" dir="ltr" >
pic.twitter.com/rs5813GdLG</a>

http://</span>, cbsn.ws/2oTosqU, &nbsp;및 는 html 태그 안에 없으므로 pic.twitter.com/rs5813GdLG그대로 유지되며 이는 매우 정확합니다.

따라서 원하는 것은 html 태그를 삭제하는 것이 아닙니다.그리고 다른 것들도하지만 나는 당신이 원하는 것과 원하지 않는 것이 무엇인지 아는 방법을 모릅니다.

관련 정보