Yahoo 파이프라인의 RSS 콘텐츠에서 특정 링크를 정규식으로 변환하는 방법은 무엇입니까?

Yahoo 파이프라인의 RSS 콘텐츠에서 특정 링크를 정규식으로 변환하는 방법은 무엇입니까?

지정된 href 링크를 제외하고 RSS 콘텐츠에서 모든 콘텐츠를 제거하고 싶습니다.

예:

<div class='text'>
<div class="center"> <b><a rel="nofollow" target="_blank" href="http://domain1.com/html/12345948/howto.pdf"></a></b> </div>
</div>
<br>
<div class='text'>
<div class="center"> <b><a rel="nofollow" target="_blank" href="http://www.domain2.com/php/8mgfjghf/file.html">file</a></b>

<b><a rel="nofollow" target="_blank" href="http://www.domain1.com/78/78.html">78</a></b>

<b><a rel="nofollow" target="_blank" href="https://www.domain3.com/5k9f"></a></b> </div>
</div>

최종 출력은 다음과 같습니다.

http://domain1.com/html/12345948/howto.pdf
http://www.domain2.com/php/8mgfjghf/file.html
http://www.domain1.com/78/78.html
https://www.domain3.com/5k9f

또한 도메인 이름은 고정되어 있습니다. 즉, domain4.net이 존재하면 출력에 표시되는 것을 원하지 않습니다.

답변1

정규식만 사용해야 하나요? 이는 제공된 예제에서 작동합니다.

cat file | grep href | sed 's/.*href=\"//g' | cut -d\" -f1

관련 정보