필터링을 통해 URL에서 URL 목록을 재귀적으로 가져오는 방법

필터링을 통해 URL에서 URL 목록을 재귀적으로 가져오는 방법

다음을 포함하는 URL 목록을 얻고 싶습니다. vimeo.com파이프할 수 있도록 명령을 통해 웹사이트가 포함된 URL 목록을 재귀적으로 가져옵니다.vimeo_downloader.sh.

나는 을 사용하는 것을 선호 wget하지만 다른 옵션에도 만족합니다.

index.html

<a href="01.html">01</a>
<a href="02.html">02</a>
<a href="03.html">03</a>
<a href="04.html">04</a>
<a href="05.html">05</a>
<a href="06.html">06</a>

01.html

...
... src="//player.vimeo.com/video/xxxxxxxxxx?api=1" ...
...

vimeo URL 도 02.html있습니다 . 06.html모든 vimeo URL을 얻는 방법은 무엇입니까 01~06.html?

답변1

다운로드를 제공하려면 URL 목록을 가져온 다음 링크를 구문 분석해야 합니다. 다운로드를 위해 외부 프로그램을 사용하고 있으므로 재귀 다운로드 옵션은 wget실제로 필요 하지 않습니다 wget.

GNU가 grep일치하는 텍스트만 인쇄할 수 있다고 가정하면 다음을 사용하여 vimeo URL을 얻을 수 있습니다.

wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+"

그런 다음 다운로더에 입력하세요.

urls=$(wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+")
for url in $urls; do
  echo "Downloading [$url]"
  vimeo_downloader.sh "$url"
done

관련 정보