다음 wget 명령을 사용하는 데 문제가 있습니다.
wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/
원래 네트워크에 연결된 모든 문서를 재귀적으로 다운로드해야 하지만 두 개의 파일( index.html
및 robots.txt
)만 다운로드합니다.
재귀 다운로드를 구현하는 방법이것회로망?
답변1
wget
기본적으로 존중robots.txt 표준검색 엔진처럼 페이지를 크롤링합니다. archive.org의 경우 전체 /web/ 하위 디렉터리를 비활성화합니다. 재정의하려면 -e robots=off
,
wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/
답변2
$ wget --random-wait -r -p -e robots=off -U Mozilla \
http://web.archive.org/web/20110726051510/http://feedparser.org/docs/
URL의 내용을 재귀적으로 다운로드합니다.
--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".
다른 유용한 옵션은 다음과 같습니다.
--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.