다음 페이지가 있는 웹사이트를 미러링하려고 합니다.
http://www.site.com/news
내용:
http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here
이것이 내가 사용하는 것입니다
wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
-t 10 http://www.site.com &
wget이 실행되면 news
.
동일한 이름의 파일이 이미 존재하기 때문에 콘텐츠를 다운로드할 수 없습니다. news
(저는 Ubuntu를 실행하고 있습니다. 디렉터리는 파일과 동일한 이름을 가질 수 없습니다.)
wget
다음은 실행이 되지 않을 때 나타나는 메시지입니다.-q
www.site.com/news/36-news: 디렉토리가 아님
www.site.com/news/36-news/news-one: 디렉토리가 아님
답변1
시도해 볼 수 있습니다 --no-clobber
. 그러나 제 생각엔 당신이 좀 더 완전한 기능을 갖춘 것에 더 적합할 것 같습니다.httrack. 명령줄 옵션에 대한 매뉴얼은 다음과 같습니다.http://www.httrack.com/html/fcguide.html
다음과 같이 모든 디렉터리에 접두사를 붙일 수 있습니다.
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"
따라서 전체 명령은 귀하의 명령과 유사하며 다음과 같습니다.
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG