동일한 페이지 및 콘텐츠 이름을 가진 웹사이트를 얻는 방법은 무엇입니까?

동일한 페이지 및 콘텐츠 이름을 가진 웹사이트를 얻는 방법은 무엇입니까?

다음 페이지가 있는 웹사이트를 미러링하려고 합니다.

http://www.site.com/news

내용:

http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here

이것이 내가 사용하는 것입니다

wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
    -t 10 http://www.site.com &

wget이 실행되면 news.

동일한 이름의 파일이 이미 존재하기 때문에 콘텐츠를 다운로드할 수 없습니다. news(저는 Ubuntu를 실행하고 있습니다. 디렉터리는 파일과 동일한 이름을 가질 수 없습니다.)

wget다음은 실행이 되지 않을 때 나타나는 메시지입니다.-q

www.site.com/news/36-news: 디렉토리가 아님
www.site.com/news/36-news/news-one: 디렉토리가 아님

답변1

시도해 볼 수 있습니다 --no-clobber. 그러나 제 생각엔 당신이 좀 더 완전한 기능을 갖춘 것에 더 적합할 것 같습니다.httrack. 명령줄 옵션에 대한 매뉴얼은 다음과 같습니다.http://www.httrack.com/html/fcguide.html

다음과 같이 모든 디렉터리에 접두사를 붙일 수 있습니다.

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"

따라서 전체 명령은 귀하의 명령과 유사하며 다음과 같습니다.

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG

관련 정보