사이트를 미러링하려고 할 때 wget이 파일을 건너뛰는 이유는 무엇입니까?

사이트를 미러링하려고 할 때 wget이 파일을 건너뛰는 이유는 무엇입니까?

나는 이 웹사이트에서 wget을 실행했습니다:http://demo.codestag.com/geeklove/하지만 index.html만 반환합니다.

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains --no-parent http://demo.codestag.com/geeklove

나는 다음과 같이 사용자 에이전트를 스푸핑하려고 합니다.http://www.askapache.com/linux/wget-header-trick.html#Testing_Wget_Trick하지만 여전히 작동하지 않습니다.

--debug 옵션을 사용하면 다른 모든 페이지를 건너뛰는 것으로 표시됩니다.

답변1

옵션은 --domains따를 도메인 목록을 지정합니다. 이 옵션 뒤에는 아무것도 지정하지 않으므로 wget은 직접 지정된 파일만 다운로드합니다.

--domains demo.codestag.com이 옵션을 제거 하거나 다음으로 교체하면로봇.txt이 서버에서. 이 파일을 무시하려면 를 지정해야 합니다 -e robots=off.

-d더 많은 문제가 있는 경우 ()를 지정하여 --debugwget에 어떤 문제가 있는지 확인하는 것이 항상 도움이 됩니다.

관련 정보