나는 다음을 시도했습니다 :
wget -nd -r -l1 -A gz http://www.example.com/products
이렇게 하면 다음과 같은 파일만 저장됩니다 .txt
.
User-agent: * Disallow: /
반면에
wget -r http://www.example.com/products/*.gz
그것은 단순히 작동하지 않습니다.
어떤 다른 명령을 시도해야 합니까?
답변1
첫 번째 명령은 괜찮아 보이지만 다른 사람들이 이미 말한 것과 같습니다. 웹 사이트 소유자는 검색 엔진(또는 유사한 웹 스파이더, wget)이 자신의 웹 사이트에서 멀리 떨어져 있기를 원하는 robots.txt를 배치했습니다(불필요한 트래픽을 방지하거나 다른 이유). wget은 기본적으로 이를 존중합니다. info wget
.wgetrc의 조정 가능한 로봇 관련 기능( -e …
명령줄 옵션을 통해 설정할 수도 있음)을 찾으려면 wget 설명서(9장: 부록)의 섹션 9.1을 참조하세요.