wget은 정규 표현식과 일치합니다.

Question

이 robots.txt파일의 목적은 귀하의 웹사이트에서 로봇 작업을 수행하는 것을 방지하는 것입니다. wget파일의 희망 사항은 기본적으로 존중됩니다 robots.txt.

이 파일은 웹 사이트 소유자가 /robots.txt웹 로봇에 웹 사이트에 대한 지침을 제공하는 데 사용됩니다 Robots Exclusion Protocol.

작동 방식은 다음과 같습니다. 봇이 웹사이트 URL을 방문하려고 합니다.http://www.example.com/welcome.html. 그 전에 먼저 확인해보죠http://www.example.com/robots.txt, 그리고 다음을 발견했습니다:

User-agent: *
Disallow: /

이는 User-agent: *이 섹션이 모든 로봇에 적용된다는 것을 의미합니다. Disallow: /웹사이트의 어떤 페이지도 방문해서는 안 된다고 봇에게 알립니다 .

Bing robots.txt파일에서 다음을 볼 수 있습니다.

User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...

그래서 그들은 당신이 그 경로에서 많은 것을 다운로드하는 것을 원하지 않습니다. 당신은 /shopping그것을 시도해 볼 수 있습니다.

robots.txt이 파일을 우회하고 원하는 대로 수행할 수 있는 방법을 찾으면 악의적인 행동을 하는 것이며 웹 사이트에서 귀하의 IP를 차단할 수 있습니다.

robotstxt.org

결론적으로

넌 아마 아무 잘못도 하지 않았을 거야 (저는 결코 wget 전문가가 아니므로 구문 오류도 있을 수 있습니다.), 하지만 이 작업은 허용되지 않습니다.

Answer 1