먼저 wget을 사용해 보세요.
https://tse4.mm.bing.net/th?
정규식을 일치시키고 주어진 URL에서 시작하는 모든 이미지를 다운로드하기 위해 이것을 사용하려고 합니다 .
그러나 이것은 작동하지 않는 것 같습니다.
문제의 URL은 다음과 같습니다.
https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images
(bing에서 제한된 수의 이미지만 다운로드하면 됩니다)
여기서는 이 명령을 사용하려고 합니다.
wget -nd -r -P save -A '^https://tse4.mm.bing.net/th?' https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images
그러나 robots.txt 파일을 다운로드합니다.
내가 여기서 뭘 잘못하고 있는 걸까? 감사해요
답변1
이 robots.txt
파일의 목적은 귀하의 웹사이트에서 로봇 작업을 수행하는 것을 방지하는 것입니다. wget
파일의 희망 사항은 기본적으로 존중됩니다 robots.txt
.
이 파일은 웹 사이트 소유자가
/robots.txt
웹 로봇에 웹 사이트에 대한 지침을 제공하는 데 사용됩니다Robots Exclusion Protocol
.작동 방식은 다음과 같습니다. 봇이 웹사이트 URL을 방문하려고 합니다.http://www.example.com/welcome.html. 그 전에 먼저 확인해보죠http://www.example.com/robots.txt, 그리고 다음을 발견했습니다:
User-agent: *
Disallow: /
이는
User-agent: *
이 섹션이 모든 로봇에 적용된다는 것을 의미합니다.Disallow: /
웹사이트의 어떤 페이지도 방문해서는 안 된다고 봇에게 알립니다 .
Bing robots.txt
파일에서 다음을 볼 수 있습니다.
User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...
그래서 그들은 당신이 그 경로에서 많은 것을 다운로드하는 것을 원하지 않습니다. 당신은 /shopping
그것을 시도해 볼 수 있습니다.
robots.txt
이 파일을 우회하고 원하는 대로 수행할 수 있는 방법을 찾으면 악의적인 행동을 하는 것이며 웹 사이트에서 귀하의 IP를 차단할 수 있습니다.
결론적으로
넌 아마 아무 잘못도 하지 않았을 거야 (저는 결코 wget 전문가가 아니므로 구문 오류도 있을 수 있습니다.), 하지만 이 작업은 허용되지 않습니다.