wget은 정규 표현식과 일치합니다.

wget은 정규 표현식과 일치합니다.

먼저 wget을 사용해 보세요.

https://tse4.mm.bing.net/th?정규식을 일치시키고 주어진 URL에서 시작하는 모든 이미지를 다운로드하기 위해 이것을 사용하려고 합니다 .

그러나 이것은 작동하지 않는 것 같습니다.

문제의 URL은 다음과 같습니다.

https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images

(bing에서 제한된 수의 이미지만 다운로드하면 됩니다)

여기서는 이 명령을 사용하려고 합니다.

wget -nd -r -P save -A '^https://tse4.mm.bing.net/th?' https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images

그러나 robots.txt 파일을 다운로드합니다.

내가 여기서 뭘 잘못하고 있는 걸까? 감사해요

답변1

robots.txt파일의 목적은 귀하의 웹사이트에서 로봇 작업을 수행하는 것을 방지하는 것입니다. wget파일의 희망 사항은 기본적으로 존중됩니다 robots.txt.

이 파일은 웹 사이트 소유자가 /robots.txt웹 로봇에 웹 사이트에 대한 지침을 제공하는 데 사용됩니다 Robots Exclusion Protocol.

작동 방식은 다음과 같습니다. 봇이 웹사이트 URL을 방문하려고 합니다.http://www.example.com/welcome.html. 그 전에 먼저 확인해보죠http://www.example.com/robots.txt, 그리고 다음을 발견했습니다:

User-agent: *
Disallow: /

이는 User-agent: *이 섹션이 모든 로봇에 적용된다는 것을 의미합니다. Disallow: /웹사이트의 어떤 페이지도 방문해서는 안 된다고 봇에게 알립니다 .


Bing robots.txt파일에서 다음을 볼 수 있습니다.

User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...

그래서 그들은 당신이 그 경로에서 많은 것을 다운로드하는 것을 원하지 않습니다. 당신은 /shopping그것을 시도해 볼 수 있습니다.

robots.txt이 파일을 우회하고 원하는 대로 수행할 수 있는 방법을 찾으면 악의적인 행동을 하는 것이며 웹 사이트에서 귀하의 IP를 차단할 수 있습니다.


robotstxt.org


결론적으로

넌 아마 아무 잘못도 하지 않았을 거야 (저는 결코 wget 전문가가 아니므로 구문 오류도 있을 수 있습니다.), 하지만 이 작업은 허용되지 않습니다.

관련 정보