컬과 wget의 한계

컬과 wget의 한계

wget브라우저 탭에서는 일부 URL이 문제 없이 로드되지만 및 같은 도구를 사용하면 시간이 초과되는 이유가 궁금합니다 curl.
예시 URL은 다음과 같습니다.
https://www.nasdaq.com/market-activity/stocks/gme/news-headlines

curl웹 페이지에 대한 다운로드 스크립트를 사용하여 생성하려고 시도했지만 wget성공하지 못했습니다(즉, 둘 다 끊김).

wget --adjust-extension -t 2 -U 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' "https://www.nasdaq.com/market-activity/stocks/gme/news-headlines" -O gme.html

wget --adjust-extension -t 2 -U 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' "www.nasdaq.com/market-activity/stocks/gme/news-headlines" -O gme.html

curl -o 01.html https://www.nasdaq.com/market-activity/stocks/gme/news-headlines

curl -o 01.html www.nasdaq.com/market-activity/stocks/gme/news-headlines

답변1

User-Agent:웹 서버는 요청의 헤더를 확인 하고 서버 curlwget유사한 도구의 요청을 거부할 가능성이 높습니다. 그들은 스크립트를 통해 웹 콘텐츠에 액세스하고 싶지 않기 때문에 이렇게 할 수도 있습니다. 사실, 그들 중 일부는서비스 약관(그들의 웹사이트를 방문하기만 하면 동의할 수 있습니다)

서비스 이용. 당사 서비스를 이용하려면 다음을 수행해야 합니다.

[...]

서비스에 액세스하거나 사용하기 위한 자동화된 프로세스, 또는 서비스에서 데이터나 콘텐츠를 캡처하기 위한 프로세스(자동 또는 수동)를 사용하거나 어떤 이유로든 서비스의 무단 복사 또는 배포를 방지하기 위한 메커니즘을 우회하지 마십시오.

요청에 사용된 헤더를 변경 User-Agent:하려면 도구 매뉴얼에서 올바른 옵션을 찾고, 사용 사례에서 해당 옵션을 사용하는 것이 합법적인지 확인하고, 해당 고려 사항에 따라 조치를 취해야 합니다.

관련 정보