![동적 페이지를 얻기 위해 wget을 사용하려고 시도했지만 성공하지 못했습니다.](https://linux55.com/image/36996/%EB%8F%99%EC%A0%81%20%ED%8E%98%EC%9D%B4%EC%A7%80%EB%A5%BC%20%EC%96%BB%EA%B8%B0%20%EC%9C%84%ED%95%B4%20wget%EC%9D%84%20%EC%82%AC%EC%9A%A9%ED%95%98%EB%A0%A4%EA%B3%A0%20%EC%8B%9C%EB%8F%84%ED%96%88%EC%A7%80%EB%A7%8C%20%EC%84%B1%EA%B3%B5%ED%95%98%EC%A7%80%20%EB%AA%BB%ED%96%88%EC%8A%B5%EB%8B%88%EB%8B%A4..png)
이 명령을 사용하여 wget을 통해 모든 이미지와 자바스크립트가 포함된 iTunes 페이지를 가져옵니다. 내가 원하는 것은 이 페이지와 페이지에 포함된 모든 이미지와 스크립트뿐입니다.
wget -kKErpNF --no-check-certificate --html-extension -nd -A jpg,jpeg,png,js -nH https://itunes.apple.com/us/app/megamilhoes-megasena-gerador/id854897303?mt=12
이 명령은 거의 작동하지만 페이지가 동적이며 브라우저에 내장되어 있으므로 페이지 자체를 저장하지 않습니다. 페이지에 html/html 확장자가 없습니다. 어떻게 얻을 수 있나요?
--html-extension
아무런 영향도 미치지 않았습니다. 저는 OSX Mavericks를 사용하고 있습니다.
답변1
Apple은 기본적으로 html 파일 다운로드를 거부합니다. 내 컴퓨터에 지정한 명령을 사용했습니다. 출력물을 주의 깊게 살펴보면 다음과 같은 결과를 얻을 수 있습니다.
Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50-- https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: `robots.txt'
그러므로에 따르면이것우리는 대답을 무시할 수 있습니다로봇.txt-e robots=off
명령에 사용하여 파일을 만듭니다.
Wget
기본적으로 존중robots.txt 표준검색 엔진과 마찬가지로 크롤링 페이지의 경우 archive.org의 경우 전체 /web/ 하위 디렉터리를 허용하지 않습니다. 재정의하려면-e robots= off
,
그래서 이를 추가하도록 명령을 수정했고 -e robots= off
명령을 다시 실행했을 때 다음과 같은 출력을 얻었습니다.
Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `id854897303?mt=12.html'
[ <=> ] 33,456 --.-K/s in 0.001s
2014-05-24 10:48:38 (30.1 MB/s) - `id854897303?mt=12.html' saved [33456]
Removing id854897303?mt=12.html since it should be rejected.
보시다시피, 파일 다운로드는 Apple에 의해 차단되어 있으며 이에 대해 저희가 할 수 있는 일은 없습니다.
편집하다: 없어도 -e robots=off
html 파일을 다운로드할 수 없습니다. 또한 원래 wget도 거부되었다고 나와 있습니다. 그래서 Apple이 wget
다운로드를 허용하지 않는 것 같습니다.