동적 페이지를 얻기 위해 wget을 사용하려고 시도했지만 성공하지 못했습니다.

동적 페이지를 얻기 위해 wget을 사용하려고 시도했지만 성공하지 못했습니다.

이 명령을 사용하여 wget을 통해 모든 이미지와 자바스크립트가 포함된 iTunes 페이지를 가져옵니다. 내가 원하는 것은 이 페이지와 페이지에 포함된 모든 이미지와 스크립트뿐입니다.

 wget -kKErpNF --no-check-certificate --html-extension  -nd -A jpg,jpeg,png,js  -nH https://itunes.apple.com/us/app/megamilhoes-megasena-gerador/id854897303?mt=12

이 명령은 거의 작동하지만 페이지가 동적이며 브라우저에 내장되어 있으므로 페이지 자체를 저장하지 않습니다. 페이지에 html/html 확장자가 없습니다. 어떻게 얻을 수 있나요?

--html-extension아무런 영향도 미치지 않았습니다. 저는 OSX Mavericks를 사용하고 있습니다.

답변1

Apple은 기본적으로 html 파일 다운로드를 거부합니다. 내 컴퓨터에 지정한 명령을 사용했습니다. 출력물을 주의 깊게 살펴보면 다음과 같은 결과를 얻을 수 있습니다.

Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50--  https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: `robots.txt'

그러므로에 따르면이것우리는 대답을 무시할 수 있습니다로봇.txt-e robots=off명령에 사용하여 파일을 만듭니다.

Wget기본적으로 존중robots.txt 표준검색 엔진과 마찬가지로 크롤링 페이지의 경우 archive.org의 경우 전체 /web/ 하위 디렉터리를 허용하지 않습니다. 재정의하려면 -e robots= off,

그래서 이를 추가하도록 명령을 수정했고 -e robots= off명령을 다시 실행했을 때 다음과 같은 출력을 얻었습니다.

Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `id854897303?mt=12.html'

    [ <=>                                                                                                                                                  ] 33,456      --.-K/s   in 0.001s  

2014-05-24 10:48:38 (30.1 MB/s) - `id854897303?mt=12.html' saved [33456]

Removing id854897303?mt=12.html since it should be rejected.

보시다시피, 파일 다운로드는 Apple에 의해 차단되어 있으며 이에 대해 저희가 할 수 있는 일은 없습니다.

편집하다: 없어도 -e robots=offhtml 파일을 다운로드할 수 없습니다. 또한 원래 wget도 거부되었다고 나와 있습니다. 그래서 Apple이 wget다운로드를 허용하지 않는 것 같습니다.

관련 정보