내 웹사이트 중 하나를 미러링하고 싶습니다.
안타깝게도 이 사이트에는미리보기 모드및 GET 매개변수는 페이지가 미리보기 모드로 유지되도록 페이지의 모든 URL에 추가되어야 합니다.
이 GET 매개변수는 JavaScript를 통해 추가됩니다. 분명히 이것은 중요하지 않습니다 wget
.
wget
모든 URL을 크롤링하기 전에 이 콘텐츠를 직접 추가 할 수 있도록 반환된 HTML을 스크립트로 보내는 방법이 있습니까 ?
답변1
귀하의 질문은 명확하지 않습니다. 내 이해는 다음과 같습니다
- 웹페이지를 재귀적으로 검색하고 있습니다.
- 귀하의 페이지에는 내부 링크가 포함되어 있습니다.
- 이러한 링크를 클릭하면 존재하지 않는 페이지로 연결되며, HTTP 요청에 추가 매개변수를 추가하기 위해 각 링크를 다시 작성하려고 합니다.
wget으로는 이 작업을 수행할 수 없다고 생각합니다. 나는 사용하는 것이 좋습니다경량 수압대신에. 라는 이름으로 나오네요lwp-rget
재귀 검색을 수행합니다. 줄이 있어요
my $req = HTTP::Request->new(GET => $url);
이 줄 바로 앞에 중단할 코드를 추가하세요.URL적절하다면 다음과 유사합니다.
$url->query_form($url->query_form, "show_preview" => "yes");