반환된 HTML을 전처리하기 위해 wget에 일종의 후크를 추가할 수 있습니까?

반환된 HTML을 전처리하기 위해 wget에 일종의 후크를 추가할 수 있습니까?

내 웹사이트 중 하나를 미러링하고 싶습니다.

안타깝게도 이 사이트에는미리보기 모드및 GET 매개변수는 페이지가 미리보기 모드로 유지되도록 페이지의 모든 URL에 추가되어야 합니다.

이 GET 매개변수는 JavaScript를 통해 추가됩니다. 분명히 이것은 중요하지 않습니다 wget.

wget모든 URL을 크롤링하기 전에 이 콘텐츠를 직접 추가 할 수 있도록 반환된 HTML을 스크립트로 보내는 방법이 있습니까 ?

답변1

귀하의 질문은 명확하지 않습니다. 내 이해는 다음과 같습니다

  • 웹페이지를 재귀적으로 검색하고 있습니다.
  • 귀하의 페이지에는 내부 링크가 포함되어 있습니다.
  • 이러한 링크를 클릭하면 존재하지 않는 페이지로 연결되며, HTTP 요청에 추가 매개변수를 추가하기 위해 각 링크를 다시 작성하려고 합니다.

wget으로는 이 작업을 수행할 수 없다고 생각합니다. 나는 사용하는 것이 좋습니다경량 수압대신에. 라는 이름으로 나오네요lwp-rget재귀 검색을 수행합니다. 줄이 있어요

my $req = HTTP::Request->new(GET => $url);

이 줄 바로 앞에 중단할 코드를 추가하세요.URL적절하다면 다음과 유사합니다.

$url->query_form($url->query_form, "show_preview" => "yes");

관련 정보