URL에서 웹페이지와 링크된 콘텐츠를 재귀적으로 다운로드하는 방법은 무엇입니까?

URL에서 웹페이지와 링크된 콘텐츠를 재귀적으로 다운로드하는 방법은 무엇입니까?

재귀를 사용하여 웹페이지를 다운로드하고 싶습니다 wget. 재귀적이라는 말은 그것이 가리킬 수 있는 다른 모든 파일도 다운로드해야 한다는 것입니다. 그 이유는 그 내용을 오프라인에서도 합리적으로 볼 수 있기를 바라기 때문이다.

다운로드해야 하는 웹페이지가 동일한 웹사이트의 다른 페이지로 연결되어 있는데 해당 페이지도 다운로드할 수 있으면 좋겠습니다.

이것이 가능합니까 wget? 어떤 징후가 있습니까?

답변1

노력하다:

wget -r -np -k -p http://www.site.com/dir/page.html

매개변수( 참조 man wget)는 다음과 같습니다.

  • r링크로 재귀하여 이러한 페이지도 검색합니다(기본 최대 깊이는 5이며 를 사용하여 설정할 수 있음 -l).
  • np절대 상위 디렉토리를 입력하지 마십시오. 즉, "홈" 링크를 클릭하지 말고 전체 사이트를 미러링하십시오. 이렇게 하면 ccc위의 예에서 위의 내용이 방지됩니다.
  • k로컬 복사본을 기준으로 링크를 변환합니다.
  • p스타일시트와 같은 페이지 필수 구성 요소를 가져옵니다( np규칙의 예외임).

내가 정확하게 기억한다면 wget은 도메인 이름을 딴 디렉토리를 생성하고 그 안에 모든 것을 넣을 것입니다. 하지만 만약을 대비해 빈 PWD에서 시도해보세요.

관련 정보