wget을 사용하여 첫 번째 깊이 외부 링크만 다운로드

wget을 사용하여 첫 번째 깊이 외부 링크만 다운로드

이 페이지의 사본을 받고 싶습니다.http://databyte.ch/services/tony/index.html분명히 이 페이지는 이미 원본 소스의 복사본입니다.http://www.tonyvanroon.com/oldwebsite/circ/ Circuits.htm

그러나 일부 링크가 깨졌습니다. 이제 색인 페이지의 사본을 만들고 모든 링크가 백 아카이브를 가리키도록 수정했습니다. 이제 거의 모든 것을 탐색할 수 있습니다. 하지만 이제 wget을 사용하여 수정된 페이지를 복사하고 싶습니다. 이제 문제는 wget이 -H 매개변수로 인해 외부 링크를 따르는 경우 외부 페이지에 링크된 파일도 다운로드한다는 것입니다.

예: 이 페이지에서:https://web.archive.org/web/20130318175317if_/http://www.sentex.ca/~mec1995/circ/alt1.htm

링크가 있습니다: https://web.archive.org/web/20130401212207if_/http://www.sentex.ca/~mec1995/circ/ Circuits.htm

타임스탬프가 다릅니다: 20130318175317if_ 대 20130401212207if_

이제 바퀴가 돌기 시작했습니다. 두 번째 색인 페이지에는 다른 타임스탬프 등에 대한 링크가 많이 있기 때문입니다.

그래서 제가 달성하고 싶은 것은 wget이 첫 번째 레벨에만 다운로드된다는 것입니다.

databyte.ch -> 모든 링크가 가리키는https://web.archive.org/web/20130318175317if_

그리고 그 이상은 아니고...

어떻게 해야 하나요? 감사해요!

답변1

wget과 함께 깊이 매개변수를 사용할 수 있습니다.

  -l depth
  --level=depth
      Specify recursion maximum depth level depth.
wget -r -l 1 -k -p -H --domains=web.archive.org http://databyte.ch/services/tony/index.html

여기서 -r은 재귀 모드를 설정하고, -k는 링크를 변환하고, -p는 필수 구성 요소를 다운로드하며, -H는 호스트를 확장합니다. --domains를 지정하면 이러한 호스트에만 적용됩니다.

관련 정보