wget을 실행할 때 깊이 우선처럼 "링크를 따라가기"를 원합니다. 링크를 만나면 그것이 다음으로 수행됩니다. 하지만 어떻게든 첫 번째 페이지를 먼저 처리하고 모든 링크를 가져온 다음 해당 링크를 실행하는 것 같습니다. 가져오는 각 페이지에는 새/중첩 링크가 있을 수 있지만 원본 페이지를 완료할 때까지는 해당 링크에 도달하지 않습니다. 이것이 실제로 작동하는 방식인지 묻고 싶었기 때문에 내가 하고 있는 일이 제대로 작동하는지 알고 시작 페이지에 대한 링크를 완료할 때까지 페이지를 가져올 수 없는지 알고 싶었습니다.
답변1
~에서수동:
href
Wget은 HTTP URL을 사용하여 주어진 URL에서 HTML 또는 CSS를 검색하고 구문 분석하며,src
등 태그로 지정된 CSS URI 값을 통해 또는 ' ' 함수 표기법을 사용하여 문서에서 참조하는 파일을 검색합니다. 새로 다운로드한 파일이 , 또는 유형url()
인 경우 추가로 구문 분석되고 추적됩니다.text/html
application/xhtml+xml
text/css
HTTP 및 HTML/CSS 콘텐츠의 재귀 검색은너비 우선. 즉, Wget은 먼저 요청된 문서를 다운로드한 다음 해당 문서에서 링크된 문서, 링크된 문서 등을 다운로드합니다. 즉, Wget은 깊이 1의 문서를 먼저 다운로드한 다음 깊이 2의 문서를 다운로드하는 식으로 지정된 최대 깊이까지 다운로드합니다.