Wget을 사용하여 외부 파일을 다운로드하는 방법

Wget을 사용하여 외부 파일을 다운로드하는 방법

웹사이트를 미러링하고 SharePoint PDF를 가리키는 외부 파일을 포함하려고 합니다.

또한 wget은 하위 도메인을 자동으로 다운로드합니다. 예를 들어 stackexchange.com을 다운로드하려는 경우 xxxx.stackexchange.com을 모두 다운로드합니까?

답변1

wget 맨페이지에서:

Wget은 HTML, XHTML 및 CSS 페이지의 링크를 따라가고 원격 웹사이트의 로컬 버전을 생성할 수 있습니다.원본 사이트의 디렉터리 구조를 완전히 다시 만듭니다.. 이를 "재귀적 다운로드"라고도 합니다. 이 과정에서 Wget은 로봇 제외 기준(/robots.txt)을 준수합니다. 다운로드한 파일의 링크를 오프라인 보기를 위해 로컬 파일을 가리키도록 변환하도록 Wget에 지시할 수 있습니다.

따라서 하위 도메인이 도메인의 하위 디렉터리에 파일을 배치하거나 도메인의 페이지가 하위 도메인으로 연결되면 거의 모든 것을 다운로드할 가능성이 높습니다.

거의왜냐하면 웹사이트가 제대로 유지된다면 robots.txt로 인해 일부 파일에 접근할 수 없게 되기 때문입니다.

그런데 저는 개인적으로 계속하려면 허가를 요청하고 SFTP 액세스를 활용하고 싶습니다.

물론 웹 사이트의 페이지는 일부 서버 데이터베이스에 있는 모든 데이터를 사용하여 일부 서버 스크립트에 의해 동적으로 생성될 가능성이 높다는 것을 알고 있습니다. 이러한 콘텐츠는 모두 다운로드되지 않습니다.

이제 이런 일이 일어날 가능성이 매우 높기 때문에 실제로 공식적으로 기대할 수는 없습니다.거울 반지그것이 바로 웹사이트입니다.

관련 정보