데이터베이스 검색 엔진 웹페이지의 소스 파일을 다운로드하고 싶습니다. 컬을 사용하면 html 홈페이지만 다운로드할 수 있습니다. 또한 이 웹페이지에 링크되어 있고 기본 HTML 페이지에 언급된 모든 자바스크립트 파일, CSS 파일 및 PHP 파일을 다운로드하고 싶습니다. 컬/wget이나 다른 유틸리티를 사용하여 이 작업을 수행할 수 있습니까?
답변1
먼저, 웹사이트 운영자에게 이것이 해당 서비스의 사용이 허용되는지 확인해야 합니다. 그 후에는 다음을 수행할 수 있습니다.
wget -pk example.com
-p
페이지를 보기 위해 필요한 조건(Javascript, CSS 등)을 얻으세요. -k
페이지의 링크를 로컬에서 볼 수 있는 링크로 변환합니다.
에서 man wget
:
-p, --페이지 전제 조건
이 옵션을 사용하면 Wget이 지정된 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하게 됩니다. 여기에는 인라인 이미지, 사운드, 참조 스타일 시트 등이 포함됩니다.
[...]
-k, --convert 링크
다운로드가 완료되면 문서의 링크를 로컬 보기에 적합하도록 변환하세요. 이는 표시되는 하이퍼링크뿐만 아니라 포함된 이미지, 스타일시트 링크, HTML이 아닌 콘텐츠에 대한 하이퍼링크 등과 같은 외부 콘텐츠에 연결되는 문서의 모든 부분에도 영향을 미칩니다.