웹페이지의 크기를 결정하는 방법이 있지만 전체 웹사이트의 크기는 어떻습니까? 다운로드가 필요하지 않습니다.
편집: 도메인 이름을 포함한 크기 통계에 페이지만 포함되기를 원합니다.
답변1
귀하는 웹사이트의 구성과 웹사이트에 포함되지 않은 링크 및 리소스의 구성을 정의했습니다. 웹사이트는 기본적으로 그래프 데이터 구조입니다. 유사한 쿼리 문자열을 기반으로 중복을 루프, 캡처 및 정의하지 않고 "사이트의 일부가 아님"으로 정의한 링크를 따르지 않도록 방문으로 표시된 모든 링크에 대해 DFS/BFS를 수행합니다.
결국 웹사이트를 다운로드하는 것을 원하지 않기 때문에 웹사이트가 HTTP HEAD 방법을 지원하고 정확한 Content-Length 헤더를 생성하기를 원합니다. 이들 각각에 대해 질문하고 요약하십시오.
쉽지요?
OTOH, 이것이 귀하의 웹사이트이고 ftp 액세스 또는 이와 유사한 권한이 있고 웹사이트를 웹사이트 루트의 모든 파일로 정의한 경우 재귀 디렉터리 크기를 가져오는 것만으로도 문제가 해결됩니다. 응!