재귀를 사용하여 웹사이트를 다운로드하려고 합니다 wget
.
wget --recursive --page-requisites --no-parent --convert-links -e robots=off --domains orteil.dashnet.org orteil.dashnet.org/cookieclicker
특정 파일만 다운로드하고 다른 파일은 유지합니다. 자세히 조사한 결과 반환된 파일을 다운로드하지 않는 것으로 나타났습니다 304 Not Modified
.
파일은 304 Not Modified
Inspector로 반환되며 다운로드되지 않습니다.
파일은 200 OK
Inspector로 반환되어 다운로드됩니다.
.wget
304
답변1
304 Not Modified는 서버에서 응답 If-Modified-Since
헤더로 전송됩니다. 고객이 가지고 있는 사본이 최신 버전임을 알려주어야 합니다. wget
파일이 일부 타임스탬프와 함께 출력 디렉터리에 이미 존재하기 때문에 이 헤더가 차례로 전송됩니다 .
따라서 강제로 다운로드하는 확실한 방법은 빈 출력 디렉터리로 시작하는 것입니다.
파일의 타임스탬프가 변경되어(따라서 더 최신으로 보이도록) --convert-links
대신 을 사용하고 있기 때문에 문제가 발생할 수 있습니다 --backup-converted
.--convert-links
편집: wget
제가 테스트한 것보다 더 최근에는 다음을 추가할 수도 있습니다.--no-if-modified-since