나는 블로그 사이트를 미러링하여 내 파일 시스템에 정확한 복사본을 두고 볼 수 있도록 하려고 합니다. Linux에서 다음 명령을 실행해 보았습니다.
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.com/
나는 -D 플래그를 사용하여 따라야 할 도메인의 쉼표로 구분된 목록을 나열하려고 시도했습니다(모든 도메인을 따르지만 모든 도메인을 지정할 필요는 없음). 심지어 URL의 .com 부분을 우리나라의 최상위 도메인(.it)으로 변경하려고 시도했습니다. (그것이 없으면 어떤 이유로 이해가 안 되고 알고 싶습니다. wget은 index.html만 검색하고 다른 페이지는 검색하지 않습니다. 아마도 여기 누군가가 이유를 설명할 수 있을 것입니다.)
그래서 내가 만들어도
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.it/
여러 HTML 및 favicon.ico를 다운로드했지만 블로그에서 .png 이미지는 다운로드하지 않았습니다. 왜 이런 일이 발생하고 wget이 제대로 작동하도록 만드는 방법이 있습니다. wget 매뉴얼 페이지를 읽었지만 운이 없습니다.
감사해요.
답변1
제안된 대로 jayhendren
-D 플래그 뒤의 목록에 도메인 bp.blogspot.com을 나열해 보았습니다. 그러나 내가 잊어버린 것은 -H 플래그를 추가하는 것이었습니다. wget이 도메인 목록과 별도로 추가 -H 플래그를 추가하고 그 뒤에 -D 플래그를 추가해야 하는 이유가 확실하지 않지만 작동합니다. 외부 도메인에서 제공되는 이미지를 포함하여 Blogger 사이트를 미러링하기 위해 지정하게 된 명령은 다음과 같습니다.
wget --domains=blogspot.it,bp.blogspot.com -H --mirror -e robots=off \
--wait 0.5 --convert-links http://yoursitehere.blogspot.it/
참고: 이는 이탈리아에 적용됩니다. 이 기능을 현재 위치에서 사용하려면 .it을 .com 또는 기타 최상위 도메인으로 변환하세요.
인사.
답변2
wget의 오류 출력이 없으면 발생한 정확한 문제가 무엇인지 알 수 없습니다. 그러나 일반적으로 wget을 사용하여 다운로드할 때(또는 웹 사이트 미러링) 다음과 같이 -mirror 옵션을 사용합니다.
wget --mirror -p --adjust-extension --wait 1 http://your.site.here.blogspot.it/