wget
다음 명령을 사용하여 전체 웹사이트를 다운로드하려고 합니다.
wget --recursive --no-clobber --page-requisites --convert-links --domains example.com --no-parent http://www.example.com/en/
훌륭하게 작동하지만 문제가 있습니다. 이름에 다음과 같은 한자가 포함된 일부 파일(주로 이미지)이 있습니다.
다운로드 후 파일은 다음 이름으로 저장되었습니다.
??%96KV3.jpg
이것이 HTML 페이지에서 해결되는 방법이며, 따라서 404 오류가 발생합니다.
�%2596KV3.jpg
이러한 불일치를 방지하는 방법을 알고 싶습니다. !
답변1
나는 오늘도 이것으로 어려움을 겪고 있습니다.
제 경우에는 독일어 문자에 문제가 있었습니다.ä,ö,ü
모든 언어 설정을 UTF-8
.
여기에서 튜토리얼을 볼 수 있습니다:
https://perlgeek.de/en/article/set-up-a-clean-utf8-environment