wget 및 컬은 웹 페이지를 잘못된 문자로 저장합니다(암호화되었나요?)

wget 및 컬은 웹 페이지를 잘못된 문자로 저장합니다(암호화되었나요?)

https://www.wired.com/category/security/을(를) 사용하거나 wget다운로드 하면 curl결과가 왜곡되거나 암호화됩니다.

명령줄에서 이 웹페이지(암호화되지 않음/일반 HTML)를 저장하는 것이 가능합니까(그렇다면 올바른 방법은 무엇입니까)?

답변1

요약:

다운로드한 파일이 압축되어 있는 것 같으니 압축을 풀어주세요.

자세한 답변

달리기:

wget https://www.wired.com/category/security/

index.html파일 결과 다운로드

file다운로드한 파일에서 명령을 실행하면 다음이 표시됩니다.

$ file index.html 
index.html: gzip compressed data, from Unix

파일 이름을 바꾸고 HTML 문서에 압축을 푼다.

$ mv index.html index.html.gz
$ gunzip index.html.gz 
$ file index.html 

index.html: HTML 문서, UTF-8 유니코드 텍스트, 긴 줄, 굵은 줄

추가 정보 - wget이 압축 파일을 다운로드하는 이유는 무엇입니까?

설명된 대로GZIP 압축을 사용하여 웹사이트를 최적화하는 방법:

대용량 텍스트 파일을 다운로드하는 대신 최신 HTTP 서버/클라이언트는 다음을 사용합니다.HTTP 응답 압축이렇게 하면 전송된 파일의 크기가 줄어듭니다.

관련 정보