사용자 이름과 비밀번호가 있는 HTTPS 웹사이트를 다운로드하려면 wget만 사용하시겠습니까?

사용자 이름과 비밀번호가 있는 HTTPS 웹사이트를 다운로드하려면 wget만 사용하시겠습니까?

일반적으로 로그인한 경우에만 사용할 수 있는 웹사이트를 반복적으로 다운로드하려고 합니다.

유효한 사용자 이름과 비밀번호가 있지만 문제는 웹 인터페이스를 통해 로그인해야 한다는 것입니다. 따라서 이를 사용하는 것은 --user=user and --password=password도움이 되지 않습니다.

wget텍스트가 포함된 웹페이지만 다운로드: 죄송합니다. 이 페이지를 사용할 수 없습니다. 로그인하는 것을 잊으셨나요?

다운로드할 수 있나요?

아래 설명처럼 로그인을 검색할 FTP/HTTP 파일이 없기 때문에 로그인 페이지에서도 --user, --password를 사용할 수 없습니다 man wget.

--user=user
--password=password
    Specify the username user and password password for both FTP and
    HTTP file retrieval.

고전적인 그래픽 로그인이 바로 거기에 있습니다.

.POST 메서드를 사용하여 로그인하고 쿠키를 저장 하려고 wget --save-cookies coookies --keep-session-cookies --post-data='j_username=usr&j_password=pwd' 'https://idp2.civ.cvut.cz/idp/Authn/UserPassword'하면 쿠키 파일이 비어 있고 저장된 페이지는 일부 오류 페이지입니다.

웹사이트는 입니다 https://idp2.civ.cvut.cz/idp/Authn/UserPassword. 실제로 로그인하려고 하면 이 페이지로 리디렉션되고, 로그인에 성공하면 이전에 있었던 페이지나 로그인 후 가고 싶은 페이지로 다시 리디렉션됩니다(예: https://progtest.fit.cvut.cz/.

답변1

로그인 후 다른 페이지로 이동할 수 있도록 세션 정보가 쿠키에 저장될 수 있습니다.

이 경우 다음 두 단계로 이 작업을 수행할 수 있습니다.

  1. 웹사이트 로그인 페이지에서 및 옵션과 함께 wget--save-cookies mycookies.txt옵션을 사용하세요.--keep-session-cookies--username--password
  2. 검색하려는 후속 페이지에서 사용할 옵션입니다 wget.--load-cookies mycookies.txt

편집하다

--passwordand 옵션이 작동하지 않으면 --username로그인 페이지가 서버에 보내는 정보를 찾아 이를 모방해야 합니다.

  • GET요청 의 경우 wget이 가져와야 하는 주소에 매개변수를 직접 추가할 수 있습니다(따옴표 및 기타 특수 문자를 GET올바르게 인용해야 함 ). URL은 다음과 같습니다 .&=https://the_url?user=foo&pass=bar
  • 요청 의 경우 필수 로그인 정보와 함께 게시 방법을 사용하는 옵션을 사용할 POST수 있습니다 .wget--post-data=the_needed_info

편집 2

POSTwith j_usernamej_passwordset 메소드가 필요한 것 같습니다 . --post-data='j_username=yourusername&j_password=yourpassword선택해 보세요 wget.

편집 3

원본 페이지를 살펴보니 무슨 일이 일어나고 있는지 더 잘 이해할 수 있었습니다. 하지만 유효한 자격 증명이 없고 원하지 않기 때문에 작동하는지 알 수 없습니다.

그 결과는 다음과 같습니다.

  1. 이 페이지에서는 쿠키를 https://progtest.fit.cvut.cz/설정 PHPSESSID하고 로그인 옵션을 제공합니다.
  2. 버튼 을 클릭하면 PHPSESSID 쿠키를 가져오는 login요청이 전송되고 https://progtest.fit.cvut.cz/shibboleth-fit.php(사용 여부는 확실하지 않음) 다음과 같이 귀하에게 맞게 설계된 URL을 사용하여 SSO 엔진으로 리디렉션됩니다.https://idp2.civ.cvut.cz/idp/profile/SAML2/Redirect/SSO?SAMLRequest=SOME_VERY_LONG_AND_UNIQUE_ID
  3. SSO 응답은 호출된 새 쿠키를 설정하고 _idp_authn_lc_key다시 리디렉션되는 페이지(실제 로그인 페이지) 로 리디렉션합니다.https://idp2.civ.cvut.cz:443/idp/AuthnEnginehttps://idp2.civ.cvut.cz:443/idp/Authn/UserPassword
  4. 자격 증명을 입력하고 SSO 응답에서 게시물 데이터 j_username와 쿠키를 보냅니다.j_password
  5. ???

wget처음 네 단계는 다음과 같이 완료할 수 있습니다.

origin='https://progtest.fit.cvut.cz/'

# Get the PHPSESSID cookie
wget --save-cookies phpsid.cki --keep-session-cookies "$origin"

# Get the _idp_authn_lc_key cookie
wget --load-cookies phpsid.cki  --save-cookies sso.cki --keep-session-cookies --header="Referer: $origin" 'https://progtest.fit.cvut.cz/shibboleth-fit.php'

# Send your credentials
wget --load-cookies sso.cki --save-cookies auth.cki --keep-session-cookies --post-data='j_username=usr&j_password=pwd' 'https://idp2.civ.cvut.cz/idp/Authn/UserPassword'

wget리디렉션은 전적으로 혼자서 수행되므로 이 경우에는 많은 도움이 됩니다 .

답변2

왜 놀고 있는 거야 wget? 일부를 사용하는 것이 더 좋습니다.헤드리스 브라우저이 작업을 자동화합니다.

헤드리스 브라우저란 무엇입니까?

헤드리스 브라우저는 그래픽 사용자 인터페이스가 없는 웹 브라우저입니다. 이는 널리 사용되는 웹 브라우저와 유사한 환경에서 웹 페이지의 자동 제어를 제공하지만 명령줄 인터페이스나 네트워크 통신을 통해 수행됩니다.

널리 사용되는 두 가지 헤드리스 브라우저는 phantomjs(javascript)와 Ghost.py(python)입니다.

phantomjs를 사용한 솔루션

먼저 설치해야 합니다 phantomjs. Ubuntu 기반 시스템에서는 패키지 관리자를 사용하여 설치하거나 소스 코드에서 빌드할 수 있습니다.홈페이지.

sudo apt-get install phantomjs

그런 다음 javascript 스크립트를 작성하고 phantomjs를 사용하여 실행합니다.

phantomjs script.js

그게 다야.

이제 귀하의 사례에 맞게 구현하는 방법을 알아보려면 해당 페이지로 이동하세요.빠른 시작 가이드. 예를 들어 Facebook에 자동으로 로그인하고 스냅샷을 찍으려면 제공된 포인트를 사용하면 됩니다.여기:

// This code login's to your facebook account and takes snap shot of it.
var page = require('webpage').create();
var fillLoginInfo = function(){
var frm = document.getElementById("login_form");
frm.elements["email"].value = 'your fb email/username';
frm.elements["pass"].value = 'password';
frm.submit();
}
page.onLoadFinished = function(){
if(page.title == "Welcome to Facebook - Log In, Sign Up or Learn More"){
page.evaluate(fillLoginInfo);
return;
}
else
page.render('./screens/some.png');
console.log("completed");
phantom.exit();
}
page.open('https://www.facebook.com/');

특정 상황에 맞게 구현하려면 설명서를 확인하세요. SSL 오류로 인해 웹사이트에 문제가 있는 경우 https다음과 같이 스크립트를 실행하세요.

phantomjs --ssl-protocol=any script.js

Ghost.py를 사용한 솔루션

Ghost.py를 설치하려면 다음이 필요합니다 pip.

sudo apt-get install python-pip   #On a Debian based system
sudo pip install Ghost.py

이제 Ghost.py가 설치되었습니다. 이제 Python 스크립트에서 사용하려면 거기에 제공된 문서를 따르십시오.홈페이지. https 웹사이트에서 Ghost.py를 사용해 보았지만 왠지 작동하지 않습니다. 시도해보고 작동하는지 확인하십시오.

업데이트: GUI 기반 솔루션

다음과 같은 도구를 사용할 수도 있습니다.셀렌로그인 프로세스를 자동화하고 정보를 검색합니다. 사용하기가 매우 쉽습니다. 브라우저에 플러그인을 설치하기만 하면 됩니다.여기. 그런 다음 세션을 녹화하고 나중에 재생할 수 있습니다.

답변3

사용해 보세요'curl'

curl --data "j_username=value1&j_password=value2" https://idp2.civ.cvut.cz/idp/Authn/UserPassword

응답 유형을 확인하고 'content-type'일치하도록 헤더를 설정해야 할 수도 있습니다(예: XML, json 등).

답변4

방법은 다음과 같습니다. 먼저 Firefox의 Live HTTP 헤더 플러그인을 사용하여 통신을 분석하겠습니다. 참조와 그 모든 것들이 필요할 수 있습니다. 이 정보를 얻은 후에는 wget쿠키를 저장하고 필요할 때 로드하는 것을 시뮬레이션합니다.

관련 정보