일반적으로 로그인한 경우에만 사용할 수 있는 웹사이트를 반복적으로 다운로드하려고 합니다.
유효한 사용자 이름과 비밀번호가 있지만 문제는 웹 인터페이스를 통해 로그인해야 한다는 것입니다. 따라서 이를 사용하는 것은 --user=user and --password=password
도움이 되지 않습니다.
wget
텍스트가 포함된 웹페이지만 다운로드:
죄송합니다. 이 페이지를 사용할 수 없습니다. 로그인하는 것을 잊으셨나요?
다운로드할 수 있나요?
아래 설명처럼 로그인을 검색할 FTP/HTTP 파일이 없기 때문에 로그인 페이지에서도 --user, --password를 사용할 수 없습니다 man wget
.
--user=user
--password=password
Specify the username user and password password for both FTP and
HTTP file retrieval.
고전적인 그래픽 로그인이 바로 거기에 있습니다.
.POST 메서드를 사용하여 로그인하고 쿠키를 저장 하려고 wget --save-cookies coookies --keep-session-cookies --post-data='j_username=usr&j_password=pwd' 'https://idp2.civ.cvut.cz/idp/Authn/UserPassword'
하면 쿠키 파일이 비어 있고 저장된 페이지는 일부 오류 페이지입니다.
웹사이트는 입니다 https://idp2.civ.cvut.cz/idp/Authn/UserPassword
. 실제로 로그인하려고 하면 이 페이지로 리디렉션되고, 로그인에 성공하면 이전에 있었던 페이지나 로그인 후 가고 싶은 페이지로 다시 리디렉션됩니다(예: https://progtest.fit.cvut.cz/
.
답변1
로그인 후 다른 페이지로 이동할 수 있도록 세션 정보가 쿠키에 저장될 수 있습니다.
이 경우 다음 두 단계로 이 작업을 수행할 수 있습니다.
- 웹사이트 로그인 페이지에서 및 옵션과 함께
wget
및--save-cookies mycookies.txt
옵션을 사용하세요.--keep-session-cookies
--username
--password
- 검색하려는 후속 페이지에서 사용할 옵션입니다
wget
.--load-cookies mycookies.txt
편집하다
--password
and 옵션이 작동하지 않으면 --username
로그인 페이지가 서버에 보내는 정보를 찾아 이를 모방해야 합니다.
GET
요청 의 경우 wget이 가져와야 하는 주소에 매개변수를 직접 추가할 수 있습니다(따옴표 및 기타 특수 문자를GET
올바르게 인용해야 함 ). URL은 다음과 같습니다 .&
=
https://the_url?user=foo&pass=bar
- 요청 의 경우 필수 로그인 정보와 함께 게시 방법을 사용하는 옵션을 사용할
POST
수 있습니다 .wget
--post-data=the_needed_info
편집 2
POST
with j_username
및 j_password
set 메소드가 필요한 것 같습니다 . --post-data='j_username=yourusername&j_password=yourpassword
선택해 보세요 wget
.
편집 3
원본 페이지를 살펴보니 무슨 일이 일어나고 있는지 더 잘 이해할 수 있었습니다. 하지만 유효한 자격 증명이 없고 원하지 않기 때문에 작동하는지 알 수 없습니다.
그 결과는 다음과 같습니다.
- 이 페이지에서는 쿠키를
https://progtest.fit.cvut.cz/
설정PHPSESSID
하고 로그인 옵션을 제공합니다. - 버튼 을 클릭하면 PHPSESSID 쿠키를 가져오는
login
요청이 전송되고https://progtest.fit.cvut.cz/shibboleth-fit.php
(사용 여부는 확실하지 않음) 다음과 같이 귀하에게 맞게 설계된 URL을 사용하여 SSO 엔진으로 리디렉션됩니다.https://idp2.civ.cvut.cz/idp/profile/SAML2/Redirect/SSO?SAMLRequest=SOME_VERY_LONG_AND_UNIQUE_ID
- SSO 응답은 호출된 새 쿠키를 설정하고
_idp_authn_lc_key
다시 리디렉션되는 페이지(실제 로그인 페이지) 로 리디렉션합니다.https://idp2.civ.cvut.cz:443/idp/AuthnEngine
https://idp2.civ.cvut.cz:443/idp/Authn/UserPassword
- 자격 증명을 입력하고 SSO 응답에서 게시물 데이터
j_username
와 쿠키를 보냅니다.j_password
- ???
wget
처음 네 단계는 다음과 같이 완료할 수 있습니다.
origin='https://progtest.fit.cvut.cz/'
# Get the PHPSESSID cookie
wget --save-cookies phpsid.cki --keep-session-cookies "$origin"
# Get the _idp_authn_lc_key cookie
wget --load-cookies phpsid.cki --save-cookies sso.cki --keep-session-cookies --header="Referer: $origin" 'https://progtest.fit.cvut.cz/shibboleth-fit.php'
# Send your credentials
wget --load-cookies sso.cki --save-cookies auth.cki --keep-session-cookies --post-data='j_username=usr&j_password=pwd' 'https://idp2.civ.cvut.cz/idp/Authn/UserPassword'
wget
리디렉션은 전적으로 혼자서 수행되므로 이 경우에는 많은 도움이 됩니다 .
답변2
왜 놀고 있는 거야 wget
? 일부를 사용하는 것이 더 좋습니다.헤드리스 브라우저이 작업을 자동화합니다.
헤드리스 브라우저란 무엇입니까?
헤드리스 브라우저는 그래픽 사용자 인터페이스가 없는 웹 브라우저입니다. 이는 널리 사용되는 웹 브라우저와 유사한 환경에서 웹 페이지의 자동 제어를 제공하지만 명령줄 인터페이스나 네트워크 통신을 통해 수행됩니다.
널리 사용되는 두 가지 헤드리스 브라우저는 phantomjs
(javascript)와 Ghost.py
(python)입니다.
phantomjs를 사용한 솔루션
먼저 설치해야 합니다 phantomjs
. Ubuntu 기반 시스템에서는 패키지 관리자를 사용하여 설치하거나 소스 코드에서 빌드할 수 있습니다.홈페이지.
sudo apt-get install phantomjs
그런 다음 javascript 스크립트를 작성하고 phantomjs를 사용하여 실행합니다.
phantomjs script.js
그게 다야.
이제 귀하의 사례에 맞게 구현하는 방법을 알아보려면 해당 페이지로 이동하세요.빠른 시작 가이드. 예를 들어 Facebook에 자동으로 로그인하고 스냅샷을 찍으려면 제공된 포인트를 사용하면 됩니다.여기:
// This code login's to your facebook account and takes snap shot of it.
var page = require('webpage').create();
var fillLoginInfo = function(){
var frm = document.getElementById("login_form");
frm.elements["email"].value = 'your fb email/username';
frm.elements["pass"].value = 'password';
frm.submit();
}
page.onLoadFinished = function(){
if(page.title == "Welcome to Facebook - Log In, Sign Up or Learn More"){
page.evaluate(fillLoginInfo);
return;
}
else
page.render('./screens/some.png');
console.log("completed");
phantom.exit();
}
page.open('https://www.facebook.com/');
특정 상황에 맞게 구현하려면 설명서를 확인하세요. SSL 오류로 인해 웹사이트에 문제가 있는 경우 https
다음과 같이 스크립트를 실행하세요.
phantomjs --ssl-protocol=any script.js
Ghost.py를 사용한 솔루션
Ghost.py를 설치하려면 다음이 필요합니다 pip
.
sudo apt-get install python-pip #On a Debian based system
sudo pip install Ghost.py
이제 Ghost.py가 설치되었습니다. 이제 Python 스크립트에서 사용하려면 거기에 제공된 문서를 따르십시오.홈페이지. https 웹사이트에서 Ghost.py를 사용해 보았지만 왠지 작동하지 않습니다. 시도해보고 작동하는지 확인하십시오.
업데이트: GUI 기반 솔루션
다음과 같은 도구를 사용할 수도 있습니다.셀렌로그인 프로세스를 자동화하고 정보를 검색합니다. 사용하기가 매우 쉽습니다. 브라우저에 플러그인을 설치하기만 하면 됩니다.여기. 그런 다음 세션을 녹화하고 나중에 재생할 수 있습니다.
답변3
사용해 보세요'curl'
curl --data "j_username=value1&j_password=value2" https://idp2.civ.cvut.cz/idp/Authn/UserPassword
응답 유형을 확인하고 'content-type'
일치하도록 헤더를 설정해야 할 수도 있습니다(예: XML, json 등).
답변4
방법은 다음과 같습니다. 먼저 Firefox의 Live HTTP 헤더 플러그인을 사용하여 통신을 분석하겠습니다. 참조와 그 모든 것들이 필요할 수 있습니다. 이 정보를 얻은 후에는 wget
쿠키를 저장하고 필요할 때 로드하는 것을 시뮬레이션합니다.