질문으로 바로 이동하려면 코드 뒤에 있는 굵은 이탤릭체 질문까지 건너뛰세요.
소개하다:
wget 및 html 파일을 사용하는 데 문제가 있습니다. 우분투 15.10을 사용하고 있습니다.
데이터베이스에서 데이터를 수집하려고 하는데 "get"을 사용하여 검색하는 대신 "post"를 사용합니다. 이는 wget에 사용할 수 있는 URL이 없다는 의미입니다.
웹사이트의 "get" 제한을 우회하기 위해 "post" 방법을 통해 검색할 html 파일을 만들었습니다. 이는 초기 html 파일을 로드하고 검색을 위해 "게시물"을 사용하기 때문에 wget이 다운로드하려는 콘텐츠를 로드하는 데 시간이 걸린다는 것을 의미합니다.
나는 wget이 html 파일에서 http 링크를 검색하여 작동한다는 것을 알고 있지만 wget이 html 페이지를 1~2초 동안 로드한 다음 페이지를 계속 다운로드하도록 하는 방법이 있습니까?
암호:
다음은 내가 원하는 페이지에 대한 링크 역할을 하는 HTML 코드입니다.
<form name="PrimarySearch" id="PrimarySearch" action="http://www.dec.ny.gov/cfmx/extapps/derexternal/spills/details.cfm?pageid=2" method="post" onsubmit="return _CF_checkPrimarySearch(this)">
<p>
There are two ways to search the database: by spill number or by other search criteria.
Entering a spill number will provide the full record for one spill.
Entering other search criteria will provide a list of spills that meet the criteria,
with partial information about each.
</p>
<div>
<label for="spill_num" id="spill_num">
<strong>Search method #1:</strong> Enter a spill number:
</label>
<script type="text/javascript">
<!--
document.write('<input type="hidden" name="bjavascriptEnabled" value="1">');
-->
</script>
<input name="spill_num" id="spill_num" type="text" value="1409515"/>
<input type="hidden" name="pageID" value="2">
<input type="Submit" value="Submit">
</div>
</form>
<script>document.getElementById('PrimarySearch').submit();</script>
따라서 이 html 파일을 실행하면얻다그리고-나, 안에 있을 거예요HTML 코드, html 파일을 실행하지도 않습니다.
질문:
wget이 내 html 파일을 URL로 사용하고 로드하여 다운로드하도록 할 수 있나요?
이 자료가 최대한 빨리 필요하기 때문에 최대한 빨리 답변해주시면 감사하겠습니다.
감사해요!
하와론
답변1
전체 문제를 해결한 --post-file 및 --post-data를 언급한 @JeffSchaller에게 큰 감사를 드립니다.
일반적인 "게시" 방법 페이지를 사용할 수 있습니다(http://www.dec.ny.gov/cfmx/extapps/derexternal/spills/details.cfm?pageid=2) 얻으려면얻다액세스하고 싶은 값을 입력했지만 사이트 검색에 의해 차단된 "get" 메소드를 통해 해당 값에 액세스할 수 없습니다. 이전에 사용했던 html 코드를 포기했습니다얻다HTML 파일은 처리되지 않습니다.
암호:
부인 성명:--no-parent, --convert-links 및 --html-extension 없이 wget을 시도하지 않았지만 그중 하나, 일부 또는 전부가 도움이 되었습니다.얻다로컬 HTML 파일로 페이지
wget --no-parent --convert-links --html-extension --post-data 'spill_num=1409515' http://www.dec.ny.gov/cfmx/extapps/derexternal/spills/details.cfm?pageid=2
그러면 페이지가 로컬 HTML 파일로 다운로드됩니다. 페이지를 가져올 수 있지만 형식이 지정되지 않아 파일이 공백으로 렌더링되는 문제가 해결되었습니다.
하와론