프레임이 있는 웹사이트를 반복적으로 다운로드

프레임이 있는 웹사이트를 반복적으로 다운로드

프레임 내의 링크와 해당 프레임 내의 추가 링크를 사용하는 웹 사이트의 특정 페이지를 반복적으로 다운로드할 수 없습니다. 온라인 중국어 어원 사전인 中文网에서 나온 것입니다.

일반적인 페이지의 HTML은 다음과 같습니다.

<FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*>
    <FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=mainFrame>
    <FRAMESET BORDER=1 FRAMEBORDER=1 COLS=250,*>
      <FRAME frameborder=no NORESIZE SRC=http://zhongwen.com/s/bushou.htm NAME=f1>
      <FRAME NORESIZE SRC=http://zhongwen.com/d/198/x126.htm NAME=f2>  
    </FRAMESET>
</FRAMESET> 

프레임 내에서 메인 링크는 다음과 같습니다.http://zhongwen.com/d/198/x126.htm, HTML이 포함되어 있습니다.

<head>
<FRAMESET border=1 framespacing=0 frameborder=1 COLS="245,*">
<FRAME SRC="**../../d/198/d126.htm**" NAME="f3">
<!--
<FRAME MARGINHEIGHT=0 SRC="../../t/115.htm#23" NAME="f4">
-->
<FRAME SRC="../../d/198/t126.htm" NAME="f4"></FRAMESET>
</head>
</MAP></MAP>

몇 가지 추가 링크가 있으며 그 중 하나는 다음과 같습니다.http://zhongwen.com/d/198/x126.htm, HTML 포함:

<head><base target="f2"></head>
<BODY bgcolor="FFFFFF">
<A NAME="23"></A>
<IMG border=0 src="http://zhongwen.com/d/198/d126.gif" USEMAP="#a">
... 

wget과 httrack을 사용해 보았지만 둘 다 초기 페이지만 다운로드했습니다. 이전에 질문한 이 질문에 대한 답변은 도움이 되지 않았으며 매뉴얼 페이지에는 옵션이 없습니다.

httrack -Y --near -%P -*p3 -r9999 -B http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F

wget --restrict-file-names=nocontrol --ignore-length --html-extension --tries=3 --timeout=30 --no-http-keep-alive --cookies=off --page-requisites --convert-links -m -H --follow-tags=FRAME,IMG http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F

다른 시도를 제안할 수 있는 사람이 있습니까? 아니면 제가 뭔가 잘못하고 있는 경우입니까?

감사해요

답변1

시도해 wget2보고 알아차렸어요로봇.txt그리고 다른 것:

Disallow: /s/
Disallow: /d/

도메인 소유자의 규칙을 존중해야 하며 다음과 같은 경우에만 이 확인을 꺼야 합니다.매우아주 좋은 이유입니다. 경로가 차단되지 않으면 wget(로봇)이 경로를 검색합니다.

관련 정보