httrack

프레임이 있는 웹사이트를 반복적으로 다운로드
httrack

프레임이 있는 웹사이트를 반복적으로 다운로드

프레임 내의 링크와 해당 프레임 내의 추가 링크를 사용하는 웹 사이트의 특정 페이지를 반복적으로 다운로드할 수 없습니다. 온라인 중국어 어원 사전인 中文网에서 나온 것입니다. 일반적인 페이지의 HTML은 다음과 같습니다. <FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*> <FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=ma...

Admin

PHP에서 wget 또는 CURL을 사용하여 URL에 별표 *가 있는 웹 페이지 스냅샷을 가져오는 방법은 무엇입니까? (Wayback Machine archive.org 문제)
httrack

PHP에서 wget 또는 CURL을 사용하여 URL에 별표 *가 있는 웹 페이지 스냅샷을 가져오는 방법은 무엇입니까? (Wayback Machine archive.org 문제)

Wayback Machine(archive.org)의 다음 페이지에는 URL에 별표*가 있습니다. https://web.archive.org/web/*/https://www.nasa.gov/ CURL이나 wget 모두 페이지를 긁어내는 것을 허용하지 않습니다. 저는 최신 버전의 Linux Mint(2018)를 사용하고 있습니다. PHP에서 wget 또는 CURL을 사용하여 URL에 별표 *가 있는 웹 페이지의 스냅샷을 얻는 방법, 구체적으로https://web.archive.org/web/*/ht...

Admin

웹사이트를 오프라인으로 다운로드할 때 링크의 GET 변수 무시
httrack

웹사이트를 오프라인으로 다운로드할 때 링크의 GET 변수 무시

간단히 말해서, 내가 다운로드하는 사이트에 대한 모든 링크는 로 시작합니다 &sid=335345346fdsfdsfs. 이는 계속 변경되어 index.html다른 많은 페이지에도 동일한 콘텐츠가 생성됩니다. 이런 문제를 해결한 사람이 있는지 궁금합니다. 나에게 필요한 것은 입니다 sed -e 's/&sid=.*$//g'. 따라서 도구는 인터넷에서 링크를 가져옵니다.http://foo.bar/&sid=yada 전처리http://foo.bar 이미 존재하는지 확인하고 그에 따라 ...

Admin

미러 스택 교환에는 외부 미러가 포함됩니다.
httrack

미러 스택 교환에는 외부 미러가 포함됩니다.

이 스크립트는 영향을 받는 모든 문제를 포함하여 오프라인으로 읽을 수 있는 모든 활성 페이지를 보관하는 미러 폴더를 생성합니다. #!/bin/bash USERNAME=rubo77 MAXDEPTH=2 # increase this if you want to backup more of your history USERID=1047481 mkdir -p mirror_$USERNAME cd mirror_$USERNAME/ TEMP=/tmp/tmp.stackexchange_export wget http://s...

Admin