특정 지역 페이지에 링크된 모든 페이지 다운로드

특정 지역 페이지에 링크된 모든 페이지 다운로드

내 것을 다운로드하고 싶어요Unix 및 Linux 사용자 활동 페이지wget활동 목록에 링크된 모든 페이지 .

나는 노력했다

wget -m -l 2 

사이트를 재귀적으로 미러링해야 하지만 최대 한 수준까지만 미러링할 수 있지만 이는 좋은 솔루션이 아닙니다. 특히 스타일시트가 올바르게 다운로드되지 않았습니다.

필요한 모든 CSS와 이미지를 다운로드하고 이러한 문제 간의 링크를 로컬에서 그대로 유지하는 솔루션이 있습니까? 완벽한 해결책은 이러한 다운로드 문제에 대해 댓글 등 모든 것이 손상되지 않았음을 보여주는 것입니다.

관련된:

답변1

이와 같은 것이 httrack당신이 원하는 것을 할 것입니다.

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* -r2

이는 페이지 페이지 매기기의 첫 번째 페이지를 지나 계속되지 않습니다. 그렇게 되도록 수정할 수도 있습니다. 페이지가 매겨진 페이지를 반복할 수도 있습니다.

위의 내용은 2개 레벨( -r2)을 다운로드하고 경로가 포함되지 않은 모든 페이지를 무시합니다 *question*.

이 접근 방식에 대한 의견

이러한 유형의 다운로드의 경우 페이지를 로컬로 유지하는 데 필요한 모든 것이 있는지 확인하기 위해 더 복잡한 명령을 몇 번 실행해야 할 수도 있습니다. 하지만 걱정하지 마십시오. httrack동일한 디렉터리에서 계속 실행할 수 있으며 개별 부분을 다운로드한 것을 감지하고 건너뛰거나 적절한 경우 업데이트합니다.

노트:-*이는 모든 것을 명시적으로 제외 하고 선택적으로 콘텐츠를 다시 추가하는 우리가 사용한 접근 방식의 부산물입니다 +.... 언제든지 인터넷을 더 넓게 퍼뜨려 httrack더 많이 다운로드하라고 말할 수 있지만 그러면 더 많은 데이터를 끌어들이게 됩니다.

반복 다운로드

예를 들어, 여기서는 끌어내리려는 다른 파일을 식별할 때 여러 번 실행합니다.

#1 실행
$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:01:35 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!
실행 #2
$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* +*googleapis* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:03:05 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* +*googleapis* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!

httrack위에서 Stack Exchange가 GoogleAPI를 사용한다는 사실을 발견했습니다. 따라서 해당 사이트에서 파일을 다운로드하는 방법 도 알 수 있도록 이를 필터 체인에 추가해야 합니다 .

나는 일반적 grep으로 파일을 보고 모든 것이 있는지 확인하거나 웹 브라우저의 "소스 보기" 기능을 사용하여 로컬 시스템이 아닌 다른 사이트에서 여전히 오는 URL을 확인합니다.

노트:Chrome을 사용하여 Chrome에서 다운로드한 결과를 열고 file:///path/to/httrack/download/index.html콘텐츠를 탐색할 수 있습니다.

인용하다

답변2

(Windows에서)라는 소프트웨어를 사용할 수 있습니다 black widow. 이 소프트웨어에는 웹 사이트의 일부를 하드 드라이브에 다운로드할 수 있는 GUI가 있습니다.

흑인 과부

관련 정보