어딘가에서 콘텐츠 다운로드wget 사용

어딘가에서 콘텐츠 다운로드wget 사용

특정 ImageBam 갤러리에서 모든 이미지를 다운로드하려고 합니다. 나는 이것을 시도한다:

wget -P pics -H -nd -r -A '.jpg,.jpeg,.png,.gif,' -erobots=off http://www.imagebam.com/gallery/hwtfu6m7es3gun1emmpy2uheohrcckmt/

하지만 전체 웹사이트를 다운로드합니다. 필요한 것은 <div>썸네일과 원본 이미지가 포함된 것뿐입니다. <div>전체 웹사이트 대신 웹사이트의 콘텐츠를 다운로드하는 스크립트를 만드는 것이 가능합니까 ?

답변1

이 문제는 전체 그림이 상위 트리 아래에 없기 때문에 어렵습니다. 따라서 이러한 경로를 사이트의 다른 경로와 구별하기가 어렵습니다. 또한 전체 이미지에 대한 링크는 실제로 전체 해상도 이미지가 포함된 페이지에 대한 링크입니다. 더 우아한 솔루션이 있을 수 있지만 여기에는 이를 수행하는 방법이 있습니다.

#!/bin/bash
wget -np http://www.imagebam.com/gallery/hwtfu6m7es3gun1emmpy2uheohrcckmt/
grep HTML-Code index.html > html_code
grep -E -o 'http://thumbnails[^"]+' html_code > thumb_urls
grep -E -o 'http://www[^"]+' html_code > image_pages
wget -i thumb_urls
wget -P image_pages_dir -i image_pages
for file in image_pages_dir/*
do
    echo $file
    grep -m 1 -o -E 'http://.*jpg' $file >> full_image_urls
done
wget -i full_image_urls

관련 정보