텀블러의 이전 페이지에서 이미지를 다운로드하고 싶습니다.
예를 들어http://landscapes.tumblr.com/page/7
이 페이지를 브라우저(파이어폭스와 크롬을 사용해 보았습니다)에서 로드하면 정확히 15개의 이미지가 있지만, wget을 사용하여 다운로드하려고 하면 60개의 이미지가 표시됩니다(7-11페이지에 해당). 내가 다운로드하는 데 사용한 명령은
wget -H -k -p -R "*avatar*" -A '.jpeg,.jpg,.bmp,.gif,.png' -np -nd -N -erobots=off -i http://landscapes.tumblr.com/page/7
wget이 인수로 제공된 것보다 더 많은 페이지를 다운로드하는 이유와 한 페이지만 다운로드하도록 만드는 방법을 설명할 수 있습니까? 미리 감사드립니다.
답변1
~에서wget 매뉴얼:
-i file
--input-file=file
로컬 또는 외부에서 URL 읽기문서.
[...]
-p
--page-requisites
이 옵션을 사용하면 Wget이 지정된 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하게 됩니다. 여기에는 인라인 이미지, 사운드, 참조 스타일 시트 등이 포함됩니다.
명령에 두 가지가 모두 포함되어 있으므로 원본 페이지, 해당 페이지에 연결된 모든 항목(모든 후속 페이지 포함) 및 각 페이지에 필요한 모든 항목을 검색합니다.
이를 제거한 후에는 -i
원본 페이지에서 필요한 콘텐츠만 가져옵니다.