예를 들어 특정 경로가 있는 문서에서만 이미지를 가져오고 싶습니다.
example.com/uploads/287167/file_name.jpg
업로드/번호/파일 이름이 있는 콘텐츠만 크롤링합니다.
나는 현재 이 일을 하고 있습니다:
wget http://example.com/news/36843 -q -O - | sed -n -e"s%^.*\(http://example.com/uploads/[0-9][^ \"\']*\.jpg\).*$%\1%p" | xargs wget -q
다른 방법이 있나요?
답변1
이렇게 하는 것이 더 쉬울 것입니다:
wget http://example.com/news/36843 -q -O - \
| grep -Eo 'http://example.com/uploads/[0-9]+/[^"]+\.jpg' \
| wget -i -
의 경우 -A
jpg 파일을 필터링할 수 있습니다. 필요한 경로를 필터링하려면 -I
. 하지만 재귀 모드에서만 작동하므로 원하는 것보다 더 많이 다운로드할 수 있습니다.
wget http://example.com/news/36843 -r --level 1 -A jpg -I "/uploads/[0-9]*"
검증되지 않은.