컬을 사용하여 웹사이트 페이지에 사용된 이미지 목록을 얻는 방법

Question

예를 보여주기 위해 사용할 수 있습니다 wget. 모든 이미지가 포함된 목록을 가져온 다음 (필요한 경우) 다음에서 모든 이미지를 다운로드해 보겠습니다.이 웹사이트

1) wget을 사용하여 색인 페이지를 다운로드합니다.

wget -k https://www.pexels.com/

k로컬 링크를 글로벌 링크로 변환하는 옵션(매우 중요)

2) 이제 필요한 정보를 파헤쳐보겠습니다. 먼저, throw를 필터링하여 태그가 있는 행만 grep img가져옵니다 <img>. 두 번째 grep은 정규식을 사용하여 링크 주소를 가져옵니다. 문자 sed뒤의 링크에서 매개변수를 잘라냅니다 ?. 마지막으로 링크를 link.txt에 저장하세요.

cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt

3) 이제 모든 이미지를 쉽게 다운로드할 수 있습니다

wget -i links.txt

파이프 세트를 사용하여 링크를 다운로드하고 처리할 수 있지만 curl필요에 따라 다음을 사용합니다.

curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt

Answer 1