웹사이트 페이지에 사용 가능한 모든 이미지를 가져오는 방법.
여기에서는 웹 페이지의 모든 HTML 코드를 가져오기 위해 컬을 사용합니다.
curl http://www.xyztest.com
이 웹페이지에 사용된 이미지 목록을 어떻게 얻을 수 있나요?
답변1
예를 보여주기 위해 사용할 수 있습니다 wget
. 모든 이미지가 포함된 목록을 가져온 다음 (필요한 경우) 다음에서 모든 이미지를 다운로드해 보겠습니다.이 웹사이트
1) wget을 사용하여 색인 페이지를 다운로드합니다.
wget -k https://www.pexels.com/
k
로컬 링크를 글로벌 링크로 변환하는 옵션(매우 중요)
2) 이제 필요한 정보를 파헤쳐보겠습니다. 먼저, throw를 필터링하여 태그가 있는 행만 grep img
가져옵니다 <img>
. 두 번째 grep은 정규식을 사용하여 링크 주소를 가져옵니다. 문자 sed
뒤의 링크에서 매개변수를 잘라냅니다 ?
. 마지막으로 링크를 link.txt에 저장하세요.
cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt
3) 이제 모든 이미지를 쉽게 다운로드할 수 있습니다
wget -i links.txt
파이프 세트를 사용하여 링크를 다운로드하고 처리할 수 있지만 curl
필요에 따라 다음을 사용합니다.
curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt