나는 다음과 같이 전체 크기 이미지에 대한 모든 링크를 얻기 위해 wget을 사용하여 온라인 갤러리의 모든 HTML 페이지를 다운로드하고 있습니다.
wget --wait=3 --user-agent=Webtography --no-cookies --timestamping --recursive --level=2 --convert-links --no-parent --page-requirements --adjust-extension - -max-redirect=0 --exclude-directories=블로그http://example.com/jasper1123/a434784.html
사용자의 특정 갤러리에 있는 모든 페이지를 성공적으로 다운로드하고 다른 곳에서는 크롤링하지 않습니다. 훌륭합니다.
어떤 이미지도 가져오지 않습니다.
나는 wget을 사용하여 여러 갤러리에 대해 이 작업을 수행했는데 훌륭하게 작동했습니다. wget이 모든 것을 가져와 갤러리 내에 보관하도록 하려면 약간의 노력이 필요했습니다(예: example.com/jasper1123).
다운로드 후 cat, sed, awk 명령을 사용하여 이미지 링크만 포함된 텍스트 파일을 만들었습니다.
이러한 이미지 링크를 배치 이미지 다운로더로 가져와 다운로드를 정렬된 상태로 유지할 계획입니다.
사이트를 이용하면서 겪는 문제는 다음과 같습니다.
전체 크기 이미지에 대한 링크는 표준 HTML이 아니며 다음과 같은 스크립트에 있습니다.
이미지 링크 스크립트:
var e='.jpg',t='b',i='14712583',h='0.us.is.example.com',s='/',n='WIV',u='jasper1123 /3/example.com_'+i+n.charAt(2)+n.charAt(0)+n.charAt(1) document.getElementById('big_pic').src='http://'+t +h+s+u.charAt(0)+s+u+e;
이미지에 대한 실제 링크:
http://b0.us.is.example.com/j/jasper1123/3/example.com_14712583VWI.jpg
내 질문:
링크 스크립트를 실제 링크로 변환하는 방법이 있나요?
일괄 처리로 이 작업을 수행하고 싶습니다. 터미널 명령을 사용하면 모든 링크 스크립트를 텍스트 파일로 처리하는 것이 좋습니다.
지금 생각나는 유일한 해결책은 텍스트 파일을 Libre Calc로 가져와 수식을 사용하여 변환하는 것입니다.
어떤 아이디어가 있나요?
매우 감사합니다.