웹사이트를 스크랩하려고 하는데 wget이 모든 링크(동일한 도메인 내)를 재귀적으로 따르기를 원하지만 해당 URL이 특정 패턴과 일치하는 경우에만 페이지를 다운로드합니다.
나는 다음과 같은 것을 시도했습니다 :
wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'
'가 포함된 파일만 다운로드합니다.https://www.abc.def/g/h/. *' 패턴. 그러나 다른 링크를 전혀 따라가려고 하지 않습니다.
어떤 아이디어가 있나요?
미리 감사드립니다!