Wget을 사용하여 웹사이트를 크롤링하고 URL 패턴으로 필터링

Wget을 사용하여 웹사이트를 크롤링하고 URL 패턴으로 필터링

웹사이트를 스크랩하려고 하는데 wget이 모든 링크(동일한 도메인 내)를 재귀적으로 따르기를 원하지만 해당 URL이 특정 패턴과 일치하는 경우에만 페이지를 다운로드합니다.

나는 다음과 같은 것을 시도했습니다 :

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

'가 포함된 파일만 다운로드합니다.https://www.abc.def/g/h/. *' 패턴. 그러나 다른 링크를 전혀 따라가려고 하지 않습니다.

어떤 아이디어가 있나요?

미리 감사드립니다!

관련 정보