Wget을 사용하여 웹사이트를 크롤링하고 URL 패턴으로 필터링

2024-5-28 • tag-icon

웹사이트를 스크랩하려고 하는데 wget이 모든 링크(동일한 도메인 내)를 재귀적으로 따르기를 원하지만 해당 URL이 특정 패턴과 일치하는 경우에만 페이지를 다운로드합니다.

나는 다음과 같은 것을 시도했습니다 :

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

'가 포함된 파일만 다운로드합니다.https://www.abc.def/g/h/. *' 패턴. 그러나 다른 링크를 전혀 따라가려고 하지 않습니다.

어떤 아이디어가 있나요?

미리 감사드립니다!

관련 정보