파일을 다운로드하지 않고 Wget 크롤링

파일을 다운로드하지 않고 Wget 크롤링

저는 단지 이 패턴과 일치하는 URL이 몇 개나 되는지 계산하고 싶습니다 x--*.html. 이 경우 아래에서 일치하는 모든 파일이 다운로드됩니다.

$ wget --random-wait --mirror --no-parent -A x--*.html myBaseURL &

단지 숫자를 세고 싶은데, 이 모든 페이지를 전송하지 않도록 할 수 있는 방법이 있나요?

노트:명령이 있다는 것을 알고 있지만 --delete-after여전히 전송됩니다.

어떤 아이디어가 있나요?

답변1

나는 이것을 할 수 있는 방법이 없다고 믿습니다. 따라야 할 다른 링크가 있는지 확인하기 위해 이러한 파일의 내용을 분석하려면 해당 wget파일을 다운로드해야 합니다.

최선의 선택은 아마도 다음과 같이 하는 것입니다:

$ wget --random-wait --mirror --no-parent -A x--*.html myBaseURL -O /dev/null &

일치하는 횟수를 계산합니다.

wget --random-wait --mirror --no-parent -A x--*.html myBaseURL -O | wc -l

관련 정보