전체 웹사이트를 크롤링하려면 다음 명령이 작동해야 한다는 것을 확인했습니다.
wget --spider -r https://wikipedia.org/
하지만 내 질문은 전체 웹사이트를 크롤링하는 동일한 명령이 Wikipedia에서 작동하지 않는 이유입니다.
내 목표는 Wikipedia 전체를 크롤링하는 것이 아니라 차이점을 이해하는 것입니다.
다음은 명령의 출력입니다.
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56-- http://wikipedia.org/
Resolving wikipedia.org (wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:80... connected.
HTTP request sent, awaiting response... 301 TLS Redirect
Location: https://wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56-- https://wikipedia.org/
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56-- https://www.wikipedia.org/
Resolving www.wikipedia.org (www.wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to www.wikipedia.org (www.wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Remote file exists and could contain links to other resources -- retrieving.
--2016-08-31 17:53:56-- https://www.wikipedia.org/
Reusing existing connection to www.wikipedia.org:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘wikipedia.org/index.html’
[ <=> ] 81 292 --.-K/s in 0,03s
2016-08-31 17:53:57 (2,44 MB/s) - ‘wikipedia.org/index.html’ saved [81292]
Removing wikipedia.org/index.html.
Found no broken links.
FINISHED --2016-08-31 17:53:57--
Total wall clock time: 0,2s
Downloaded: 1 files, 79K in 0,03s (2,44 MB/s)
답변1
다음은 FAQ( wget
Wikipedia용)입니다.
기본적으로 Wget은 잘 실행되는 웹 스파이더 역할을 하며 사이트의
robots.txt
파일과 규칙을 존중합니다.no-follow
속성.
2005년 1월 18일 Google 블로그 게시물 "댓글 스팸 방지"에는 Google이 이를 존중할 것이라고 명시되어 있습니다.
rel="nofollow"
하이퍼링크의 속성. 페이지 순위 알고리즘은 이제 대상 페이지 순위를 매길 때 이 속성이 있는 링크를 무시합니다. 의도된 결과는 웹마스터가 사용자 게시 링크를 수정하여 이 속성이 존재하도록 할 수 있으므로 Google이 해당 사이트에 링크를 게시하여 폭탄을 터뜨리려고 해도 해당 링크가 증가하지 않도록 하는 것입니다.
요점은 Wikipedia가 이러한 행위를 방지하기 위해 사이트를 설정했다는 것입니다.