크롤링 문제 발생

크롤링 문제 발생

전체 웹사이트를 크롤링하려면 다음 명령이 작동해야 한다는 것을 확인했습니다.

wget  --spider -r https://wikipedia.org/

하지만 내 질문은 전체 웹사이트를 크롤링하는 동일한 명령이 Wikipedia에서 작동하지 않는 이유입니다.

내 목표는 Wikipedia 전체를 크롤링하는 것이 아니라 차이점을 이해하는 것입니다.

다음은 명령의 출력입니다.

Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56--  http://wikipedia.org/
Resolving wikipedia.org (wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:80... connected.
HTTP request sent, awaiting response... 301 TLS Redirect
Location: https://wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56--  https://wikipedia.org/
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56--  https://www.wikipedia.org/
Resolving www.wikipedia.org (www.wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to www.wikipedia.org (www.wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Remote file exists and could contain links to other resources -- retrieving.

--2016-08-31 17:53:56--  https://www.wikipedia.org/
Reusing existing connection to www.wikipedia.org:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘wikipedia.org/index.html’

    [ <=>                                                                                                                                                                                                                                   ] 81 292      --.-K/s   in 0,03s   

2016-08-31 17:53:57 (2,44 MB/s) - ‘wikipedia.org/index.html’ saved [81292]

Removing wikipedia.org/index.html.

Found no broken links.

FINISHED --2016-08-31 17:53:57--
Total wall clock time: 0,2s
Downloaded: 1 files, 79K in 0,03s (2,44 MB/s)

답변1

다음은 FAQ( wgetWikipedia용)입니다.

기본적으로 Wget은 잘 실행되는 웹 스파이더 역할을 하며 사이트의 robots.txt파일과 규칙을 존중합니다.no-follow속성.

2005년 1월 18일 Google 블로그 게시물 "댓글 스팸 방지"에는 Google이 이를 존중할 것이라고 명시되어 있습니다.rel="nofollow"하이퍼링크의 속성. 페이지 순위 알고리즘은 이제 대상 페이지 순위를 매길 때 이 속성이 있는 링크를 무시합니다. 의도된 결과는 웹마스터가 사용자 게시 링크를 수정하여 이 속성이 존재하도록 할 수 있으므로 Google이 해당 사이트에 링크를 게시하여 폭탄을 터뜨리려고 해도 해당 링크가 증가하지 않도록 하는 것입니다.

요점은 Wikipedia가 이러한 행위를 방지하기 위해 사이트를 설정했다는 것입니다.

관련 정보