웹 크롤러 제한

Question

시도 해봐mod_qos아파치 모듈. 현재 버전에는 다음과 같은 제어 메커니즘이 있습니다.

위치/리소스(URL) 또는 가상 호스트에 대한 최대 동시 요청 수입니다.
초당 허용되는 최대 URL 요청 수 또는 초당 다운로드되는 최대/최소 킬로바이트와 같은 대역폭 제한.
초당 요청 이벤트 수를 제한합니다(특별 요청 조건). 또한 웹 서버에 대한 액세스가 제한되지 않거나 덜 제한된 VIP(Very 중요한 사람)를 "탐지"할 수도 있습니다.
승인되지 않은 작업을 거부하는 일반 요청 라인 및 헤더 필터입니다.
본문 데이터 제한 및 필터링을 요청합니다(mod_parp 필요).
단일 IP 소스 주소에서 허용되는 최대 연결 수 또는 동적 연결 유지 제어와 같은 TCP 연결 수준 제한.
서버에 사용 가능한 TCP 연결이 부족하면 잘 알려진 IP 주소가 선호됩니다.

문서에 있는 이 예제 조건부 규칙을 사용하면 올바른 방향으로 나아갈 수 있습니다.

# set the conditional variable to spider if detecting a
# "slurp" or "googlebot" search engine:
BrowserMatch             "slurp"                  QS_Cond=spider
BrowserMatch             "googlebot"              QS_Cond=spider

# limits the number of concurrent requests to two applications
# (/app/b and /app/c) to 300 but does not allow access by a "spider"
# if the number of concurrent requests exceeds the limit of 10:
QS_LocRequestLimitMatch       "^(/app/b/|/app/c/).*$"  300
QS_CondLocRequestLimitMatch   "^(/app/b/|/app/c/).*$"  10   spider

Answer 1

시도 해봐mod_qos아파치 모듈. 현재 버전에는 다음과 같은 제어 메커니즘이 있습니다.

위치/리소스(URL) 또는 가상 호스트에 대한 최대 동시 요청 수입니다.
초당 허용되는 최대 URL 요청 수 또는 초당 다운로드되는 최대/최소 킬로바이트와 같은 대역폭 제한.
초당 요청 이벤트 수를 제한합니다(특별 요청 조건). 또한 웹 서버에 대한 액세스가 제한되지 않거나 덜 제한된 VIP(Very 중요한 사람)를 "탐지"할 수도 있습니다.
승인되지 않은 작업을 거부하는 일반 요청 라인 및 헤더 필터입니다.
본문 데이터 제한 및 필터링을 요청합니다(mod_parp 필요).
단일 IP 소스 주소에서 허용되는 최대 연결 수 또는 동적 연결 유지 제어와 같은 TCP 연결 수준 제한.
서버에 사용 가능한 TCP 연결이 부족하면 잘 알려진 IP 주소가 선호됩니다.

문서에 있는 이 예제 조건부 규칙을 사용하면 올바른 방향으로 나아갈 수 있습니다.

# set the conditional variable to spider if detecting a
# "slurp" or "googlebot" search engine:
BrowserMatch             "slurp"                  QS_Cond=spider
BrowserMatch             "googlebot"              QS_Cond=spider

# limits the number of concurrent requests to two applications
# (/app/b and /app/c) to 300 but does not allow access by a "spider"
# if the number of concurrent requests exceeds the limit of 10:
QS_LocRequestLimitMatch       "^(/app/b/|/app/c/).*$"  300
QS_CondLocRequestLimitMatch   "^(/app/b/|/app/c/).*$"  10   spider

웹 크롤러 제한

답변1

관련 정보