매뉴얼 wget
페이지에는 매개변수 섹션 아래에 다음과 같이 나와 있습니다 --random-wait
.
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
나는 이 기사의 사본을 읽고 싶었고 그것을 확인하기 위해 인터넷에서 여러 검색을 수행했습니다. 그러나 이러한 검색을 통해 내가 찾을 수 있는 것은 wget
다른 웹사이트에 호스팅된 매뉴얼 페이지와 주제와 전혀 관련이 없는 몇 가지 다른 연구 논문뿐이었습니다.
어떤 기사가 인용되었는지, 어디서 사본을 얻을 수 있는지 아는 사람이 있나요?
답변1
직접적인 답변은 아니고 이 부분이 커밋에 소개된 부분이라고 밝히 git blame
더라도git log
2c41d783Hrvoje Niksic이라는 커미터 가 작성했습니다 hniksic
. 그의 이메일 주소는 wget 파일에서 찾을 수 있습니다 ChangeLog
(명백한 이유로 여기에 게시하지 않겠습니다). 아마도 그 사람이 더 적절한 답변을 줄 수 있는 가장 좋은 사람일 것이기 때문에 그 사람에게 직접 물어보는 것이 좋습니다. 그 과정에서 그에 맞게 맨페이지를 업데이트할 것인지 물어볼 수도 있습니다. ;)
답변2
내 생각엔 이 글이 아닐까 싶다.
기본 SAS를 사용하여 웹 로그에서 의미 있는 데이터 생성
클래스 C 범위 차단을 논의하는 단락이 있습니다.
IP 주소가 구성 요소로 나누어지면 IP 주소 범위 필터링이 간단해집니다. 유형 B 필터는 168.126.xx.xx와 같은 처음 두 옥텟에서 작동합니다. 이는 위 코드 예제의 변수 Onetwo입니다. 클래스 C 범위는 전체 서버를 대상으로 하고 168.126.56.xx와 같은 4개의 옥텟 중 3개를 사용하기 때문에 더 일반적으로 사용됩니다. 위의 코드 예에서는 Usrhost가 웹 로그의 TCP/IP 주소 값이므로 이 필드는 3입니다.
wget
사용자 에이전트 문자열 기반 차단에서 언급한 바와 같이:
사용자 에이전트 문자열 식별을 위해 우리가 선호하는 방법은 색인화된 패턴 일치 기능을 활용합니다. 예를 들어:
if index(lowcase(agentstr), 'keynote') or index(lowcase(agentstr), 'sureseeker') or index(lowcase(agentstr), 'wget') or
다섯번째 결과입니다2001년부터 "로그 분석 wget"에 대한 Google 검색.