"자동 검색 프로그램"을 방지하는 wget 매뉴얼 페이지에 언급된 "2001 기사"는 무엇입니까?

"자동 검색 프로그램"을 방지하는 wget 매뉴얼 페이지에 언급된 "2001 기사"는 무엇입니까?

매뉴얼 wget페이지에는 매개변수 섹션 아래에 다음과 같이 나와 있습니다 --random-wait.

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

나는 이 기사의 사본을 읽고 싶었고 그것을 확인하기 위해 인터넷에서 여러 검색을 수행했습니다. 그러나 이러한 검색을 통해 내가 찾을 수 있는 것은 wget다른 웹사이트에 호스팅된 매뉴얼 페이지와 주제와 전혀 관련이 없는 몇 가지 다른 연구 논문뿐이었습니다.

어떤 기사가 인용되었는지, 어디서 사본을 얻을 수 있는지 아는 사람이 있나요?

답변1

직접적인 답변은 아니고 이 부분이 커밋에 소개된 부분이라고 밝히 git blame더라도git log2c41d783Hrvoje Niksic이라는 커미터 가 작성했습니다 hniksic. 그의 이메일 주소는 wget 파일에서 찾을 수 있습니다 ChangeLog(명백한 이유로 여기에 게시하지 않겠습니다). 아마도 그 사람이 더 적절한 답변을 줄 수 있는 가장 좋은 사람일 것이기 때문에 그 사람에게 직접 물어보는 것이 좋습니다. 그 과정에서 그에 맞게 맨페이지를 업데이트할 것인지 물어볼 수도 있습니다. ;)

답변2

내 생각엔 이 글이 아닐까 싶다.

기본 SAS를 사용하여 웹 로그에서 의미 있는 데이터 생성

클래스 C 범위 차단을 논의하는 단락이 있습니다.

IP 주소가 구성 요소로 나누어지면 IP 주소 범위 필터링이 간단해집니다. 유형 B 필터는 168.126.xx.xx와 같은 처음 두 옥텟에서 작동합니다. 이는 위 코드 예제의 변수 Onetwo입니다. 클래스 C 범위는 전체 서버를 대상으로 하고 168.126.56.xx와 같은 4개의 옥텟 중 3개를 사용하기 때문에 더 일반적으로 사용됩니다. 위의 코드 예에서는 Usrhost가 웹 로그의 TCP/IP 주소 값이므로 이 필드는 3입니다.

wget사용자 에이전트 문자열 기반 차단에서 언급한 바와 같이:

사용자 에이전트 문자열 식별을 위해 우리가 선호하는 방법은 색인화된 패턴 일치 기능을 활용합니다. 예를 들어:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

다섯번째 결과입니다2001년부터 "로그 분석 wget"에 대한 Google 검색.

관련 정보