AWK를 사용하여 열의 중복 읽기

Question 1

GNU awk를 사용하여 mktime()을 실행합니다.

$ cat tst.awk
BEGIN { FS = "|" }
(++count[$2]) ~ /^[15]$/ {
    split($1,t,"[/:]")
    monthNr = (index("JanFebMarAprMayJunJulAugSepOctNovDec",t[2])+2)/3
    currSecs = mktime(t[3] " " monthNr " " t[1] " " t[4] " " t[5] " " t[6])

    if ( count[$2] == 1 ) {
        firstSecs[$2] = currSecs
    }
    else if ( (currSecs - firstSecs[$2]) < 15 ) {
        print $2
    }
}

$ awk -f tst.awk file
000.111.026.111
060.121.125.144

나는 이것이 무엇을 하고 있는지 매우 명확하다고 생각하므로 텍스트 설명을 추가할 필요가 없지만 질문이 있으면 언제든지 문의하십시오.

아, 특정 문제를 해결하는 데 충분할 보다 포괄적인 예를 게시할 수 있도록 IP 주소를 더미 값으로 변환하는 방법을 알고 싶다고 댓글에서 언급하셨습니다.

$ awk '
    BEGIN { FS=OFS="|" }
    !($2 in map) { ip=sprintf("%012d",++cnt); gsub(/.../,"&.",ip); sub(/.$/,"",ip); map[$2]=ip }
    { $2=map[$2]; print }
' file
29/Oct/2020:07:41:42|000.000.000.001|200|/page-a/
29/Oct/2020:08:30:40|000.000.000.002|200|/page-a/
29/Oct/2020:08:30:44|000.000.000.002|200|/page-b/
29/Oct/2020:08:30:45|000.000.000.002|200|/page-c/
29/Oct/2020:08:30:47|000.000.000.002|200|/page-d/
29/Oct/2020:08:30:47|000.000.000.003|200|/page-h/
29/Oct/2020:08:30:48|000.000.000.002|200|/page-e/
29/Oct/2020:07:41:49|000.000.000.004|200|/page-a/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-f/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-g/
29/Oct/2020:08:41:54|000.000.000.002|200|/page-k/
29/Oct/2020:08:41:55|000.000.000.005|200|/page-l/
29/Oct/2020:08:41:57|000.000.000.005|200|/page-n/
29/Oct/2020:08:41:58|000.000.000.005|200|/page-s/

편집: 내 스크립트에서 생성된 출력과 실행한 Daves 스크립트 버전에서 생성된 출력 간의 차이점 조사를 시작할 수 있습니다.

$ awk -f morton-botfilter.awk.txt output3test.csv > morton.out
$ awk -f dave-botfilter.awk.txt output3test.csv > dave.out
$ ip=$(comm -13 <(sort morton.out) <(sort dave.out) | head -1)
$ grep "$ip" output3test.csv | head -5
03/Nov/2020:07:52:55|000.000.000.007|200|/page-7/
03/Nov/2020:08:05:32|000.000.000.007|200|/page-11/
03/Nov/2020:11:28:56|000.000.000.007|200|/page-77/
03/Nov/2020:13:52:32|000.000.000.007|200|/page-143/
03/Nov/2020:13:52:33|000.000.000.007|200|/page-144/

위의 첫 번째 타임스탬프와 마지막 타임스탬프 사이의 간격이 15초를 훨씬 넘는다는 점에 유의하세요. 이는 dave-botfilter.awk.txt의 스크립트가 손상되었음을 나타냅니다. 자세한 내용은 아래 의견을 참조하세요.

Answer

GNU awk를 사용하여 mktime()을 실행합니다.

$ cat tst.awk
BEGIN { FS = "|" }
(++count[$2]) ~ /^[15]$/ {
    split($1,t,"[/:]")
    monthNr = (index("JanFebMarAprMayJunJulAugSepOctNovDec",t[2])+2)/3
    currSecs = mktime(t[3] " " monthNr " " t[1] " " t[4] " " t[5] " " t[6])

    if ( count[$2] == 1 ) {
        firstSecs[$2] = currSecs
    }
    else if ( (currSecs - firstSecs[$2]) < 15 ) {
        print $2
    }
}

$ awk -f tst.awk file
000.111.026.111
060.121.125.144

나는 이것이 무엇을 하고 있는지 매우 명확하다고 생각하므로 텍스트 설명을 추가할 필요가 없지만 질문이 있으면 언제든지 문의하십시오.

아, 특정 문제를 해결하는 데 충분할 보다 포괄적인 예를 게시할 수 있도록 IP 주소를 더미 값으로 변환하는 방법을 알고 싶다고 댓글에서 언급하셨습니다.

$ awk '
    BEGIN { FS=OFS="|" }
    !($2 in map) { ip=sprintf("%012d",++cnt); gsub(/.../,"&.",ip); sub(/.$/,"",ip); map[$2]=ip }
    { $2=map[$2]; print }
' file
29/Oct/2020:07:41:42|000.000.000.001|200|/page-a/
29/Oct/2020:08:30:40|000.000.000.002|200|/page-a/
29/Oct/2020:08:30:44|000.000.000.002|200|/page-b/
29/Oct/2020:08:30:45|000.000.000.002|200|/page-c/
29/Oct/2020:08:30:47|000.000.000.002|200|/page-d/
29/Oct/2020:08:30:47|000.000.000.003|200|/page-h/
29/Oct/2020:08:30:48|000.000.000.002|200|/page-e/
29/Oct/2020:07:41:49|000.000.000.004|200|/page-a/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-f/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-g/
29/Oct/2020:08:41:54|000.000.000.002|200|/page-k/
29/Oct/2020:08:41:55|000.000.000.005|200|/page-l/
29/Oct/2020:08:41:57|000.000.000.005|200|/page-n/
29/Oct/2020:08:41:58|000.000.000.005|200|/page-s/

편집: 내 스크립트에서 생성된 출력과 실행한 Daves 스크립트 버전에서 생성된 출력 간의 차이점 조사를 시작할 수 있습니다.

$ awk -f morton-botfilter.awk.txt output3test.csv > morton.out
$ awk -f dave-botfilter.awk.txt output3test.csv > dave.out
$ ip=$(comm -13 <(sort morton.out) <(sort dave.out) | head -1)
$ grep "$ip" output3test.csv | head -5
03/Nov/2020:07:52:55|000.000.000.007|200|/page-7/
03/Nov/2020:08:05:32|000.000.000.007|200|/page-11/
03/Nov/2020:11:28:56|000.000.000.007|200|/page-77/
03/Nov/2020:13:52:32|000.000.000.007|200|/page-143/
03/Nov/2020:13:52:33|000.000.000.007|200|/page-144/

위의 첫 번째 타임스탬프와 마지막 타임스탬프 사이의 간격이 15초를 훨씬 넘는다는 점에 유의하세요. 이는 dave-botfilter.awk.txt의 스크립트가 손상되었음을 나타냅니다. 자세한 내용은 아래 의견을 참조하세요.

Question 2

당신은 awk를 배우고 싶고 분명히 가지고 있기 때문에암소 비슷한 일종의 영양awk -f script <logfile다음 을 script포함하는 awk(gawk)

BEGIN{ split("Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec",n2m);
  for(i=1;i<=12;i++) m2n[n2m[i]]=i; FS="|"; }
function fixtime(str ,tmp){ split(str,tmp,"[:/]");
  return mktime(tmp[3] OFS m2n[tmp[2]] OFS tmp[1] OFS tmp[4] OFS tmp[5] OFS tmp[6]) }
++count[$2]==1 { first[$2]=fixtime($1) }
count[$2]==5 && fixtime($1)-first[$2]<15 { print $2 }

처음 두 줄은 1월을 1로, 2월을 2로 매핑하는 배열 m2n(월을 숫자로)을 설정하고 필드 구분 기호를 로 설정합니다 |. (등의 작업을 수행하는 대신 사용할 수 있지만 m2n["Jan"]=1; m2n["Feb"]=2;더 지루합니다.

/다음 두 줄은 all 및 구분 기호를 사용하여 시간 형식을 분할하고 :(먼저 공백으로 변환하지 않고) 월 이름을 숫자로 변환하고 필요에 따라 재정렬하고 mktime()(gawk 전용)에 제공하는 함수를 정의합니다. OFS 대신 텍스트를 사용할 수 있지만(기본값은 공백 1개이며 변경되지 않았습니다) " "저는 이것이 더 보기 흉하다고 생각합니다.

다섯 번째와 여섯 번째 줄이 발견되었습니다.첫 번째발생하고 해당 타임스탬프를 기억하는 모든 IPaddr다섯동일한 IPaddr이 발생하는지 감지하고 해당 타임스탬프를 기억된 타임스탬프와 비교하여 간격이 15초 미만인지 확인합니다. 어떤 사람들은 ;next다섯 번째와 여섯 번째 스크립트 줄이 동일한 레코드(예: 데이터 행)에서 실행되지 않는다는 점을 분명히 하기 위해 다섯 번째 줄의 작업에 하나를 추가하지만 저는 신경쓰지 않습니다.

양질의 교육 기금.

원하는 경우 '...'스크립트 파일을 사용하는 대신 전체 스크립트를 명령줄에 넣을 수 있지만 100자를 넘는 작업은 좋아하지 않습니다.

Answer

당신은 awk를 배우고 싶고 분명히 가지고 있기 때문에암소 비슷한 일종의 영양awk -f script <logfile다음 을 script포함하는 awk(gawk)

BEGIN{ split("Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec",n2m);
  for(i=1;i<=12;i++) m2n[n2m[i]]=i; FS="|"; }
function fixtime(str ,tmp){ split(str,tmp,"[:/]");
  return mktime(tmp[3] OFS m2n[tmp[2]] OFS tmp[1] OFS tmp[4] OFS tmp[5] OFS tmp[6]) }
++count[$2]==1 { first[$2]=fixtime($1) }
count[$2]==5 && fixtime($1)-first[$2]<15 { print $2 }

처음 두 줄은 1월을 1로, 2월을 2로 매핑하는 배열 m2n(월을 숫자로)을 설정하고 필드 구분 기호를 로 설정합니다 |. (등의 작업을 수행하는 대신 사용할 수 있지만 m2n["Jan"]=1; m2n["Feb"]=2;더 지루합니다.

/다음 두 줄은 all 및 구분 기호를 사용하여 시간 형식을 분할하고 :(먼저 공백으로 변환하지 않고) 월 이름을 숫자로 변환하고 필요에 따라 재정렬하고 mktime()(gawk 전용)에 제공하는 함수를 정의합니다. OFS 대신 텍스트를 사용할 수 있지만(기본값은 공백 1개이며 변경되지 않았습니다) " "저는 이것이 더 보기 흉하다고 생각합니다.

다섯 번째와 여섯 번째 줄이 발견되었습니다.첫 번째발생하고 해당 타임스탬프를 기억하는 모든 IPaddr다섯동일한 IPaddr이 발생하는지 감지하고 해당 타임스탬프를 기억된 타임스탬프와 비교하여 간격이 15초 미만인지 확인합니다. 어떤 사람들은 ;next다섯 번째와 여섯 번째 스크립트 줄이 동일한 레코드(예: 데이터 행)에서 실행되지 않는다는 점을 분명히 하기 위해 다섯 번째 줄의 작업에 하나를 추가하지만 저는 신경쓰지 않습니다.

양질의 교육 기금.

원하는 경우 '...'스크립트 파일을 사용하는 대신 전체 스크립트를 명령줄에 넣을 수 있지만 100자를 넘는 작업은 좋아하지 않습니다.

Question 3

#!/bin/bash
awk -v mon=$(locale abmon) -v FS='[/:|]' '
BEGIN           {for(n=split(mon, M, ";"); n; n--) Mn[M[n]]=n}
!A[$7]++        {IP[$7] = mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6)}
A[$7]==5 && mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6) - IP[$7] < 15 {print $7}
' file > bot_ip

-v mon=$(locale abmon)- 변수에는 mon다음 라인이 할당됩니다. Jan;Feb;Mar;Apr;May;Jun;Jul;Aug;Sep;Oct;Nov;Dec
for(n=split(mon, M, ";"); n; n--)- 이 함수는 루프 split에서 카운터를 시작하는 배열 요소의 수를 반환합니다.for

Answer

#!/bin/bash
awk -v mon=$(locale abmon) -v FS='[/:|]' '
BEGIN           {for(n=split(mon, M, ";"); n; n--) Mn[M[n]]=n}
!A[$7]++        {IP[$7] = mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6)}
A[$7]==5 && mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6) - IP[$7] < 15 {print $7}
' file > bot_ip

-v mon=$(locale abmon)- 변수에는 mon다음 라인이 할당됩니다. Jan;Feb;Mar;Apr;May;Jun;Jul;Aug;Sep;Oct;Nov;Dec
for(n=split(mon, M, ";"); n; n--)- 이 함수는 루프 split에서 카운터를 시작하는 배열 요소의 수를 반환합니다.for

Question 4

두 번째 필드의 첫 번째 및 다섯 번째 항목만 보는 대신 5개 항목 간격의 모든 항목을 볼 수 있습니다. 슬라이딩 윈도우 방법:

awk '
{
    n = c[$7] = ++c[$7] % 4
    m = index("..JanFebMarAprMayJunJulAugSepOctNovDec",$2)/3
    s = mktime($3 " " m " " $1 " " $4 " " $5 " " $6)
    if (s - t[$7,n] < 15 && !seen[$7]++) {
        print
    }
    t[$7,n] = s
}
' FS='[/:|]' output.csv

Answer

두 번째 필드의 첫 번째 및 다섯 번째 항목만 보는 대신 5개 항목 간격의 모든 항목을 볼 수 있습니다. 슬라이딩 윈도우 방법:

awk '
{
    n = c[$7] = ++c[$7] % 4
    m = index("..JanFebMarAprMayJunJulAugSepOctNovDec",$2)/3
    s = mktime($3 " " m " " $1 " " $4 " " $5 " " $6)
    if (s - t[$7,n] < 15 && !seen[$7]++) {
        print
    }
    t[$7,n] = s
}
' FS='[/:|]' output.csv

AWK를 사용하여 열의 중복 읽기

내가 시도한 것

원하는 결과

답변1

답변2

답변3

답변4

관련 정보