라이브 로그 파일의 일부 줄만 표시

Question 1

귀하의 데이터는 고도로 구조화되어 있습니다.키="값", 따라서 gnu awk를 사용하여 키 이름 목록을 인수로 사용하고 해당 값만 인쇄하는 작은 쉘 스크립트를 작성할 수 있습니다. 예를 들어 myscript:

#!/bin/bash
awk -v lhs="$*" '
BEGIN{  FPAT = "[a-z-]*=\"[^\"]*\""
        nwant = split(lhs,want)
}
{       for(i=1;i<=NF;i++){
            start = match($i,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

이렇게 myscript srcip categoryname url하면 awk 변수가 처음에 배열로 분할되는 lhs단일 문자열로 설정됩니다. want행은 awk에 의해 패턴과 일치하는 필드로 나뉩니다.키="값"내장 FPAT변수를 사용합니다.

각 줄에서 각 필드에 대해 2개의 캡처 그룹으로 분할합니다 match(). 하나는 키용이고 다른 하나는 큰따옴표 안의 부분용입니다. 이는 awk에 의해 배열에 저장되고 키 문자열로 색인된 연관 배열 a에 저장됩니다 .key

그런 다음 원하는 각 키에 대해 값을 인쇄하고 해당 행에 해당 키가 없으면 다음 행의 값을 지웁니다. 분명히 이는 모든 데이터가 필요한 구조를 가지고 있다고 가정하고, 알파벳이 아닌 문자가 있는 값이나 키 내에서 (")를 처리하도록 변경해야 합니다.

4.0 이전의 GNU awk(gawk) 버전에는 FPAT패턴과 일치하는 필드로 행을 분할하는 기능이 내장되어 있지 않으므로 이 작업을 직접 수행해야 했습니다.

#!/bin/bash
awk -v lhs="$*" '
BEGIN{ nwant = split(lhs,want) }
{       input = $0
        while(match(input,"[a-z-]*=\"[^\"]*\"")>0){
            field = substr(input,RSTART,RLENGTH)
            input = substr(input,RSTART+RLENGTH)
            start = match(field,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

분명히 두 개의 일치 호출을 하나로 결합할 수 있지만 이는 원래 일치와의 차이점을 보여줍니다.

Answer

귀하의 데이터는 고도로 구조화되어 있습니다.키="값", 따라서 gnu awk를 사용하여 키 이름 목록을 인수로 사용하고 해당 값만 인쇄하는 작은 쉘 스크립트를 작성할 수 있습니다. 예를 들어 myscript:

#!/bin/bash
awk -v lhs="$*" '
BEGIN{  FPAT = "[a-z-]*=\"[^\"]*\""
        nwant = split(lhs,want)
}
{       for(i=1;i<=NF;i++){
            start = match($i,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

이렇게 myscript srcip categoryname url하면 awk 변수가 처음에 배열로 분할되는 lhs단일 문자열로 설정됩니다. want행은 awk에 의해 패턴과 일치하는 필드로 나뉩니다.키="값"내장 FPAT변수를 사용합니다.

각 줄에서 각 필드에 대해 2개의 캡처 그룹으로 분할합니다 match(). 하나는 키용이고 다른 하나는 큰따옴표 안의 부분용입니다. 이는 awk에 의해 배열에 저장되고 키 문자열로 색인된 연관 배열 a에 저장됩니다 .key

그런 다음 원하는 각 키에 대해 값을 인쇄하고 해당 행에 해당 키가 없으면 다음 행의 값을 지웁니다. 분명히 이는 모든 데이터가 필요한 구조를 가지고 있다고 가정하고, 알파벳이 아닌 문자가 있는 값이나 키 내에서 (")를 처리하도록 변경해야 합니다.

4.0 이전의 GNU awk(gawk) 버전에는 FPAT패턴과 일치하는 필드로 행을 분할하는 기능이 내장되어 있지 않으므로 이 작업을 직접 수행해야 했습니다.

#!/bin/bash
awk -v lhs="$*" '
BEGIN{ nwant = split(lhs,want) }
{       input = $0
        while(match(input,"[a-z-]*=\"[^\"]*\"")>0){
            field = substr(input,RSTART,RLENGTH)
            input = substr(input,RSTART+RLENGTH)
            start = match(field,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

분명히 두 개의 일치 호출을 하나로 결합할 수 있지만 이는 원래 일치와의 차이점을 보여줍니다.

Question 2

사용(POSIX 규격) sed...

sed 's/.* srcip="\([^"]*\)" .* url="\([^"]*\)" .* categoryname="\([^"]*\)" .*/\1 \3 \2/' logfile

여기에는 멋진 내용이 없습니다. 키를 찾아 값을 괄호로 묶어 \(..\)역참조로 사용할 수 있습니다. 그런 다음 문자열을 요구 사항에 따라 정렬된 공백으로 구분된 역참조로 바꿉니다 \1 \3 \2.

산출:

10.11.12.13 Uncategorized https://website.net/
10.13.14.15 Education/Reference http://host.com/mini_banner.png

로그에 이러한 키가 모두 포함되지 않은 문자열이 포함되어 있으면 다음을 사용할 수 있습니다.

sed -n 's/.* srcip="\([^"]*\)" .* url="\([^"]*\)" .* categoryname="\([^"]*\)" .*/\1 \3 \2/p' logfile

그러면 패턴과 일치하는 줄만 인쇄됩니다.

물론 스트리밍에 사용하려면 파일 이름을 제거하고 다음을 수행하십시오.[something sending logs to stdout] | sed ...

Answer