시끄러운 데이터가 포함된 CSV 파일을 강력하게 분할합니다.

Question 1

한 가지 방법은 awk임계값에 도달하는 첫 번째 행과 그 아래에 있는 마지막 행을 가져오도록 임계값을 설정하는 것입니다. 다음과 같이 작동할 수 있습니다.

awk -F, -vthreshold_up=20 -vthreshold_down=10 'BEGIN {
                          cur = "gt";
                        } 
                        {
                          if (cur == "gt" && $2 > threshold_up) {
                            print;
                            cur = "lt";
                          } else if (cur = "lt" && $2 < threshold_down) {
                            print;
                            cur = "gt";
                          }
                        }' file.csv

Answer

한 가지 방법은 awk임계값에 도달하는 첫 번째 행과 그 아래에 있는 마지막 행을 가져오도록 임계값을 설정하는 것입니다. 다음과 같이 작동할 수 있습니다.

awk -F, -vthreshold_up=20 -vthreshold_down=10 'BEGIN {
                          cur = "gt";
                        } 
                        {
                          if (cur == "gt" && $2 > threshold_up) {
                            print;
                            cur = "lt";
                          } else if (cur = "lt" && $2 < threshold_down) {
                            print;
                            cur = "gt";
                          }
                        }' file.csv

Question 2

jordanm의 접근 방식을 확장함으로써 통계에 의존하지 않고도 놀랍도록 강력한 기능을 구축할 수 있었습니다. 안타깝게도 스크립트가 약간 길어졌지만 이 작업이 완료되었으므로 이제 원할 때마다 사용할 수 있습니다. 올바른 매개변수만 알아내면 됩니다.

나는 12개의 실제 데이터 파일을 테스트했는데 그 중 일부는 다음과 같이 지저분했습니다.

지저분한 CPU 및 메모리 CSV 차트

여기서의 비결은 MIN_DURATION일시적인 급증을 무시하고 지정된 행 수까지 하락하는 데 도움이 되는 변수를 사용하는 것입니다.

용법:

grep-begin-end FIELD_SEPARATOR FIELD_INDEX THRESHOLD_UP THRESHOLD_DOWN MIN_DURATION ...

예:

grep-begin-end , 2 30 4 5 file.csv

grep 시작 끝

FIELD_SEPARATOR=$1
FIELD_INDEX=$2
THRESHOLD_UP=$3
THRESHOLD_DOWN=$4
MIN_DURATION=$5
shift 5
awk -F$FIELD_SEPARATOR -vthreshold_up=$THRESHOLD_UP -vthreshold_down=$THRESHOLD_DOWN 'BEGIN {
    cur = "gt";
}
{
    val = $'$FIELD_INDEX';
    # strip of double quotes and convert to number
    if (substr(val, 1, 1) == "\"") { val = 0 + substr(val, 2, length(val) - 3); } else { val = 0 + val; }
    buf = "";
    if (cur == "gt")
    {
        if (val >= threshold_up)
        {
            if (buf == "")
                buf = $0;
            if (duration >= '$MIN_DURATION')
            {
                print buf;
                cur = "lt";
                duration = 0;
                buf = "";
            }
            else
            {
                duration++;
            }
        }
        else
        {
            duration = 0;
        }
    }
    else if (cur == "lt")
    {
        if (val <= threshold_down)
        {
            if (buf == "")
                buf = $0;
            if (duration >= '$MIN_DURATION')
            {
                print buf;
                cur = "gt";
                duration = 0;
                buf = "";
            }
            else
            {
                duration++;
            }
        }
        else
        {
            duration = 0;
        }
    }
}' "$@"

Answer