최대값을 무작위로 샘플링하여 출력합니다.

Question 1

노력하다

BEGIN { srand() ;r=0 ; FS="," ; before="" ; }
{ if ( $1 > V[$2]) V[$2]=$1 ;
    if ( before != $2 && before != ""  ) {
          r=rand()*100 ;
       if ( r  > 50 ) printf "%s,%s\n",V[before],before ;
        }
 before=$2 ;
 }  data-file.txt

어디

if ( $1 > V[$2]) V[$2]=$1; mac의 최대값을 얻습니다.
if ( before != $2 && before != "" ) {새로운 mac 값이 나타날 때
r=rand()*100 ; if ( r > 50 ) printf "%s,%s\n",V[before],before ;임의의 값을 계산하여 50%를 초과하면 인쇄합니다. (5%, 95%로 변경 가능)

Answer

노력하다

BEGIN { srand() ;r=0 ; FS="," ; before="" ; }
{ if ( $1 > V[$2]) V[$2]=$1 ;
    if ( before != $2 && before != ""  ) {
          r=rand()*100 ;
       if ( r  > 50 ) printf "%s,%s\n",V[before],before ;
        }
 before=$2 ;
 }  data-file.txt

어디

if ( $1 > V[$2]) V[$2]=$1; mac의 최대값을 얻습니다.
if ( before != $2 && before != "" ) {새로운 mac 값이 나타날 때
r=rand()*100 ; if ( r > 50 ) printf "%s,%s\n",V[before],before ;임의의 값을 계산하여 50%를 초과하면 인쇄합니다. (5%, 95%로 변경 가능)

Question 2

5억 행은 많은 양의 데이터이므로 이를 처리하기 위해 보다 확장 가능한 방법을 찾고 싶을 수도 있습니다. 즉, 표준 Linux 유틸리티를 사용하여 이 작업을 수행하는 것이 가능합니다.

데이터가 이름이 지정된 파일에 있다고 가정하면 data.txt 다음을 사용하여 터미널에 인쇄할 수 있습니다 cat.

$ cat data.txt
1616.93,ac:22:0b:a6:22:c3
2872.32,c0:bd:d1:36:bb:49
3314.55,d4:0b:1a:39:19:b2
2854.11,18:f6:43:64:81:67
3540.68,18:f6:43:64:81:67
3856.91,ac:22:0b:a6:22:c3
2497.93,d4:0b:1a:39:19:b2

sort그런 다음 options 를 사용하여 이 출력을 파이프로 연결할 수 있습니다 -t ',' -k 2. 이러한 옵션은 sort쉼표를 구분 기호로 사용하여 데이터를 분할한 다음 두 번째 열의 값을 기준으로 정렬하도록 지시합니다 .

$ cat data.txt | sort -t ',' -k 2
2854.11,18:f6:43:64:81:67
3540.68,18:f6:43:64:81:67
1616.93,ac:22:0b:a6:22:c3
3856.91,ac:22:0b:a6:22:c3
2872.32,c0:bd:d1:36:bb:49
2497.93,d4:0b:1a:39:19:b2
3314.55,d4:0b:1a:39:19:b2

sort다음 임무에서는 옵션을 사용해야 합니다 -t ',' -k 1 -r. 이렇게 하면 쉼표를 구분 기호로 사용하고 첫 번째 열의 값을 사용하여 정렬됩니다. -r가장 큰 항목을 먼저 제공하여 적절한 순서로 정렬됩니다 .

$ cat data.txt | sort -t ',' -k 1 -r
3856.91,ac:22:0b:a6:22:c3
3540.68,18:f6:43:64:81:67
3314.55,d4:0b:1a:39:19:b2
2872.32,c0:bd:d1:36:bb:49
2854.11,18:f6:43:64:81:67
2497.93,d4:0b:1a:39:19:b2
1616.93,ac:22:0b:a6:22:c3

sort그런 다음 이번에는 옵션을 사용하여 위 예제의 출력을 다시 파이프로 연결 해야 합니다 -t ',' -k 2 -u. 이전과 마찬가지로 -t ','sort -k 2에서는 두 번째 열을 사용하도록 지시하는 반면, 새 옵션은 -usort에 고유한 항목만 유지하도록 지시합니다.

첫 번째 열의 값을 기준으로 데이터를 정렬했기 때문에 고유한 항목을 찾을 때 가장 높은 항목이 먼저 검색됩니다. 그러면 각 MAC 주소에 대해 가장 높은 단일 값이 제공됩니다.

$ cat data.txt | sort -t ',' -k 1 -r | sort -t ',' -k 2 -u
3540.68,18:f6:43:64:81:67
3856.91,ac:22:0b:a6:22:c3
2872.32,c0:bd:d1:36:bb:49
3314.55,d4:0b:1a:39:19:b2

마지막으로 무작위 샘플을 얻으려면 shuf다음 옵션을 사용할 수 있습니다 -n 2. 여기서 2는 원하는 무작위 샘플 수입니다.

$ shuf data.txt -n 2
3856.91,ac:22:0b:a6:22:c3
3314.55,d4:0b:1a:39:19:b2

Answer