
200개의 텍스트 파일이 있습니다. 각 텍스트 파일에는 수학 숫자 열(100,000줄)이 포함되어 있습니다.
이 데이터에 대한 통계 처리(확률 또는 분위수 찾기)를 수행하고 싶습니다. 각 파일과 관련된 평균값과 시그마값을 알고 있습니다. 데이터 세트의 확률이나 분위수를 계산하는 간단한 방법이 있습니까?
그렇지 않다면 분위수 = (정렬된 데이터의 평균)/시그마 공식을 알고 있습니다. 예를 들어
파일.txt 입력
12.2
10.11
15.55
5.01
...
...
12.9
임시파일.txt
5.01
10.11
12.2
12.9
15.55
...
...
최종 출력 파일에는 두 개의 열이 포함되어야 합니다. 첫 번째 열은 두 번째 열과 동일하며 temp_output.txt
, 이는 각 요소에 대한 다음과 같은 수학 함수입니다.
= (row(i)-mean)/sigma
여기서 평균과 시그마는 각각 10.1과 2.02라는 두 개의 수학 숫자입니다. 위 값의 경우 최종 출력 파일은 다음과 같아야 합니다.
출력.txt
5.01 -2.51980198
10.11 0.004950495
12.2 1.03960396
12.9 1.386138614
15.55 2.698019802
...
...
답변1
그런 것도 있나요?
mybox $ cat file1.txt
12.2
10.11
15.55
5.01
mybox $ awk -v mean=10.2 -v sigma=2.02 '{printf "%f %f\n",$1,($1-mean)/sigma ; }' file1.txt
12.200000 0.990099
10.110000 -0.044554
15.550000 2.648515
5.010000 -2.569307
신비한 부분
awk -v mean=10.2 -v sigma=2.02 '{printf "%f %f\n",$1,($1-mean)/sigma ; }' file1.txt
평균1, 평균2,...평균200을 어떻게 제공할 계획인가요?