필수: AWK의 비연관 배열

Question

다음은 질문에 답하기 위해 작성한 gawk 4.1.3용 테스트 코드입니다. PFILE의 원시 데이터는 숫자이며, DFILE에 연속된 항목 간의 차이를 저장하여 데이터를 압축하려고 합니다.

BEGIN{ RLS=bufstr=""; SEP =":" ; PFILE="somenumbers.txt" ; DFILE= "diffile.txt"
if (ATEST=="") ATEST=1
accumulate=lastdatum=0 ; BIGN=5500000 ; DATALENMAX=7 ;TUNELEN=2048
for(i=1; i < BIGN ; i++) {
     getline nextdatum < PFILE
     d = nextdatum -lastdatum
#     RLS = RLS d SEP
     ibuf( d SEP )
     print d > DFILE
     lastdatum=nextdatum  }
# RLS = RLS "0"
ibuf("0")
if (length(bufstr) > 0) { RLS = RLS bufstr ; bufstr="" }
print (RLSlen=length(RLS))
close(PFILE) ; close(DFILE)
timestmp["start"] = systime()
if (ATEST==1){
  split(RLS,data,SEP)
  timestmp["endsplit"] = systime()
  for(i=1; i in data; i++){     accumulate += 1*data[i]     }
  }
if (ATEST==2){
  for(j=1; j<RLSlen ; j+=datalen) {
     datalen=match(substr(RLS,j, DATALENMAX),SEP)
     accumulate  += 1*substr(RLS,j,datalen-1)     }
  }
if (ATEST==3) {
  while((getline diff < DFILE)>0){  accumulate  += 1*diff }
  close(DFILE)
  }
print accumulate 
timestmp["end"] = systime()
for(t in timestmp) print t, (1*timestmp[t] - 1*timestmp["start"])
}

function ibuf(str) {   bufstr=bufstr str
   if (length(bufstr) > TUNELEN) { RLS = RLS bufstr ; bufstr="" }
}

ibuf() 함수와 TUNELEN 매개변수는 별로 중요하지 않습니다. 할당으로 인해 할당된 메모리 값이 튀는 것을 보는 것이 지쳤을 뿐입니다.

RLS = RLS d SEP

그래서 이 부분을 완충하기로 결정했습니다.

두 번째와 세 번째 부분(ATEST=2 및 3)이 첫 번째 부분보다 조금 더 빠르게 실행될 것으로 예상됩니다. 하지만 그런 일은 일어나지 않았습니다. 배열을 사용하는 것은 항상 조금 더 빠른 것 같습니다. 극단적으로 섹션 2보다 약 두 배 빠르고 섹션 3보다 조금 더 빠릅니다. 그러나 배열 버전은 값뿐만 아니라 인덱스도 저장해야 하기 때문에 약 10배(또는 그 이상) 더 많은 메모리를 사용합니다.

처음에는 DATAMAXLEN 값 없이 파트 2를 테스트했는데 반복되는 substr() 호출로 인해 속도가 매우 느려졌습니다. 섹션 2 방법은 입력 데이터에 사용되는 메모리를 절약하기는 하지만 더 빠른 속도를 제공하지는 않습니다.

요약하자면, 소비할 메모리가 있으면 연관 배열을 사용하세요. 디스크가 양호하면 파일에서 읽으십시오. 저장해야 한다면 밧줄 위로 올라가되 조심하고 작은 조각만 보세요. 내 시스템에는 메모리 제약이 있어서 응용 프로그램 파일에서 데이터를 읽을 수 있습니다. 누군가가 인덱스를 사용하거나 문자열에 액세스하기 위해 메모리를 절약하는 다른 방법과 같이 파트 2를 수정하는 방법을 본다면 이에 대해 알고 싶습니다.

게르하르트 "마일리지가 자주 바뀌어요" 패스만, 2015.09.30

Answer 1