awk를 사용하여 유사한 행에 데이터 추가

Question 1

약간 더 긴(하지만 이해하기 쉬운) awk솔루션:

BEGIN       { FS = OFS = "|" }

function output() {
    if (FNR == 1) return
    data = ""
    for (i in col2) {
        qi   = sprintf("'%s'", i);
        data = (data == "" ? qi : data "," qi)
    }
    print col1, sprintf("{%s}", data), col3
}

$1 == col1 && !($2 in col2) { col2[$2] }

$1 != col1    {
    output()
    col1 = $1; col3 = $3
    delete col2; col2[$2]
}

END { output() }

이 BEGIN블록은 단순히 입력 및 출력 필드 구분 기호를 |.

이 함수는 (첫 번째 열의 ID), (두 번째 열의 고유 데이터 배열) 및 (세 번째 열의 해당 특정 ID에 대한 첫 번째 데이터 항목)에서 수집된 데이터를 가져와 output()출력합니다. 의 키를 반복하여 개별적으로 인용하고 사이에 쉼표를 사용하여 문자열 변수에 추가합니다. 그런 다음 , (중괄호 안에) 및 를 인쇄합니다.col1col2col3col2datacol1datacol3

해당 특정 ID에 대해 이전에 한 번도 본 적이 없는 두 번째 열의 항목을 찾으면 다음 블록이 실행됩니다. 두 번째 열을 의 키로 추가하기만 하면 됩니다 col2.

첫 번째 열에서 새 ID를 찾으면 다음 블록이 실행됩니다. 수집된 변수를 호출 output()하고 재설정하여 해당 새 ID에 대한 데이터 수집을 시작합니다.

END블록 에서는 output()마지막 ID에 대한 출력 데이터를 호출합니다.

프로그램은 전체 파일을 한 번에 메모리에 저장하려고 시도하지 않지만 데이터가 첫 번째 열에서 정렬되도록 요구합니다.

제공된 데이터에 대해 실행합니다.

$ awk -f script.awk file
field11|{'field12','field32'}|field13
field41|{'field42','field62','field52'}|field43

Answer

약간 더 긴(하지만 이해하기 쉬운) awk솔루션:

BEGIN       { FS = OFS = "|" }

function output() {
    if (FNR == 1) return
    data = ""
    for (i in col2) {
        qi   = sprintf("'%s'", i);
        data = (data == "" ? qi : data "," qi)
    }
    print col1, sprintf("{%s}", data), col3
}

$1 == col1 && !($2 in col2) { col2[$2] }

$1 != col1    {
    output()
    col1 = $1; col3 = $3
    delete col2; col2[$2]
}

END { output() }