중복된 ID 번호가 있는지 텍스트 파일을 스캔하고 날짜 값이 가장 높은 행을 유지하고 다른 행을 삭제합니다.

Question 1

모든 파일이 아닌 각 파일 내에서만 중복 항목을 테스트하고 데이터의 입력 순서 유지에 관심이 없다고 가정하면 그는 원하는 작업을 수행하기 위해 force POSIX 도구의 모든 버전을 사용할 것입니다. 모든 Unix 시스템에서 작동합니다.

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    {
        head -n 1 "$file" &&
        tail -n 2 "$file" |
            sort -t "$sep" -r -k 7,7 |
            awk -F "$sep" '$1 != prev { print; prev=$1 }'
    } > "$tmp" &&
    mv -- "$tmp" "$file"
done

예를 들어:

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

$ ./tst.sh file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

sort위의 도구 만 모든 입력을 한 번에 처리해야 하고, 다른 도구는 한 번에 한 줄만 처리하며 sort요구 페이징 등을 사용하여 대용량 파일을 처리하도록 설계되었습니다. 입력 파일이 매우 큽니다.

입력 행 순서를 정말로 유지하려면 위의 내용을 변경하여 적용할 수 있습니다.DSU 관용어이 작업을 수행할 수 있어야 합니다.

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    awk -v OFS="$sep" '{ print (NR>1), NR, $0 }' "$file" |
        sort -t "$sep" -k1,1 -k9,9r |
        awk -F "$sep" 'NR==1{print; next} $1 != prev{ print; prev=$1 }' |
        sort -t "$sep" -k1,1 -k2,2n |
        cut -d "$sep" -f3- \
    > "$tmp" &&
    mv -- "$tmp" "$file"
done

sort그러나 행을 선택한 후 입력을 원래 순서로 복원하는 데 1초가 걸립니다.

입력 순서를 유지하면서 한 번의 GNU awk 호출로 모든 작업을 수행하려면 다음과 같이 하십시오.

$ cat tst.awk
BEGIN { FS="," }
FNR == 1 {
    delete id2maxTs
    delete id2fnr
    delete fnr2input
    print
    next
}
{ id=$1; ts=$7 }
!(id in id2maxTs) || (ts > id2maxTs[id]) {
    if ( id in id2fnr ) {
        prevFnr = id2fnr[id]
        delete fnr2input[prevFnr]
    }
    id2maxTs[id]   = ts
    id2fnr[id]     = FNR
    fnr2input[FNR] = $0
}
ENDFILE {
    for ( i=1; i<=FNR; i++ ) {
        if ( i in fnr2input ) {
            print fnr2input[i]
        }
    }
}

$ gawk -i inplace -f tst.awk file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00

gawk 스크립트는 원래 입력 순서를 유지하지만 각 입력 파일의 전체 내용을 메모리로 읽어야 합니다.

Answer

모든 파일이 아닌 각 파일 내에서만 중복 항목을 테스트하고 데이터의 입력 순서 유지에 관심이 없다고 가정하면 그는 원하는 작업을 수행하기 위해 force POSIX 도구의 모든 버전을 사용할 것입니다. 모든 Unix 시스템에서 작동합니다.

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    {
        head -n 1 "$file" &&
        tail -n 2 "$file" |
            sort -t "$sep" -r -k 7,7 |
            awk -F "$sep" '$1 != prev { print; prev=$1 }'
    } > "$tmp" &&
    mv -- "$tmp" "$file"
done

예를 들어:

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

$ ./tst.sh file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

sort위의 도구 만 모든 입력을 한 번에 처리해야 하고, 다른 도구는 한 번에 한 줄만 처리하며 sort요구 페이징 등을 사용하여 대용량 파일을 처리하도록 설계되었습니다. 입력 파일이 매우 큽니다.

입력 행 순서를 정말로 유지하려면 위의 내용을 변경하여 적용할 수 있습니다.DSU 관용어이 작업을 수행할 수 있어야 합니다.

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    awk -v OFS="$sep" '{ print (NR>1), NR, $0 }' "$file" |
        sort -t "$sep" -k1,1 -k9,9r |
        awk -F "$sep" 'NR==1{print; next} $1 != prev{ print; prev=$1 }' |
        sort -t "$sep" -k1,1 -k2,2n |
        cut -d "$sep" -f3- \
    > "$tmp" &&
    mv -- "$tmp" "$file"
done

sort그러나 행을 선택한 후 입력을 원래 순서로 복원하는 데 1초가 걸립니다.

입력 순서를 유지하면서 한 번의 GNU awk 호출로 모든 작업을 수행하려면 다음과 같이 하십시오.

$ cat tst.awk
BEGIN { FS="," }
FNR == 1 {
    delete id2maxTs
    delete id2fnr
    delete fnr2input
    print
    next
}
{ id=$1; ts=$7 }
!(id in id2maxTs) || (ts > id2maxTs[id]) {
    if ( id in id2fnr ) {
        prevFnr = id2fnr[id]
        delete fnr2input[prevFnr]
    }
    id2maxTs[id]   = ts
    id2fnr[id]     = FNR
    fnr2input[FNR] = $0
}
ENDFILE {
    for ( i=1; i<=FNR; i++ ) {
        if ( i in fnr2input ) {
            print fnr2input[i]
        }
    }
}

$ gawk -i inplace -f tst.awk file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00

gawk 스크립트는 원래 입력 순서를 유지하지만 각 입력 파일의 전체 내용을 메모리로 읽어야 합니다.

Question 2

GNU awk 사용MK타임()기능:

gawk -F, '
NR==1{ print; next }
{
    svn=dTime=$7
    gsub(/[-:]/, " ", dTime)
    dTime=mktime(dTime)
    sub(/,[^,]*$/, "")
}
dTime > gId[$0] {
    gId[$0]=dTime
    records[$0]=svn
}
END { for(rec in records) print rec, records[rec] }' infile

바라보다gawk를 통해 사전 정의된 배열 스캔 순서 사용( PROCINFO["sorted_in"]) 출력 중 루프 순회를 위한 기본 배열을 설정합니다.

Answer

GNU awk 사용MK타임()기능:

gawk -F, '
NR==1{ print; next }
{
    svn=dTime=$7
    gsub(/[-:]/, " ", dTime)
    dTime=mktime(dTime)
    sub(/,[^,]*$/, "")
}
dTime > gId[$0] {
    gId[$0]=dTime
    records[$0]=svn
}
END { for(rec in records) print rec, records[rec] }' infile

바라보다gawk를 통해 사전 정의된 배열 스캔 순서 사용( PROCINFO["sorted_in"]) 출력 중 루프 순회를 위한 기본 배열을 설정합니다.

Question 3

sort결합하다awk

#get header line
head -1 infile
#work on data
tail +2 infile | sort -t, -r -k7 | awk -F, '!seen[$1]++'

=> 7번째 필드(날짜 필드), 즉 최신 항목부터 역순으로 정렬합니다. 그런 다음 첫 번째 고유 ID가 있는 행만 인쇄됩니다.

참고: 문자열에 추가 쉼표가 있습니다. 동일한 ID가 동일한 날짜에 발생하면 행은 정의된 대로 정렬됩니다. 날짜 문자열은 선행/패딩 0 또는 완전히 혼합된 형식을 사용하지 않습니다.

Answer

sort결합하다awk

#get header line
head -1 infile
#work on data
tail +2 infile | sort -t, -r -k7 | awk -F, '!seen[$1]++'

=> 7번째 필드(날짜 필드), 즉 최신 항목부터 역순으로 정렬합니다. 그런 다음 첫 번째 고유 ID가 있는 행만 인쇄됩니다.

참고: 문자열에 추가 쉼표가 있습니다. 동일한 ID가 동일한 날짜에 발생하면 행은 정의된 대로 정렬됩니다. 날짜 문자열은 선행/패딩 0 또는 완전히 혼합된 형식을 사용하지 않습니다.

중복된 ID 번호가 있는지 텍스트 파일을 스캔하고 날짜 값이 가장 높은 행을 유지하고 다른 행을 삭제합니다.

답변1

답변2

답변3

관련 정보