awk 및 파이프 값을 사용하여 파이프로 구분된 파일에서 중복 항목을 제거하는 방법은 무엇입니까?

Question 1

GNU awk를 사용하면 다음을 수행할 수 있습니다 FPAT.

$ awk -v c='2,6' -v FPAT='([^|]*)|("[^"]*")' 'BEGIN{split(c,k,",")} {key=""; for (i in k) key=key RS $(k[i])} !seen[key]++' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

이와 같이 큰따옴표를 중첩할 수 있는 경우 "foo""bar"FPAT 할당을 다음으로 변경하세요.FPAT='[^|]*|("([^"]|"")*")'

바라보다awk를 사용하여 csv를 효율적으로 구문 분석하는 가장 강력한 방법은 무엇입니까더 많은 정보를 알고 싶습니다.

Answer

GNU awk를 사용하면 다음을 수행할 수 있습니다 FPAT.

$ awk -v c='2,6' -v FPAT='([^|]*)|("[^"]*")' 'BEGIN{split(c,k,",")} {key=""; for (i in k) key=key RS $(k[i])} !seen[key]++' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

이와 같이 큰따옴표를 중첩할 수 있는 경우 "foo""bar"FPAT 할당을 다음으로 변경하세요.FPAT='[^|]*|("([^"]|"")*")'

바라보다awk를 사용하여 csv를 효율적으로 구문 분석하는 가장 강력한 방법은 무엇입니까더 많은 정보를 알고 싶습니다.

Question 2

awk와 같은 것을 사용하여 이 작업을 수행할 수 있습니다.밀러

mlr --csv --fs '|' --implicit-csv-header --headerless-csv-output --quote-original filter '
  key = $2.FS.$6; @seen[key] += 1; @seen[key] == 1'
' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

!@seen[$6]++( 밀러가 이미 알고 있기 때문에 정확한 비유를 사용하는 것은 불가능해 보입니다.부울로 자동 변환되지 않음또한 후증가 연산자도 아닙니다. )

Answer

awk와 같은 것을 사용하여 이 작업을 수행할 수 있습니다.밀러

mlr --csv --fs '|' --implicit-csv-header --headerless-csv-output --quote-original filter '
  key = $2.FS.$6; @seen[key] += 1; @seen[key] == 1'
' file
3|XX|""|2022-04-05T21:39:22.899Z|2022-04-05T21:37:59Z|X7

!@seen[$6]++( 밀러가 이미 알고 있기 때문에 정확한 비유를 사용하는 것은 불가능해 보입니다.부울로 자동 변환되지 않음또한 후증가 연산자도 아닙니다. )

awk 및 파이프 값을 사용하여 파이프로 구분된 파일에서 중복 항목을 제거하는 방법은 무엇입니까?

답변1

답변2

관련 정보