지정된 열을 기반으로 CSV에서 중복 항목 제거

Question 1

처음 5개 필드의 "키"를 만든 다음 키가 처음 표시될 때만 한 줄을 인쇄합니다.

awk -F, '
  {key = $1 FS $2 FS $3 FS $4 FS $5}
  !seen[key]++ 
' file

year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,

Answer

처음 5개 필드의 "키"를 만든 다음 키가 처음 표시될 때만 한 줄을 인쇄합니다.

awk -F, '
  {key = $1 FS $2 FS $3 FS $4 FS $5}
  !seen[key]++ 
' file

year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,

Question 2

먼저 awk로 장식하여 정렬 중에 헤더 행을 맨 위에 유지한 다음 awk+sort+cut을 사용합니다.

$ awk -v OFS=',' '{print (NR>1), $0}' file | sort -u -t, -k1,6 | cut -d, -f2-
year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,

Answer

먼저 awk로 장식하여 정렬 중에 헤더 행을 맨 위에 유지한 다음 awk+sort+cut을 사용합니다.

$ awk -v OFS=',' '{print (NR>1), $0}' file | sort -u -t, -k1,6 | cut -d, -f2-
year,manufacturer,brand,series,variation,card_number,card_title,sport,team
2015,Leaf,Army All-American Bowl,5-Star Future Autographs,,FSF-RG1,Rasheem Green,Soccer,
2015,Leaf,Metal Draft,Touchdown Kings,Die-Cut Autographs Blue Prismatic,TDK-DF1,Darren Smith,Football,
2015,Leaf,Trinity,Patch Autograph,Bronze,PA-DJ2,Duke Johnson,Football,
2015,Leaf,Trinity,Printing Plates,Magenta,TS-JH2,John Amoth,Soccer,

Question 3

비 awk해결책: 간단히 를 사용하여 sort필드 1~5를 비교 필드로 정의하고 -k이를 ,필드 구분 기호( -t)로 사용하고 -u고유한 항목만 선택할 수 있습니다.

 sort -t, -k1,5 -u infile

그러나 이렇게 하면 헤더 행이 끝에 배치됩니다. 예를 들어 역순 정렬을 사용 -r하거나 헤더 행을 분리 하세요.

{ sed 1q infile ; sed 1d infile | sort -k1,5 -t, -u ; }

Answer

비 awk해결책: 간단히 를 사용하여 sort필드 1~5를 비교 필드로 정의하고 -k이를 ,필드 구분 기호( -t)로 사용하고 -u고유한 항목만 선택할 수 있습니다.

 sort -t, -k1,5 -u infile

그러나 이렇게 하면 헤더 행이 끝에 배치됩니다. 예를 들어 역순 정렬을 사용 -r하거나 헤더 행을 분리 하세요.

{ sed 1q infile ; sed 1d infile | sort -k1,5 -t, -u ; }

지정된 열을 기반으로 CSV에서 중복 항목 제거

답변1

답변2

답변3

관련 정보