안녕하세요. 파이프로 구분된 100,000개 이상의 데이터가 포함된 CSV 파일이 있습니다.
2|dfdf|er34Sr|afe|&*&|djhgjdsf|jhfgdhj12|dse|dsR|fcdf|erer|ddff|vcdf||||||
3||||dfrg||DFgfg||FDGRFG|FGB|FG|4546|@#$|FGFDG|DGFDFG|||FGfg||DGF |||GF |||
dhgfyukdsf|dfdf|#%||fghfhj|nvcbd,|bhd|cmnbch|vjh|jhfur||mhvjh|mnbvm||||
hjgg|||||gy|fdf|D|||fgfg|gfgf|Fgfg|FGfg|Sf||dfdfbhj|segrhb|zaefef|||
2|dfdf|er34Sr|afe|&*&|djhgjdsf|jhfgdhj12|dse|dsR|fcdf|erer|ddff|vcdf||||||
2|dfdf|er34Sr|afe|&*&|djhgjdsf|jhfgdhj12|dse|dsR|fcdf|erer|ddff|vcdf||||||
2|dfdf|er34Sr|afe|&*&|djhgjdsf|jhfgdhj12|dse|dsR|fcdf|erer|ddff|vcdf||||||
3||||dfrg||DFgfg||FDGRFG|FGB|FG|4546|@#$|FGFDG|DGFDFG|||FGfg||DGF |||GF |||
3||||dfrg||DFgfg||FDGRFG|FGB|FG|4546|@#$|FGFDG|DGFDFG|||FGfg||DGF |||GF |||
3||||dfrg||DFgfg||FDGRFG|FGB|FG|4546|@#$|FGFDG|DGFDFG|||FGfg||DGF |||GF |||
스크립트를 실행할 때마다 특정 열의 데이터가 중복되는지 확인하고 싶습니다.
예를 들어 모든 CSV 파일의 1,7,12,14열에 동일한 데이터가 포함되어 있는지 확인하고 그렇다면 해당 중복 항목만 표시하고 싶습니다.
나는 열심히 노력했다
awk -F"|" '{
if (x[$'"$ColumnNo1"'$'"$ColumnNo2"'$'"$ColumnNo3"'$'"ColumnNo4"'])
{x_Count[$'"$ColumnNo1"'$'"$ColumnNo2"'$'"$ColumnNo3"'$'"ColumnNo4"']++;
print $0;
if(x_Count[$'"$ColumnNo1"'$'"$ColumnNo2"'$'"$ColumnNo3"'$'"ColumnNo4"']==1)
{
print x[$'"$ColumnNo1"'$'"$ColumnNo2"'$'"$ColumnNo3"'$'"ColumnNo4"']}}
x[$'"$ColumnNo1"'$'"$ColumnNo2"'$'"$ColumnNo3"'$'"ColumnNo4"']=$0}' csvfilename.csv
하지만 아무런 출력도 얻지 못합니다.
$ColumnNo1,$ColumnNo2,$ColumnNo3
쉘 스크립트 변수입니다
도와주세요:)
답변1
사용할 수 있는 특수 도구가 거의 없다는 점을 제외하면데이터 세트(예를 들어CSV 도구)
awk -F"|" '
{
r = $w SUBSEP $x SUBSEP $y SUBSEP $z #prepare index from 4 fields data
}
R[r]{ #if index present in array already
if ( R[r] != 1){ #if it is a first repetition
print R[r] #print line stored in array
R[r] = 1 #mark element «not a first time»
}
print #print present line
next #pass rest of code(goto next line)
}
{
R[r] = $0 #store line in array (first time only)
}
' w=$ColumnNo1 x=$ColumnNo2 y=$ColumnNo3 z=$ColumnNo4 file.csv
답변2
다음을 시도해 보십시오(쉘 변수는 정수여야 합니다).
awk -v C1="$ColumnNo1" -v C2="$ColumnNo2" -v C3="$ColumnNo3" -v C4="$ColumnNo4" -F'|' '
{ a1[$C1]++; a2[$C2]++; a3[$C3]++; a4[$C4]++}
END {
printf "Non-unique entries in column %d\n", C1
for (key in a1) {
if (a1[key] > 1) print key
}
printf "Non-unique entries in column %d\n", C2
for (key in a2) {
if (a2[key] > 1) print key
}
printf "Non-unique entries in column %d\n", C3
for (key in a3) {
if (a3[key] > 1) print key
}
printf "Non-unique entries in column %d\n", C4
for (key in a4) {
if (a4[key] > 1) print key
}}' <myfile.csv