대용량 CSV 파일의 색인을 다시 생성합니다.

Question 1

터미널 근처에서 테스트하지 않지만 종종 간과되는 명령 nl은 어떻습니까 ? 그것은 다음과 같습니다:

cut -f 2 -d , original.csv | nl -w 1 -p -s , > numbered.csv

Answer

터미널 근처에서 테스트하지 않지만 종종 간과되는 명령 nl은 어떻습니까 ? 그것은 다음과 같습니다:

cut -f 2 -d , original.csv | nl -w 1 -p -s , > numbered.csv

Question 2

여기에는 몇 가지 방법이 있지만 cut위의 솔루션만큼 빠른 방법은 없습니다.nl

앗

awk -F, '{$1=NR;print $1","$2;}' file.csv > newfile.csv

진주

perl -pe 's/[^,]+/$./' file.csv > newfile.csv

또는

perl -F, -ane '$F[0]=$.; print join ",", @F' file.csv

Shell (단, 200G 파일에는 시간이 오래 걸리므로 권장하지 않습니다)

i=1; while IFS=, read foo num; do 
        printf "%d,%s\n" $((i++)) $num; 
done < file.csv > newfile.csv

위의 솔루션은 속도 순으로 정렬되었습니다. 내 노트북과 40M 파일로 테스트했는데 결과는 (평균 10회 실행) 2.2282(awk), 2.4555(1st perl), 3.1825초(2nd perl)이었고 쉘은 놀라웠어요. 48.6035초가 걸렸습니다. 이미 가지고 있는 매우 영리한 cut솔루션은 nl0.6078초로 약 4배 더 빠릅니다.

Answer

여기에는 몇 가지 방법이 있지만 cut위의 솔루션만큼 빠른 방법은 없습니다.nl

앗

awk -F, '{$1=NR;print $1","$2;}' file.csv > newfile.csv

진주

perl -pe 's/[^,]+/$./' file.csv > newfile.csv

또는

perl -F, -ane '$F[0]=$.; print join ",", @F' file.csv

Shell (단, 200G 파일에는 시간이 오래 걸리므로 권장하지 않습니다)

i=1; while IFS=, read foo num; do 
        printf "%d,%s\n" $((i++)) $num; 
done < file.csv > newfile.csv

위의 솔루션은 속도 순으로 정렬되었습니다. 내 노트북과 40M 파일로 테스트했는데 결과는 (평균 10회 실행) 2.2282(awk), 2.4555(1st perl), 3.1825초(2nd perl)이었고 쉘은 놀라웠어요. 48.6035초가 걸렸습니다. 이미 가지고 있는 매우 영리한 cut솔루션은 nl0.6078초로 약 4배 더 빠릅니다.

대용량 CSV 파일의 색인을 다시 생성합니다.

답변1

답변2

관련 정보