저는 일부 대용량 데이터 파일(이메일 주소 포함)을 전처리하기 위해 정렬을 사용하고 있습니다. 그러나 그것이 생성하는 순서는 내가 기대하는 것과 다릅니다(따라서 데이터의 후속 처리가 망가집니다). 특히 정렬은 구두점을 무시하는 것 같습니다.
예를 들어(개인정보 보호를 위해 전체 이메일 주소가 잘림) sort -u
다음을 제공합니다.
Got this....
aaala
a.abu
a.abu
aacs.
aad19
a.aga
a.agh
aagro
a.agu
aakyl
a.ala
a.ale
aalig
이런 걸 기대하던 중..
a.abu
a.abu
a.aga
a.agh
a.agu
a.ala
a.ale
aaala
aacs.
aad19
aagro
aakyl
aalig
("-n", "-d" 및 "-g" 플래그는 각각 동일한 결과를 제공합니다).
sort
ASCII/UTF8 문자 코드를 기반으로 정렬 하도록 설득하는 방법은 무엇입니까 ?