정렬에서는 행을 올바르게 정렬하기 위해 파이프 "|"를 사용하지 않습니다.

Question 1

sort로케일을 인식하므로 LC_COLLATE 설정(LANG에서 상속됨)에 따라 다른 결과를 얻을 수 있습니다.

$ LANG=C sort sort_fail.csv 
241|212|20810378
241|213|20810376
24|121|2810172
column_a|column_b|column_c

$ LANG=en_US sort sort_fail.csv
241|212|20810378
24|121|2810172
241|213|20810376
column_a|column_b|column_c

호출하는 로캘이 무엇인지 모르므로 다른 결과가 나올 수 있으므로 스크립트에 문제가 발생할 수 있습니다.

스크립트가 필수 설정을 적용하는 것은 드문 일이 아닙니다.

예를 들어

$ grep 'LC.*sort' /bin/precat
      LC_COLLATE=C sort -u | prezip-bin -z "$cmd: $2"

이제 흥미로운 점은 이 |캐릭터가 이상해 보인다는 것입니다.

그러나 이는 en_US(ISO에서 파생됨)에 대한 기본 규칙이 다음과 같기 때문입니다.

$ grep 007C /usr/share/i18n/locales/iso14651_t1_common
<U007C> IGNORE;IGNORE;IGNORE;<j> # 142 |

즉 |역할은무시당하다그리고 정렬 순서는 마치 캐릭터가 존재하지 않는 것처럼 보입니다.

$ tr -d '|' < sort_fail.csv | LANG=C sort
24121220810378
241212810172
24121320810376
column_acolumn_bcolumn_c

이는 표시된 "예기치 않은" 정렬과 일치합니다.

해결 방법은 -n숫자 정렬을 강제로 사용하거나, 이전처럼 필드 구분 기호를 사용하거나, 로케일 설정을 사용하는 것입니다 C.

Answer