od는 `\x7f` 뒤의 기호를 어떻게 처리합니까?

Question

awk구현 에 따라 printf("%c", n)출력 바이트 값 n또는 코드 포인트는 문자입니다 n.

로케일의 문자 집합이 UTF-8(출력 참조 locale charmap)인 경우 0~127 값에 대해 동일한 결과가 생성됩니다(여기서 문자 U+0000~U+007f는 바이트 값 0~0x7f로 인코딩됨).

awk그러나 127을 초과하는 경우 첫 번째 범주 구현의 해당 바이트 값(8비트로 잘림)을 얻거나 다른 범주 구현의 UTF-8 인코딩(적어도 GNU awk, 아마도 여러분이 원하는 것일 것입니다)을 얻습니다. )을 다시 사용하고 있습니다.

gawk 'BEGIN{printf "%c", 8364}'

(8364는 0x20AC) €는 UTF-8로 0xe2 0x82 0xac로 인코딩된 유로 기호(U+20AC)를 인쇄합니다.

mawk 'BEGIN{printf "%c", 8364}'

0xAC 바이트를 인쇄합니다(이것은 문자가 없는 UTF-8 인코딩으로, 잘못된 텍스트이며 터미널에서 �대체 문자로 렌더링될 수 있습니다).

알아채다코드 포인트이는 일반적으로 멀티바이트 문자 세트의 경우 유니코드 코드 포인트이고, 싱글바이트 문자 세트의 경우 문자 세트 값(즉, 바이트 값)입니다. iso8859-15 문자 세트를 사용하는 로케일에서 유로 기호의 코드 포인트는 0xA4(0x20AC 아님)이며 printf("%c", 0xA4)유로 기호(바이트 값 0xA4)는 구현에 관계없이 인쇄됩니다 awk.

awk따라서 값(1에서 255 사이의 값, 모든 구현이 0에서 올바르게 작동하는 것은 아님)으로 바이트를 인쇄하려면 다음을 사용하십시오.

LC_ALL=C awk 'BEGIN{printf "%c", value}'

C 로캘의 문자 집합은 단일 바이트가 보장되며 모든 시스템에 대해 C 로캘이 있습니다.

다음을 사용할 수도 있습니다.

printf '\200'

(여기서 바이트 값은 8진수로 표현됩니다.) 일부 printf구현에서는 16진수도 지원합니다.

printf '\x80'

일부 printf구현에서는 다음도 지원합니다.

printf '\u20ac'

유니코드 코드 포인트(일반적으로 로케일의 문자 세트)에 따라 문자를 인쇄합니다(따라서 iso8859-15 로케일에서는 0xA4, UTF-8 로케일에서는 0xe2 0x82 0xac, 문자 세트에 유로 기호가 없는 로케일). , 일부 사람들은 로케일의 문자 세트에 관계없이 printf내장 출력이 UTF-8로 인코딩되는 것을 선호합니다.ksh93

Answer 1