유니코드 문자를 번역하는 방법은 무엇입니까? [복사]

Question

GNU와 BSD는 둘 다 sed적절한 로케일에서 멀티바이트를 인식합니다.y명령은 다음과 유사합니다.tr:

$ echo hello | sed -e 'y/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'
ｈｅｌｌｏ

로케일이 UTF-8이면 실행 가능한 대부분의 위치에서 작동합니다.

Perl 문제는 멀티바이트 문자를 바이트로 처리하는 것만큼 간단하지 않습니다. 입력을 매우 잘 이해하고 출력을 인코딩하기도 합니다.소스 코드이해하지 못합니다:

$ echo abc | perl -C -pe 'tr/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'|hexdump -C
00000000  c3 af c2 bd c2 81 0a                              |.......|

"a"의 UTF-8 인코딩은 ef bd 81"b"를 두 번째 바이트로 처리한 다음 출력 시 인코딩을 시도하고 "c"에도 동일하게 적용되는 것을 볼 수 있습니다. 너use utf8Perl(5) 소스 코드 자체를 이 방식으로 인코딩해야 합니다 .; -C프로그램이 실행 중일 때만 IO를 제어합니다.

use utf8;문자열 을 입력 -e하거나-Mutf8명령줄에서 사용:

$ echo abc | perl -C -Mutf8 -pe 'tr/abcdefghijklmnopqrstuvwxyz/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ/'
ａｂｃ

Perl 6은 많은 문제처럼 이 문제를 해결하지만...

Answer 1