분할을 사용하여 중국어 유니코드 바이트를 문자 블록으로 분할할 수 있습니까?

Question 1

xxd다음 출력에 표시된 것처럼 각 문자의 너비는 3바이트입니다 .

$ xxd chinese-bytes
0000000: e6b4 9ee5 baad e6b9 96                   .........

split -b3나를 위해 작동합니다.

$ split -b3 chinese-bytes
$ echo xa?
xaa xab xac
$ cat xaa; echo
洞
$ cat xab; echo
庭
$ cat xac; echo
湖

Answer

xxd다음 출력에 표시된 것처럼 각 문자의 너비는 3바이트입니다 .

$ xxd chinese-bytes
0000000: e6b4 9ee5 baad e6b9 96                   .........

split -b3나를 위해 작동합니다.

$ split -b3 chinese-bytes
$ echo xa?
xaa xab xac
$ cat xaa; echo
洞
$ cat xab; echo
庭
$ cat xac; echo
湖

Question 2

내가 아는 한, 모든 한자는 인코딩 시 길이가 3바이트입니다.UTF-8, 유닉스의 일반적인 유니코드 인코딩입니다. 그러나 중국어가 아닌 문자(예: 공백 및 개행 문자)는 너비가 다를 수 있습니다(기본 제어 문자 및 아라비아 숫자 형식 등은 모두 1바이트 너비입니다). 유틸리티 split는 고정된 바이트 수만 이해하므로 정렬되지 않은 컷을 무차별적으로 만듭니다.

42자마다 분할하려면 보다 정교한 도구를 사용해야 합니다. 다음은 트릭을 수행하는 Perl 조각입니다(테스트되지 않음). 모든 문자를 동일하게 취급합니다. 한자는 개행 문자와 마찬가지로 1로 계산됩니다.

perl -CDS -e '
    $n = 0;
    while (read STDIN, $buf, 42) {
        open OUT, sprintf("> output-$n.txt") or die;
        print OUT $buf;
        close OUT or die;
        ++$n;
    }'

Answer

내가 아는 한, 모든 한자는 인코딩 시 길이가 3바이트입니다.UTF-8, 유닉스의 일반적인 유니코드 인코딩입니다. 그러나 중국어가 아닌 문자(예: 공백 및 개행 문자)는 너비가 다를 수 있습니다(기본 제어 문자 및 아라비아 숫자 형식 등은 모두 1바이트 너비입니다). 유틸리티 split는 고정된 바이트 수만 이해하므로 정렬되지 않은 컷을 무차별적으로 만듭니다.

42자마다 분할하려면 보다 정교한 도구를 사용해야 합니다. 다음은 트릭을 수행하는 Perl 조각입니다(테스트되지 않음). 모든 문자를 동일하게 취급합니다. 한자는 개행 문자와 마찬가지로 1로 계산됩니다.

perl -CDS -e '
    $n = 0;
    while (read STDIN, $buf, 42) {
        open OUT, sprintf("> output-$n.txt") or die;
        print OUT $buf;
        close OUT or die;
        ++$n;
    }'

Question 3

내가 사용하는 Mac 터미널에서egrep -o '.'

Answer

내가 사용하는 Mac 터미널에서egrep -o '.'

분할을 사용하여 중국어 유니코드 바이트를 문자 블록으로 분할할 수 있습니까?

답변1

답변2

답변3

관련 정보