Bash: 100,000자 이상의 문자를 10진수 형식으로 변환하시겠습니까?

Question 1

Perl이 구출하러 옵니다!

perl -nE 'say join ",", map ord, split //' < file

-n입력 내용을 한 줄씩 읽고 각 줄에 대한 코드를 실행합니다.
나뉘다빈 정규식에서 //입력을 단일 문자로 분할
지도각 문자를 해당 문자에 매핑주문하다
가입하다문자에서 문자열을 만들고 그 사이에 쉼표를 삽입합니다.
설명하다출력 결과

입력을 한 줄씩 처리하지 않으려면 추가 조정이 필요할 수 있습니다.

Answer

Perl이 구출하러 옵니다!

perl -nE 'say join ",", map ord, split //' < file

-n입력 내용을 한 줄씩 읽고 각 줄에 대한 코드를 실행합니다.
나뉘다빈 정규식에서 //입력을 단일 문자로 분할
지도각 문자를 해당 문자에 매핑주문하다
가입하다문자에서 문자열을 만들고 그 사이에 쉼표를 삽입합니다.
설명하다출력 결과

입력을 한 줄씩 처리하지 않으려면 추가 조정이 필요할 수 있습니다.

Question 2

대부분의 시간은 배열을 만드는 데 소요되며 마지막에 콜론을 제거하기 위해 이 작업을 수행하는 것 같습니다. 대신, 플래그만 사용하고 배열 전체를 구축하는 것을 피하세요. 그러면 훨씬 더 빨라질 것입니다.

#!/bin/bash

string='QPWOEIRUTYALSKDJFHGZMXNCBV,./;[]75498053$#!@*&^%(*'

convert() {
    local first=1
    for ((b=0; b<${#string}; b++ )); do
        (( first )) && first=0 || printf ,
        printf '%d' "'${string:$b:1}"
    done
}

time convert

비교시간입니다. 첫째, 초기 솔루션에는 1000자가 포함됩니다.

real  0m0.454s
user  0m0.439s
sys   0m0.057s

이 솔루션의 문자 수는 1,000자입니다.

real  0m0.148s
user  0m0.147s
sys   0m0.001s

이는 내장 명령을 사용하여 bash를 입력하는 것만큼 빠릅니다. 가능하다면 위의 Perl과 같이 이를 처리하기 위한 더 나은 도구를 구입하는 것이 좋습니다.

Answer

대부분의 시간은 배열을 만드는 데 소요되며 마지막에 콜론을 제거하기 위해 이 작업을 수행하는 것 같습니다. 대신, 플래그만 사용하고 배열 전체를 구축하는 것을 피하세요. 그러면 훨씬 더 빨라질 것입니다.

#!/bin/bash

string='QPWOEIRUTYALSKDJFHGZMXNCBV,./;[]75498053$#!@*&^%(*'

convert() {
    local first=1
    for ((b=0; b<${#string}; b++ )); do
        (( first )) && first=0 || printf ,
        printf '%d' "'${string:$b:1}"
    done
}

time convert

비교시간입니다. 첫째, 초기 솔루션에는 1000자가 포함됩니다.

real  0m0.454s
user  0m0.439s
sys   0m0.057s

이 솔루션의 문자 수는 1,000자입니다.

real  0m0.148s
user  0m0.147s
sys   0m0.001s

이는 내장 명령을 사용하여 bash를 입력하는 것만큼 빠릅니다. 가능하다면 위의 Perl과 같이 이를 처리하기 위한 더 나은 도구를 구입하는 것이 좋습니다.

Question 3

hexdump이것이 /의 목적입니다 od:

<input hexdump -ve '/1 ",%u"' | tail -c+2

예를 들어.

메소드처럼 각 문자의 코드 포인트 1 값이 아니라 각 바이트의 값을 인쇄합니다. ASCII 문자만 포함된 예에서는 아무런 효과가 없습니다.

유니코드 코드 포인트를 얻으려면 먼저 입력을 UCS4로 변환하면 됩니다. 비교하다:

$ printf %s 'Stéphane' | hexdump -ve '/1 ",%u"' | tail -c+2
83,116,195,169,112,104,97,110,101
$ printf %s 'Stéphane' | iconv -t ucs-4le | hexdump -ve '/4 ",%u"' | tail -c+2
83,116,233,112,104,97,110,101

리틀 엔디안 프로세서(x86)가 있는 UTF-8 로케일에서 첫 번째 방법이 é(U+00E9) 문자의 UTF-8 인코딩의 2바이트(195 및 169)를 덤프하는 방법을 확인하고 두 번째 방법은 233(0xe9)을 인쇄합니다.

^{1 bash에 대한 내장 함수 printf는 일반적으로 단일 바이트 문자 매핑이 있는 로케일의 바이트 값을 인쇄하므로 해당 문자 세트에 코드 포인트를 제공하고 대부분의 시스템에서 유니코드 코드가 되는 멀티바이트 문자 매핑의 경우 포인트의 넓은 문자 값}

Answer