따옴표 안의 자릿수를 기준으로 데이터 구문 분석

따옴표 안의 자릿수를 기준으로 데이터 구문 분석

현재 현재 형식의 많은 양의 데이터가 있습니다.

a:7:{i:0;s:4:"9999";i:1;s:4:"10000";i:2;s:4:"10001";i:3;s:4:"10002";i:4;s:4:"10003";i:5;s:4:"10004";i:6;s:4:"989";}

""앞에 숫자는 입니다 s:4. 3자리 긴 숫자의 경우 로 변경되고 s:3, 5자리 긴 숫자의 경우 로 변경되어야 합니다 s:5.

변환된 데이터는 다음과 같아야 합니다.

a:7:{i:0;s:4:"9999";i:1;s:5:"10000";i:2;s:5:"10001";i:3;s:5:"10002";i:4;s:5:"10003";i:5;s:5:"10004";i:6;s:3:"989";}

각 데이터 문자열은 {}자체 행에 있습니다.data.txt

답변1

어때요?

perl -pe 's/s:\d+:"(.*?)"/sprintf("s:%d:\"%s\"",length($1),$1)/ge'

전임자.

$ echo 'a:7:{i:0;s:4:"9999";i:1;s:4:"10000";i:2;s:4:"10001";i:3;s:4:"10002";i:4;s:4:"10003";i:5;s:4:"10004";i:6;s:4:"989";}' | 
    perl -pe 's/s:\d+:"(.*?)"/sprintf("s:%d:\"%s\"",length($1),$1)/ge'
a:7:{i:0;s:4:"9999";i:1;s:5:"10000";i:2;s:5:"10001";i:3;s:5:"10002";i:4;s:5:"10003";i:5;s:5:"10004";i:6;s:3:"989";}

추가 -i하여 해당 파일에 대한 교체를 수행할 수 있습니다.

답변2

#!/usr/bin/env bash

IFS=';'

while read LINE
do

        set -- $LINE

        while [ "$1" ]
        do
                if [[ $1 =~ ^s:[0-9]+:\".*\"$ ]]; then
                        s=${1##*:}
                        printf 's:%d:%s%s' $((${#s}-2)) "$s" "$IFS"
                else
                        printf '%s%s' "$1" "$IFS"
                fi
                shift

        done
        printf '\n'

done < data.txt

스크립트는 필드 구분 기호를 세미콜론 문자로 설정한 다음 행을 반복하여 data.txt세미콜론 구분 기호에 따라 각 행을 별도의 필드로 분할합니다. (및 값에 대해)로 시작하는 필드의 경우 s:###:"..."스크립트는 인용된 문자열의 길이를 계산하고 해당 길이 값을 사용하여 필드 형식을 다시 지정하고 후행 필드 구분 기호를 추가합니다. 양식과 일치하지 않는 필드는 후행 필드 구분 기호가 다시 추가되어 그대로 출력됩니다.###...s:###:"..."

a:7:{i:0;s:4:"9999";i:1;s:5:"10000";i:2;s:5:"10001";i:3;s:5:"10002";i:4;s:5:"10003";i:5;s:5:"10004";i:6;s:3:"989";};

관련 정보