json 콘텐츠 인덱스에 대한 고유 ID 생성

Question 1

귀하의 스크립트가 너무 오래 걸리는 이유는 uuidgen귀하가 각 줄에서 실행하고 있기 때문일 것입니다. cksum각 프로세스를 시작하는 것만으로도 많은 시간이 낭비됩니다.

5M 라인 형식을 {"name": "John%d", "surname": "Gates", "country": "Germany", "age": "20", "height": "180"}tmpfs 파일 시스템의 파일에 배치하려면 다음 Python 스크립트가 몇 초 안에 완료됩니다.

#! /usr/bin/env python3

import hashlib
import sys
for line in sys.stdin:
    print(hashlib.md5(line.rstrip('\n').encode('utf-8')).hexdigest())

구현하다:

$ time ./foo.py < input > output
./foo.py < input > output  6.00s user 0.13s system 99% cpu 6.135 total
% wc -l input output
  5000000 input
  5000000 output
 10000000 total

Python이므로 행을 JSON으로 디코딩하고 각 행에 ID를 삽입할 수도 있습니다. 다음과 같은 비효율적인 코드도 있습니다.

#! /usr/bin/env python3

import hashlib
import json
import sys
for line in sys.stdin:
    l = line.rstrip('\n').encode('utf-8')
    o = json.loads(line)
    o["id"] = hashlib.md5(l).hexdigest()
    print(json.dumps(o))

1분 안에 완료:

% time ./foo.py < input > output
./foo.py < input > output  42.11s user 0.42s system 99% cpu 42.600 total

% head output 
{"name": "John1", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "2dc573ccb15679f58abfc44ec8169e52"}
{"name": "John2", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "ee0583acaf8ad0e502bf5abd29f37edb"}
{"name": "John3", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "a7352ebb79db8c8fc2cc8758eadd9ea3"}
{"name": "John4", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "2062ad1b67ccdce55663bfd523ce1dfb"}
{"name": "John5", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "5f81325c104c01c3e82abd2190f14bcf"}
{"name": "John6", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "493e0c9656f74ec3616e60886ee38e6a"}
{"name": "John7", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "19af9ef2e20466d0fb0efcf03f56d3f6"}
{"name": "John8", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "2348bd47b20ac6445213254c6a8aa80b"}
{"name": "John9", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "090a521b4a858705dc69bf9c8dca6c19"}
{"name": "John10", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "fc3c699323cbe399e210e4a191f04003"}

내 사양:

인텔® 코어™ i7-8700 CPU @ 3.20GHz × 12
2666MHz DDR4 메모리

uuidgen나는 당신의 스크립트를 기반으로 4분 만에 500,000줄을 간신히 관리했습니다. 출력을 저장하도록 수정합니다.

#!/usr/bin/bash

while IFS= read -r line
do
   uuidgen -s --namespace @dns --name "$line"
done < input > uuid

구현하다:

% timeout 240 ./foo.sh
% wc -l uuid
522160 uuid

Answer

귀하의 스크립트가 너무 오래 걸리는 이유는 uuidgen귀하가 각 줄에서 실행하고 있기 때문일 것입니다. cksum각 프로세스를 시작하는 것만으로도 많은 시간이 낭비됩니다.

5M 라인 형식을 {"name": "John%d", "surname": "Gates", "country": "Germany", "age": "20", "height": "180"}tmpfs 파일 시스템의 파일에 배치하려면 다음 Python 스크립트가 몇 초 안에 완료됩니다.

#! /usr/bin/env python3

import hashlib
import sys
for line in sys.stdin:
    print(hashlib.md5(line.rstrip('\n').encode('utf-8')).hexdigest())

구현하다:

$ time ./foo.py < input > output
./foo.py < input > output  6.00s user 0.13s system 99% cpu 6.135 total
% wc -l input output
  5000000 input
  5000000 output
 10000000 total

Python이므로 행을 JSON으로 디코딩하고 각 행에 ID를 삽입할 수도 있습니다. 다음과 같은 비효율적인 코드도 있습니다.

#! /usr/bin/env python3

import hashlib
import json
import sys
for line in sys.stdin:
    l = line.rstrip('\n').encode('utf-8')
    o = json.loads(line)
    o["id"] = hashlib.md5(l).hexdigest()
    print(json.dumps(o))

1분 안에 완료:

% time ./foo.py < input > output
./foo.py < input > output  42.11s user 0.42s system 99% cpu 42.600 total

% head output 
{"name": "John1", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "2dc573ccb15679f58abfc44ec8169e52"}
{"name": "John2", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "ee0583acaf8ad0e502bf5abd29f37edb"}
{"name": "John3", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "a7352ebb79db8c8fc2cc8758eadd9ea3"}
{"name": "John4", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "2062ad1b67ccdce55663bfd523ce1dfb"}
{"name": "John5", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "5f81325c104c01c3e82abd2190f14bcf"}
{"name": "John6", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "493e0c9656f74ec3616e60886ee38e6a"}
{"name": "John7", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "19af9ef2e20466d0fb0efcf03f56d3f6"}
{"name": "John8", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "2348bd47b20ac6445213254c6a8aa80b"}
{"name": "John9", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "090a521b4a858705dc69bf9c8dca6c19"}
{"name": "John10", "surname": "Gates", "country": "Germany", "age": "20", "height": "180", "id": "fc3c699323cbe399e210e4a191f04003"}

내 사양:

인텔® 코어™ i7-8700 CPU @ 3.20GHz × 12
2666MHz DDR4 메모리

uuidgen나는 당신의 스크립트를 기반으로 4분 만에 500,000줄을 간신히 관리했습니다. 출력을 저장하도록 수정합니다.

#!/usr/bin/bash

while IFS= read -r line
do
   uuidgen -s --namespace @dns --name "$line"
done < input > uuid

구현하다:

% timeout 240 ./foo.sh
% wc -l uuid
522160 uuid

Question 2

JSON 행이 지시한 대로라고 가정하고 awk에서 간단한 ID 아이디어를 구현합니다. 모두 한 줄에 있습니다.

awk -F'"' 'BEGIN{OFS=FS} {$1=$1"\"id\": \""$4$8$12$16$20"\", "; }1' < input

나는 당신과 비슷한 시스템을 가지고 있지 않으므로 시간이 허용되는지 확인해야 할 것입니다.

Answer

JSON 행이 지시한 대로라고 가정하고 awk에서 간단한 ID 아이디어를 구현합니다. 모두 한 줄에 있습니다.

awk -F'"' 'BEGIN{OFS=FS} {$1=$1"\"id\": \""$4$8$12$16$20"\", "; }1' < input

나는 당신과 비슷한 시스템을 가지고 있지 않으므로 시간이 허용되는지 확인해야 할 것입니다.

Question 3

사고 실험으로서 저는 이러한 유형의 문제를 해결하기 위해 CLI 도구를 얼마나 활용할 수 있는지 확인하고 싶었습니다. 이를 위해 빠른 해시 CLI 도구를 사용해 보고 싶습니다.xx 해시 값작업을 수행합니다.

xxHash는 RAM 제한에 가깝게 작동하는 매우 빠른 비암호화 해시 알고리즘입니다. 32비트와 64비트의 두 가지 버전으로 제공됩니다.

xxhsum모든 프로그래밍 언어에서 작동하지만 이 실험에서는 CLI 버전, 특히 32비트 모드를 사용하므로 xxhsum -H0.

귀하가 발견하고 다른 사람들이 말했듯이 해시 함수 CLI 도구 또는 도구를 반복해서 호출하는 것은 일반적으로 이러한 유형의 접근 방식이 실패하는 경우입니다. 이것을 5M 번 호출하는 것은 xxhsum그것을 사용하는 데 차선책이 될 것입니다. 장점은 파일 I/O인데, 5M 행을 5M 파일로 변환하면 어떻게 될까요?

이 작업은 Linux에서 실제로 간단합니다. 다음 split명령을 사용하십시오.

split -l 1 afile

각 파일에 한 줄씩 이러한 파일(예: 1M)을 해시하는 것이 얼마나 빠릅니까?

예제 1 라인 파일

$ cat datadir/xzeyw
{"name": "John4000", "surname": "Gates", "country": "Germany", "age": "20", "height": "180"}

1M 파일이 포함된 디렉터리

$ ls -l datadir | wc -l
1000002

해시할 시간

$ { time xxhsum -H0 * > ../nfile 2>&1 ;} |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'
real: 0m6.998s  user: 0m5.007s  sys: 0m1.569s

네 맞습니다. 약 7초 정도 걸렸습니다! 나는 이것이 매우 인상적이라고 생각합니다. 이 방법을 사용하면 xxhsum한 번만 실행하는 비용만 발생하고 1M 파일을 반복할 수 있습니다.

이 방법의 단점

물론 그 단점 중 하나는 split여러분이 상상할 수 있듯이 이것이 가장 비용이 많이 드는 작업이 된다는 것입니다. X 줄이 포함된 단일 파일을 가져와서 단일 줄이 포함된 X 파일로 HDD에 분리해야 하기 때문입니다.

다음은 일부 데이터입니다.

./hashy.bash

make data
---------
real: 0m17.492s user: 0m12.434s sys: 0m4.788s

split data
----------
real: 2m15.180s user: 0m0.700s  sys: 2m4.443s

hash data
---------
real: 0m6.487s  user: 0m5.798s  sys: 0m0.459s

split여기에서 작업이 약 2분 정도 소요되었음을 알 수 있습니다 .노트:이 출력의 첫 번째 줄은 100만 줄의 JSON이 포함된 파일을 빌드하는 데 걸리는 시간을 보여줍니다.

또 다른 단점은 명령줄에서 처리하는 파일 수입니다. 일부 장소에서 사용하고 있으므로 *1M 또는 5M 파일 이름으로 확장되며 이는 위험한 것으로 간주될 수 있습니다. 파일 수를 늘리면 명령줄 매개변수에 할당된 공간을 초과할 위험이 있다는 점에 유의하세요.

명령줄 길이에 대한 자세한 내용은 다음 링크를 참조하세요.

결론적으로

상상할 수 있듯이 1M 또는 5M 파일로 이러한 문제를 해결하는 것은 거의 우스꽝스러워 보입니다. 나도 동의해야 해요. 하지만 CLI 도구를 올바른 방식으로 활용하면 뛰어난 성능을 얻을 수 있다는 점을 보여주기 때문에 여전히 흥미로운 실험입니다.

hashy.bash 코드

누구든지 코드에 관심이 있다면:

$ cat hashy.bash
#!/bin/bash

echo ""
echo "make data"
echo "---------"
rm -f afile
{ time for i in {0..1000000};do echo "{\"name\": \"John${i}\", \"surname\": \"Gates\", \"country\": \"Germany\", \"age\": \"20\", \"height\": \"180\"}">> afile ;done ;} \
  |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'
echo ""
echo ""

rm -fr datadir && mkdir datadir && cd datadir

echo "split data"
echo "----------"
{ time split -l 1 ../afile ;} |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'
echo ""
echo ""

echo "hash data"
echo "---------"
{ time xxhsum -H0 * > ../nfile 2>&1 ;} |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'

cd - > /dev/null 2>&1
echo ""
echo ""

인용하다

Answer

사고 실험으로서 저는 이러한 유형의 문제를 해결하기 위해 CLI 도구를 얼마나 활용할 수 있는지 확인하고 싶었습니다. 이를 위해 빠른 해시 CLI 도구를 사용해 보고 싶습니다.xx 해시 값작업을 수행합니다.

xxHash는 RAM 제한에 가깝게 작동하는 매우 빠른 비암호화 해시 알고리즘입니다. 32비트와 64비트의 두 가지 버전으로 제공됩니다.

xxhsum모든 프로그래밍 언어에서 작동하지만 이 실험에서는 CLI 버전, 특히 32비트 모드를 사용하므로 xxhsum -H0.

귀하가 발견하고 다른 사람들이 말했듯이 해시 함수 CLI 도구 또는 도구를 반복해서 호출하는 것은 일반적으로 이러한 유형의 접근 방식이 실패하는 경우입니다. 이것을 5M 번 호출하는 것은 xxhsum그것을 사용하는 데 차선책이 될 것입니다. 장점은 파일 I/O인데, 5M 행을 5M 파일로 변환하면 어떻게 될까요?

이 작업은 Linux에서 실제로 간단합니다. 다음 split명령을 사용하십시오.

split -l 1 afile

각 파일에 한 줄씩 이러한 파일(예: 1M)을 해시하는 것이 얼마나 빠릅니까?

예제 1 라인 파일

$ cat datadir/xzeyw
{"name": "John4000", "surname": "Gates", "country": "Germany", "age": "20", "height": "180"}

1M 파일이 포함된 디렉터리

$ ls -l datadir | wc -l
1000002

해시할 시간

$ { time xxhsum -H0 * > ../nfile 2>&1 ;} |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'
real: 0m6.998s  user: 0m5.007s  sys: 0m1.569s

네 맞습니다. 약 7초 정도 걸렸습니다! 나는 이것이 매우 인상적이라고 생각합니다. 이 방법을 사용하면 xxhsum한 번만 실행하는 비용만 발생하고 1M 파일을 반복할 수 있습니다.

이 방법의 단점

물론 그 단점 중 하나는 split여러분이 상상할 수 있듯이 이것이 가장 비용이 많이 드는 작업이 된다는 것입니다. X 줄이 포함된 단일 파일을 가져와서 단일 줄이 포함된 X 파일로 HDD에 분리해야 하기 때문입니다.

다음은 일부 데이터입니다.

./hashy.bash

make data
---------
real: 0m17.492s user: 0m12.434s sys: 0m4.788s

split data
----------
real: 2m15.180s user: 0m0.700s  sys: 2m4.443s

hash data
---------
real: 0m6.487s  user: 0m5.798s  sys: 0m0.459s

split여기에서 작업이 약 2분 정도 소요되었음을 알 수 있습니다 .노트:이 출력의 첫 번째 줄은 100만 줄의 JSON이 포함된 파일을 빌드하는 데 걸리는 시간을 보여줍니다.

또 다른 단점은 명령줄에서 처리하는 파일 수입니다. 일부 장소에서 사용하고 있으므로 *1M 또는 5M 파일 이름으로 확장되며 이는 위험한 것으로 간주될 수 있습니다. 파일 수를 늘리면 명령줄 매개변수에 할당된 공간을 초과할 위험이 있다는 점에 유의하세요.

명령줄 길이에 대한 자세한 내용은 다음 링크를 참조하세요.

결론적으로

상상할 수 있듯이 1M 또는 5M 파일로 이러한 문제를 해결하는 것은 거의 우스꽝스러워 보입니다. 나도 동의해야 해요. 하지만 CLI 도구를 올바른 방식으로 활용하면 뛰어난 성능을 얻을 수 있다는 점을 보여주기 때문에 여전히 흥미로운 실험입니다.

hashy.bash 코드

누구든지 코드에 관심이 있다면:

$ cat hashy.bash
#!/bin/bash

echo ""
echo "make data"
echo "---------"
rm -f afile
{ time for i in {0..1000000};do echo "{\"name\": \"John${i}\", \"surname\": \"Gates\", \"country\": \"Germany\", \"age\": \"20\", \"height\": \"180\"}">> afile ;done ;} \
  |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'
echo ""
echo ""

rm -fr datadir && mkdir datadir && cd datadir

echo "split data"
echo "----------"
{ time split -l 1 ../afile ;} |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'
echo ""
echo ""

echo "hash data"
echo "---------"
{ time xxhsum -H0 * > ../nfile 2>&1 ;} |& awk '/real|user|sys/ {print $1": "$2"\t"}' | tr -d '\n'

cd - > /dev/null 2>&1
echo ""
echo ""

인용하다

Question 4

먼저 데이터를 SQLite 데이터베이스로 가져옵니다. 여기서는 Miller( mlr)를 사용하여 제공한 JSONL 데이터를 CSV로 변환한 다음 data새 데이터베이스의 테이블로 읽습니다.

mlr --l2c cat file.json | sqlite3 database.db '.import --csv /dev/stdin data'

완료되면 UPDATE 문을 사용하여 제안된 구성표를 사용하여 식별자를 생성할 수 있습니다.

sqlite> .mode box
sqlite> SELECT * FROM data;
┌───────┬─────────┬─────────┬─────┬────────┐
│ name  │ surname │ country │ age │ height │
├───────┼─────────┼─────────┼─────┼────────┤
│ John  │ Gates   │ Germany │ 20  │ 180    │
│ John1 │ Gates   │ Germany │ 20  │ 180    │
│ John2 │ Gates   │ Germany │ 20  │ 180    │
│ John3 │ Gates   │ Germany │ 20  │ 180    │
└───────┴─────────┴─────────┴─────┴────────┘

sqlite> ALTER TABLE data ADD COLUMN id TEXT;
sqlite> UPDATE data SET id = concat(name,surname,country,age,height);
sqlite> SELECT * FROM data;
┌───────┬─────────┬─────────┬─────┬────────┬────────────────────────┐
│ name  │ surname │ country │ age │ height │           id           │
├───────┼─────────┼─────────┼─────┼────────┼────────────────────────┤
│ John  │ Gates   │ Germany │ 20  │ 180    │ JohnGatesGermany20180  │
│ John1 │ Gates   │ Germany │ 20  │ 180    │ John1GatesGermany20180 │
│ John2 │ Gates   │ Germany │ 20  │ 180    │ John2GatesGermany20180 │
│ John3 │ Gates   │ Germany │ 20  │ 180    │ John3GatesGermany20180 │
└───────┴─────────┴─────────┴─────┴────────┴────────────────────────┘

id분명히 Miller에게 즉석에서 칼럼을 작성 하도록 요청할 수 있습니다 . 다음은 공백으로 구분된 각 레코드 필드의 MD5 해시를 사용합니다.

mlr --l2c put '$id = md5(joinv($*," "))' file | sqlite3 database.db '.import --csv /dev/stdin data'

sqlite> .mode box
sqlite> SELECT * FROM data;
┌───────┬─────────┬─────────┬─────┬────────┬──────────────────────────────────┐
│ name  │ surname │ country │ age │ height │                id                │
├───────┼─────────┼─────────┼─────┼────────┼──────────────────────────────────┤
│ John  │ Gates   │ Germany │ 20  │ 180    │ 150c35e2efb7093e1c30a46a0226f82c │
│ John1 │ Gates   │ Germany │ 20  │ 180    │ c58a8be627dc1d6c9da36dd6de9fa62d │
│ John2 │ Gates   │ Germany │ 20  │ 180    │ e41b62a821f51c13eea2191ebcbb5837 │
│ John3 │ Gates   │ Germany │ 20  │ 180    │ 8e1012a599356fee66727107b750ba1a │
└───────┴─────────┴─────────┴─────┴────────┴──────────────────────────────────┘

최근(2020년) MacBook Air(M1)에서 이를 테스트하는 데 Miller를 사용하여 MD5 해시를 계산하고 500만 개의 레코드를 데이터베이스로 가져오는 데 약 42초가 걸렸습니다.

Answer

먼저 데이터를 SQLite 데이터베이스로 가져옵니다. 여기서는 Miller( mlr)를 사용하여 제공한 JSONL 데이터를 CSV로 변환한 다음 data새 데이터베이스의 테이블로 읽습니다.

mlr --l2c cat file.json | sqlite3 database.db '.import --csv /dev/stdin data'

완료되면 UPDATE 문을 사용하여 제안된 구성표를 사용하여 식별자를 생성할 수 있습니다.

sqlite> .mode box
sqlite> SELECT * FROM data;
┌───────┬─────────┬─────────┬─────┬────────┐
│ name  │ surname │ country │ age │ height │
├───────┼─────────┼─────────┼─────┼────────┤
│ John  │ Gates   │ Germany │ 20  │ 180    │
│ John1 │ Gates   │ Germany │ 20  │ 180    │
│ John2 │ Gates   │ Germany │ 20  │ 180    │
│ John3 │ Gates   │ Germany │ 20  │ 180    │
└───────┴─────────┴─────────┴─────┴────────┘

sqlite> ALTER TABLE data ADD COLUMN id TEXT;
sqlite> UPDATE data SET id = concat(name,surname,country,age,height);
sqlite> SELECT * FROM data;
┌───────┬─────────┬─────────┬─────┬────────┬────────────────────────┐
│ name  │ surname │ country │ age │ height │           id           │
├───────┼─────────┼─────────┼─────┼────────┼────────────────────────┤
│ John  │ Gates   │ Germany │ 20  │ 180    │ JohnGatesGermany20180  │
│ John1 │ Gates   │ Germany │ 20  │ 180    │ John1GatesGermany20180 │
│ John2 │ Gates   │ Germany │ 20  │ 180    │ John2GatesGermany20180 │
│ John3 │ Gates   │ Germany │ 20  │ 180    │ John3GatesGermany20180 │
└───────┴─────────┴─────────┴─────┴────────┴────────────────────────┘

id분명히 Miller에게 즉석에서 칼럼을 작성 하도록 요청할 수 있습니다 . 다음은 공백으로 구분된 각 레코드 필드의 MD5 해시를 사용합니다.

mlr --l2c put '$id = md5(joinv($*," "))' file | sqlite3 database.db '.import --csv /dev/stdin data'

sqlite> .mode box
sqlite> SELECT * FROM data;
┌───────┬─────────┬─────────┬─────┬────────┬──────────────────────────────────┐
│ name  │ surname │ country │ age │ height │                id                │
├───────┼─────────┼─────────┼─────┼────────┼──────────────────────────────────┤
│ John  │ Gates   │ Germany │ 20  │ 180    │ 150c35e2efb7093e1c30a46a0226f82c │
│ John1 │ Gates   │ Germany │ 20  │ 180    │ c58a8be627dc1d6c9da36dd6de9fa62d │
│ John2 │ Gates   │ Germany │ 20  │ 180    │ e41b62a821f51c13eea2191ebcbb5837 │
│ John3 │ Gates   │ Germany │ 20  │ 180    │ 8e1012a599356fee66727107b750ba1a │
└───────┴─────────┴─────────┴─────┴────────┴──────────────────────────────────┘

최근(2020년) MacBook Air(M1)에서 이를 테스트하는 데 Miller를 사용하여 MD5 해시를 계산하고 500만 개의 레코드를 데이터베이스로 가져오는 데 약 42초가 걸렸습니다.

json 콘텐츠 인덱스에 대한 고유 ID 생성

답변1

답변2

답변3

이 방법의 단점

결론적으로

hashy.bash 코드

인용하다

답변4

관련 정보