일반화하다

Question

일반화하다

데이터베이스는 많은 메타데이터, 조직 데이터 등을 보관하는 경향이 있습니다. 삽입은 텍스트 파일과 마찬가지로 단순한 추가가 아닐 가능성이 높습니다. SQLite 테스트에서는 WAL 모드와 비WAL 모드 모두에서 이 동작을 보여줍니다. 이로 인해 rsync는 예상보다 더 많은 데이터를 동기화해야 합니다. 낮은 값을 사용하면 이 오버헤드를 약간 줄일 수 있습니다 --block-size(체크섬을 계산하고 전송하는 데 더 많은 오버헤드가 발생함).

더 나은 접근 방식은 새 레코드를 SQL 덤프로 덤프하고 압축한 후 전송하는 것입니다. 또는 여러 SQLite 복제 솔루션이 있는 것으로 보이며 그 중 하나를 사용할 수 있습니다.

로에마gzip --rsyncable최소한 전체 SQL 덤프를 수행하고 압축을 사용한 다음 rsync를 사용하는 것이 좋습니다 . 증분이 충분히 작은지 테스트해 볼 가치가 있다고 생각합니다.

세부 사항

당신은 무엇을 노력하고 있습니까?~해야 한다일하다. 개인적 --partial으로 증가하는 파일을 부분 전송으로 감지하는 경우를 대비해 rsync 옵션을 추가하겠습니다 . 그렇게 하면 더 나은 전송 통계를 얻을 수도 있습니다 --stats.

두 번째로 확인해야 할 것은 SQLite가 실제로 몇 페이지만 만지고 있는지 여부입니다. 솔직히 전체 파일에 페이지를 쓰는 경우에는 놀라지 않을 것입니다. 확인하는 빠른 방법은 두 버전 모두에서 작업하는 것입니다 cmp -l. 마지막 몇 페이지를 제외하고 변경된 페이지가 있는지 확인하세요. rsync"페이지"/청크의 개념은 SQLite의 개념과 다르다는 점을 명심하세요 . rsync를 통해 이를 변경할 수 있습니다 --block-size. 줄이는 것이 도움이 될 수 있습니다.

편집하다:SQLite를 사용하여 빠른 테스트를 수행했습니다. 32,000페이지라도 휘갈겨 쓴 로그 항목을 잔뜩 추가하세요모든페이지. 자세한 내용은 다음과 같습니다.

편집 2: 여전히 많은 오버헤드가 필요하지만(아마도 체크포인팅으로 인해) WAL 모드가 더 나은 것 같습니다.

편집 3: 전송당 더 많은 데이터를 추가할수록 더 좋습니다. 특정 덩어리를 계속해서 뒤섞을 수 있다고 생각합니다. 따라서 한 번 쓰든 백 번 쓰든 동일한 청크를 전송합니다.

그런데: 전송을 최소화하려면 rsync보다 더 나은 결과를 얻을 수 있습니다. 예를 들어 마지막 전송 실행 이후 새 레코드의 SQL 덤프 xz --best(심지어 gzip)는 더 작을 수 있습니다.

빠른 SQLite 테스트

건축학:

CREATE TABLE log (id integer primary key not null, ts integer not null, app text not null, message text not null);
CREATE INDEX log_ts_idx on log(ts);
CREATE INDEX log_app_idx on log(app);

펄 프로그램:

use 5.022;
use DBI;

my $DBH = DBI->connect('dbi:SQLite:test.db', '', '', {RaiseError => 1, AutoCommit => 0})
    or die "connect...";

my @apps = (
    '[kthreadd]',        '[ksoftirqd/0]',
    ⋮ # there were 191 of these
    '[kworker/5:0H]',
);

my @messages = <DATA>;

(my $curr_time) = $DBH->selectrow_array(<<QUERY);
    SELECT COALESCE(MAX(ts),978307200) FROM log
QUERY

my $n_apps = @apps;
my $n_msgs = @messages;
say "Apps: $n_apps";
say "Messages: $n_msgs";
say 'Start time: ', scalar gmtime($curr_time), ' UTC';

my $sth = $DBH->prepare(<<QUERY);
    INSERT INTO log(ts, app, message) VALUES (?, ?, ?)
QUERY

for (my $i = 0; $i < 10_000; ++$i) {
    $sth->execute(int($curr_time), $apps[int rand $n_apps], $messages[int rand $n_msgs]);
    $curr_time += rand 0.1;
}
$DBH->commit;

__DATA__
microcode: CPU0 microcode updated early to revision 0x19, date = 2013-06-21
Linux version 4.5.0-2-amd64 ([email protected]) (gcc version 5.3.1 20160528 (Debian 5.3.1-21) ) #1 SMP Debian 4.5.5-1 (2016-05-29)
⋮

더 많은 예제 로그 메시지가 있습니다(2076).

어떤 페이지가 변경되었는지 확인하세요.

cp test.db test.db.old
perl test.pl
cmp -l test.db.old test.db | perl -n -E '/^\s*(\d+) / or die "wtf"; $bucket{int $1/32768} = 1; END { say join "\n", sort( { $a <=> $b } keys %bucket) }'

Answer 1

일반화하다

데이터베이스는 많은 메타데이터, 조직 데이터 등을 보관하는 경향이 있습니다. 삽입은 텍스트 파일과 마찬가지로 단순한 추가가 아닐 가능성이 높습니다. SQLite 테스트에서는 WAL 모드와 비WAL 모드 모두에서 이 동작을 보여줍니다. 이로 인해 rsync는 예상보다 더 많은 데이터를 동기화해야 합니다. 낮은 값을 사용하면 이 오버헤드를 약간 줄일 수 있습니다 --block-size(체크섬을 계산하고 전송하는 데 더 많은 오버헤드가 발생함).

더 나은 접근 방식은 새 레코드를 SQL 덤프로 덤프하고 압축한 후 전송하는 것입니다. 또는 여러 SQLite 복제 솔루션이 있는 것으로 보이며 그 중 하나를 사용할 수 있습니다.

로에마gzip --rsyncable최소한 전체 SQL 덤프를 수행하고 압축을 사용한 다음 rsync를 사용하는 것이 좋습니다 . 증분이 충분히 작은지 테스트해 볼 가치가 있다고 생각합니다.

세부 사항

당신은 무엇을 노력하고 있습니까?~해야 한다일하다. 개인적 --partial으로 증가하는 파일을 부분 전송으로 감지하는 경우를 대비해 rsync 옵션을 추가하겠습니다 . 그렇게 하면 더 나은 전송 통계를 얻을 수도 있습니다 --stats.

두 번째로 확인해야 할 것은 SQLite가 실제로 몇 페이지만 만지고 있는지 여부입니다. 솔직히 전체 파일에 페이지를 쓰는 경우에는 놀라지 않을 것입니다. 확인하는 빠른 방법은 두 버전 모두에서 작업하는 것입니다 cmp -l. 마지막 몇 페이지를 제외하고 변경된 페이지가 있는지 확인하세요. rsync"페이지"/청크의 개념은 SQLite의 개념과 다르다는 점을 명심하세요 . rsync를 통해 이를 변경할 수 있습니다 --block-size. 줄이는 것이 도움이 될 수 있습니다.

편집하다:SQLite를 사용하여 빠른 테스트를 수행했습니다. 32,000페이지라도 휘갈겨 쓴 로그 항목을 잔뜩 추가하세요모든페이지. 자세한 내용은 다음과 같습니다.

편집 2: 여전히 많은 오버헤드가 필요하지만(아마도 체크포인팅으로 인해) WAL 모드가 더 나은 것 같습니다.

편집 3: 전송당 더 많은 데이터를 추가할수록 더 좋습니다. 특정 덩어리를 계속해서 뒤섞을 수 있다고 생각합니다. 따라서 한 번 쓰든 백 번 쓰든 동일한 청크를 전송합니다.

그런데: 전송을 최소화하려면 rsync보다 더 나은 결과를 얻을 수 있습니다. 예를 들어 마지막 전송 실행 이후 새 레코드의 SQL 덤프 xz --best(심지어 gzip)는 더 작을 수 있습니다.

빠른 SQLite 테스트

건축학:

CREATE TABLE log (id integer primary key not null, ts integer not null, app text not null, message text not null);
CREATE INDEX log_ts_idx on log(ts);
CREATE INDEX log_app_idx on log(app);

펄 프로그램:

use 5.022;
use DBI;

my $DBH = DBI->connect('dbi:SQLite:test.db', '', '', {RaiseError => 1, AutoCommit => 0})
    or die "connect...";

my @apps = (
    '[kthreadd]',        '[ksoftirqd/0]',
    ⋮ # there were 191 of these
    '[kworker/5:0H]',
);

my @messages = <DATA>;

(my $curr_time) = $DBH->selectrow_array(<<QUERY);
    SELECT COALESCE(MAX(ts),978307200) FROM log
QUERY

my $n_apps = @apps;
my $n_msgs = @messages;
say "Apps: $n_apps";
say "Messages: $n_msgs";
say 'Start time: ', scalar gmtime($curr_time), ' UTC';

my $sth = $DBH->prepare(<<QUERY);
    INSERT INTO log(ts, app, message) VALUES (?, ?, ?)
QUERY

for (my $i = 0; $i < 10_000; ++$i) {
    $sth->execute(int($curr_time), $apps[int rand $n_apps], $messages[int rand $n_msgs]);
    $curr_time += rand 0.1;
}
$DBH->commit;

__DATA__
microcode: CPU0 microcode updated early to revision 0x19, date = 2013-06-21
Linux version 4.5.0-2-amd64 ([email protected]) (gcc version 5.3.1 20160528 (Debian 5.3.1-21) ) #1 SMP Debian 4.5.5-1 (2016-05-29)
⋮

더 많은 예제 로그 메시지가 있습니다(2076).

어떤 페이지가 변경되었는지 확인하세요.

cp test.db test.db.old
perl test.pl
cmp -l test.db.old test.db | perl -n -E '/^\s*(\d+) / or die "wtf"; $bucket{int $1/32768} = 1; END { say join "\n", sort( { $a <=> $b } keys %bucket) }'

일반화하다

답변1

일반화하다

세부 사항

빠른 SQLite 테스트

관련 정보