ZFS - 압축 파일이 디스크 사용량을 겉보기 크기의 거의 두 배로 표시하는 이유는 무엇입니까?

Question

4K 섹터(총 12개)가 있는 12개의 디스크로 구성된 vdev에서 8K 레코드를 스트라이핑하는 것은 ashift좋지 않은 생각이며 많은 오버헤드를 초래합니다.

OpenZFS에서:

https://openzfs.github.io/openzfs-docs/기본 개념/RAIDZ.html

이러한 입력으로 인해 레코드 크기가 섹터 크기보다 작거나 같은 경우 RAIDZ의 패리티 크기는 중복성이 동일한 미러와 사실상 동일합니다. 예를 들어 3개의 디스크가 있는 raidz1(ashift=12 및 records=4K)의 경우 디스크에 다음을 할당합니다.

4K 데이터 블록 1개

4K 패딩 블록 1개

사용 가능한 공간 비율은 50%로 듀얼 미러와 동일합니다.

3개의 디스크가 있고 ashift=12이고 레코드 크기=128K인 raidz1의 또 다른 예:

총 스트라이프 너비는 3입니다.

1개의 패리티 블록이 있으므로 스트라이프는 최대 2개의 4K 크기 데이터 부분을 가질 수 있습니다.

각각 8K 데이터와 4K 패리티가 포함된 128K/2 = 64개의 스트라이프가 있습니다.

따라서 이 예의 여유 공간 비율은 66%입니다.

RAIDZ에 디스크가 많을수록 스트라이프가 넓어지고 공간 효율성이 높아집니다.

이 텍스트 다음에는 화면을 캡처하여 여기에 포함하면 읽을 수 없는 다이어그램이 있지만, 섹터 크기의 1배 또는 2배인 레코드 크기의 경우 오버헤드가 RAIDZ2에서 67%가 된다는 것을 보여줍니다.

차트에 따르면 이 경우 솔루션은 recordsize12디스크 RAIDZ2 vdev에서 패리티 + 패딩 비용이 18%인 256K로 늘리는 것입니다. ( recordsize비교해 보면 128K의 경우 24%의 오버헤드가 발생합니다).

그러나 그렇게 간단하지는 않습니다. "클래식" 파일 시스템의 경우 다음과 같이 초기 선택인 8K가 recordsize정확할 수 있습니다.recordsize최고고정된 블록 크기가 아닌 블록 크기입니다. 그러나 recordsize더 큰 파일과 상대적으로 작은 파일에 대해서는 여전히 불이익이 있습니다.

증가는 recordsize변경 후 생성된 데이터에만 영향을 주지만 이 경우 풀은 공간의 6%만 소비하며 현재 압축률은 1.4배입니다. 장기적인 용량 문제를 일으키지 않고 기존 데이터를 그대로 유지할 수 있습니다. 그러나 복구 오버헤드가 필요한 경우:

https://openzfs.github.io/openzfs-docs/성능 및 튜닝/워크로드 Tuning.html

애플리케이션이 다른 레코드 크기로 더 나은 성능을 발휘해야 하기 때문에 레코드 크기를 변경하는 경우 해당 파일을 다시 생성해야 합니다. 각 파일에 cp 다음에 mv가 있으면 충분합니다. 또는 전체 수신이 완료되면 send/recv가 올바른 레코드 크기로 파일을 다시 생성해야 합니다.

상관관계 풀링에 대한 실제 실험에서:

# zfs set recordsize=256K pool02/redactedStorage

# dd if=/dev/zero of=testfile256.40M.zeroes bs=1M count=40
# du -h testfile256.40M.zeroes
512B    testfile256.40M.zeroes

# dd if=/dev/random of=testfile256.40M.rnd bs=1M count=40
# du -h testfile256.40M.rnd
 40M    testfile256.40M.rnd

# dd if=/dev/random of=testfile256.8K.rnd bs=8192 count=1
# du -h testfile256.8K.rnd
 37K    testfile256.8K.rnd

보시다시피 40M 파일은 많은 양의 논리적 공간을 사용하고 있습니다. 하지만 8K 파일은 37K의 공간을 소비합니다!

따라서 recordsize데이터 세트의 내용에 따라 조정되어야 합니다.

물론 128K 기본값이 recordsize최적인 것 같으니 건드리지 말아야겠습니다.

# zfs set recordsize=128K pool02/redactedStorage
# cp testfile256.40M.rnd testfile128.40M.rnd
# du -h testfile128.40M.rnd
512B    testfile128.40M.rnd
# mv testfile128.40M.rnd testfile128.40M.rnd2
# du -h testfile128.40M.rnd2
 40M    testfile128.40M.rnd2

# cp testfile256.8K.rnd testfile128.8K.rnd
# mv testfile128.8K.rnd testfile128.8K.rnd2
# du -h testfile128.8K.rnd2
 19K    testfile128.8K.rnd2

이는 8K 테스트 파일이 19K의 디스크 공간을 사용하지만 필요한 메타데이터 오버헤드가 있음을 보여줍니다. 보고 있다비압축성기존 파일 크기는 <=8K이고 모든 파일도 원본 파일에서 recordsize=8K19K의 디스크 사용량을 표시합니다 . 추가로 시도했지만 recordsize=64K샘플 파일의 크기에는 아무런 영향이 없었습니다.

또한 new 아래에 파일 인스턴스를 생성하려면 cp후자가 실제로 필요하다는 점에 유의하세요 .mvrecordsize

이 기사는 또한 무슨 일이 일어나고 있는지에 대한 좋은 설명을 제공하며, 이는 후손을 위해 남겨두겠습니다.

https://klarasystems.com/articles/choosing-the-right-zfs-pool-layout/

패딩, 디스크 섹터 크기 및 레코드 크기 설정:RAID-Z에서는 패리티 정보가 RAID-5처럼 특정 스트라이프가 아닌 각 블록과 연관되어 있으므로 너무 작아서 재사용할 수 없는 세그먼트가 해제되는 것을 방지하려면 각 데이터 할당이 p+1(패리티+1) 다중이어야 합니다. 할당된 데이터가 p+1의 배수가 아닌 경우 "패딩"이 사용되므로 RAID-Z는 RAID-5보다 패리티와 패딩 공간이 조금 더 필요합니다. 이는 복잡한 질문이지만 간단히 말해서 공간 비효율성을 방지하려면 ZFS 레코드 크기를 디스크 섹터 크기보다 훨씬 크게 유지해야 합니다. 512바이트 섹터 디스크의 경우 Recordsize=4K 또는 8K를 사용할 수 있습니다. 4K 섹터 디스크의 경우 Recordsize는 이 값의 몇 배여야 합니다(기본값 128K이면 충분함). 그렇지 않으면 너무 많은 공간을 잃게 될 수 있습니다.

Answer 1