duperemove에 대한 올바른 블록 크기 선택

Question

완전한 답변은 아니지만 블록 크기에 대해: 테스트 데이터 세트에서 64K 블록 크기의 중복 제거가 여전히 합리적인 시간 내에 완료되었음을 발견했습니다. 4K는 작은 장면에는 적합하지만 큰 장면에는 적합하지 않습니다. 300-500G의 데이터 세트의 경우 16K의 블록 크기가 잘 작동하지만 8K에서는 성능이 크게 떨어집니다.

블록 크기를 조정하기 전에 스캔하려는 데이터의 양을 줄이십시오. 이것이 리소스를 절약하는 가장 좋은 방법입니다.

스냅샷이 여러 개인 경우(모두 중복 제거되었거나 읽기 전용) 스냅샷을 모두 스캔해도 아무런 이점이 없습니다. 하나만 있으면 충분합니다. 가장 최신이거나 가장 오랫동안 유지하고 싶은 것이 바람직합니다.
중복이 있을 위치(예: 대부분 동일한 경로)에 대한 대략적인 예상이 있는 경우 파일 시스템을 더 작은 부분으로 나누어 "부분 간" 중복을 최소화하고 부분 중복별로 제거하십시오. 많은 반복이 예상되지 않는 섹션을 제외하세요.

마지막으로 테스트해 보세요. 128K(기본값)로 시작하고 거기에서 위아래로 작업합니다(매번 새 해시 파일 사용). 완료 시간이 여전히 허용 가능하고 메모리가 부족하지 않으면 더 작은 블록 크기(반 또는 1/4)를 사용합니다. ) 이전 기사의 내용을 반복합니다). 너무 많은 시간이나 메모리가 필요한 경우 중단하고 블록 크기를 2~4배 늘립니다. 취할 수 있는 가장 낮은 값은 기본 파일 시스템의 블록 크기입니다 stat -f /path/to/mountpoint(btrfs의 기본 블록 크기는 4K입니다).

동일한 데이터 세트에 대해 여러 실행을 수행하는 경우: 더 큰 청크가 이미 중복 제거되었으므로 두 번째 및 후속 실행은 더 빨리 완료되고 메모리를 덜 사용하지만 드라이브 공간도 절약됩니다.

Answer 1

완전한 답변은 아니지만 블록 크기에 대해: 테스트 데이터 세트에서 64K 블록 크기의 중복 제거가 여전히 합리적인 시간 내에 완료되었음을 발견했습니다. 4K는 작은 장면에는 적합하지만 큰 장면에는 적합하지 않습니다. 300-500G의 데이터 세트의 경우 16K의 블록 크기가 잘 작동하지만 8K에서는 성능이 크게 떨어집니다.

블록 크기를 조정하기 전에 스캔하려는 데이터의 양을 줄이십시오. 이것이 리소스를 절약하는 가장 좋은 방법입니다.

스냅샷이 여러 개인 경우(모두 중복 제거되었거나 읽기 전용) 스냅샷을 모두 스캔해도 아무런 이점이 없습니다. 하나만 있으면 충분합니다. 가장 최신이거나 가장 오랫동안 유지하고 싶은 것이 바람직합니다.
중복이 있을 위치(예: 대부분 동일한 경로)에 대한 대략적인 예상이 있는 경우 파일 시스템을 더 작은 부분으로 나누어 "부분 간" 중복을 최소화하고 부분 중복별로 제거하십시오. 많은 반복이 예상되지 않는 섹션을 제외하세요.

마지막으로 테스트해 보세요. 128K(기본값)로 시작하고 거기에서 위아래로 작업합니다(매번 새 해시 파일 사용). 완료 시간이 여전히 허용 가능하고 메모리가 부족하지 않으면 더 작은 블록 크기(반 또는 1/4)를 사용합니다. ) 이전 기사의 내용을 반복합니다). 너무 많은 시간이나 메모리가 필요한 경우 중단하고 블록 크기를 2~4배 늘립니다. 취할 수 있는 가장 낮은 값은 기본 파일 시스템의 블록 크기입니다 stat -f /path/to/mountpoint(btrfs의 기본 블록 크기는 4K입니다).

동일한 데이터 세트에 대해 여러 실행을 수행하는 경우: 더 큰 청크가 이미 중복 제거되었으므로 두 번째 및 후속 실행은 더 빨리 완료되고 메모리를 덜 사용하지만 드라이브 공간도 절약됩니다.

duperemove에 대한 올바른 블록 크기 선택

답변1

관련 정보