수백만 개의 매우 유사한 행 스트림을 생성하는 프로세스가 있습니다. 로 전송할 예정입니다 gz
. 이와 같은 설정에서 시간이 지남에 따라 압축률이 향상됩니까? 즉, 10,000개의 유사한 행보다 100만 개의 유사한 행에 대한 압축률이 더 좋습니까?
답변1
그것은 어느 정도 효과가 있을 것이고 균일해질 것입니다. 압축 알고리즘은 보는 블록의 크기( bzip2
) 및/또는 이전 모드 정보를 포함하여 저장하는 테이블( )에 gzip
제한이 있습니다 .
gzip의 경우 테이블이 가득 차면 이전 항목이 밀려나고 압축이 더 이상 향상되지 않습니다. 압축 성능 지수( -0
~ )와 입력의 반복성에 따라 -9
이 패딩은 물론 시간이 걸릴 수 있으며 눈치채지 못할 수도 있습니다.
답변2
별로. DEFLATE 알고리즘이 적용되는 "거리"는 gzip
32KB로 제한됩니다.
답변3
이것은gzip 알고리즘 개요.
즉, 해싱에 필요한 초기 데이터를 고려하더라도 크게 개선되지는 않습니다.