시간이 지남에 따라 gz 압축 비율이 향상됩니까?

시간이 지남에 따라 gz 압축 비율이 향상됩니까?

수백만 개의 매우 유사한 행 스트림을 생성하는 프로세스가 있습니다. 로 전송할 예정입니다 gz. 이와 같은 설정에서 시간이 지남에 따라 압축률이 향상됩니까? 즉, 10,000개의 유사한 행보다 100만 개의 유사한 행에 대한 압축률이 더 좋습니까?

답변1

그것은 어느 정도 효과가 있을 것이고 균일해질 것입니다. 압축 알고리즘은 보는 블록의 크기( bzip2) 및/또는 이전 모드 정보를 포함하여 저장하는 테이블( )에 gzip제한이 있습니다 .

gzip의 경우 테이블이 가득 차면 이전 항목이 밀려나고 압축이 더 이상 향상되지 않습니다. 압축 성능 지수( -0~ )와 입력의 반복성에 따라 -9이 패딩은 물론 시간이 걸릴 수 있으며 눈치채지 못할 수도 있습니다.

답변2

별로. DEFLATE 알고리즘이 적용되는 "거리"는 gzip32KB로 제한됩니다.

위키피디아 링크 -> 수축

다양한 압축 수준을 gzip벤치마킹 하고 고려해 볼 가치가 있습니다.압축 패키지 2그리고xz.

답변3

이것은gzip 알고리즘 개요.

즉, 해싱에 필요한 초기 데이터를 고려하더라도 크게 개선되지는 않습니다.

관련 정보