Zlib 사전 훈련

2024-6-3 • tag-icon

해결해야 할 독특한 문제가 있습니다. 짧은 문자열(문장)에 대해 작동하는 압축/압축 해제를 만들어야 합니다. 예를 들어 제한된 수의 고유 ASCII 문자(실제로는 총 41개의 가능한 문자)를 포함하는 100바이트 문자열이 있습니다. 이러한 문자열에는 상대적으로 작은 가능한 하위 문자열 집합도 포함되어 있습니다.

유효한 문자 집합과 자주 발생하는 하위 문자열을 기반으로 사전을 생성하도록 zlib를 교육하고 싶습니다.

이상적으로는 가능한 문장의 거대한 데이터 세트를 제공하지만 불법 문자는 제외하여 사전을 만들고 싶습니다.

어떤 제안이 있으십니까? 감사해요

관련 정보