이상한 압축 문제

이상한 압축 문제

필요하지만 Centos 서버에서 삭제하고 싶지 않은 오래된 기록의 일부 원시 센서 데이터를 압축하려고 합니다.

녹음된 데이터는 독점 형식이지만 모든 의도와 목적을 위해 이를 1000Hz에서 306채널 PCM 32비트 오디오 녹음으로 설명할 수 있습니다. 파일 헤더에는 수백 줄의 일반 텍스트 메타데이터가 있습니다. 파일 크기는 100MB~1.9GB이고, 디렉터리 크기는 약 7GB이며, 처리된 파일 디렉터리는 데이터에 필터가 적용된 원본 데이터의 복사본을 포함하여 최대 60GB까지 가능합니다.

이것은 이상한 점이다. bzip2를 사용하면 원본 크기의 30%, pxz를 사용하면 원본 크기의 26%로 원본 데이터를 압축할 수 있습니다. ZPAQ 및 lzrip을 사용하여 유사한 결과를 얻었습니다. 하지만 데이터 PCM 32비트 변수를 처리하면 10%에서 12%까지만 줄일 수 있습니다. 16비트의 짧은 처리 데이터로 원본 크기의 50% 정도까지 압축할 수 있습니다. 데이터를 처리하면 데이터 기록이 단순화되고 기록 변경이 줄어듭니다.

어떤 제안이 있으십니까? 비슷한 사람 있나요? 처리 중인 데이터에 대해 최대한 공간 효율적이기를 원하며, 처리 후에는 데이터에 오류가 없는지 확인할 계획입니다. 처리된 축소 데이터가 원본 데이터보다 압축성이 떨어지는 이유를 아시나요?

//EDIT - FLAC를 보지만 원래 형식으로 다시 변환하면 문제가 발생할 수 있습니다. 불가능하지는 않습니다..아직 찾고 있습니다.

//솔루션 편집. FLAC은 370개 채널의 데이터를 좋아하지 않습니다. 그러나 나는 나만의 큰 사전을 만들고 큰 파일의 조각을 사용하여 훈련함으로써 어느 정도 압축할 수 있었습니다.

답변1

형식에 대한 문서가 있습니까? 원시 형식을 PCM wav + 메타데이터 + 3D 데이터로 변환하고 다시 변환하는 작은 프로그램을 작성하세요. 서로 다른 주파수 신호가 중첩된 경우 FLAC와 같은 무손실 오디오 압축 알고리즘을 사용하여 잘 압축해야 합니다.

FLAC는 MP3와 같습니다. 오디오 데이터를 다른 형식으로 다시 작성하여 압축합니다. 따라서 이것은 내가 "래퍼"라고 부르는 것이 아닙니다(나는 어떤 압축기도 "래퍼"라고 부르지 않습니다). 그러나 MP3와 달리 압축은 무손실입니다. 압축을 풀면 bzip2 등과 같이 정확히 동일한 데이터를 얻게 됩니다. FLAC의 오디오 데이터 압축률은 약 50%입니다.

컨테이너 형식에 따라 압축된 오디오에 메타데이터를 저장하는 방법에는 여러 가지가 있습니다. 세 개의 파일을 모두 하나의 아카이브 파일(원하는 형식으로)에 넣을 수도 있지만 압축된 PCM 데이터는 더 이상 압축되지 않습니다.

관련 정보