Skip to content

音频分词器的算术

2026-04-19 · 666字 · 3分钟 · 浏览量

我们可以认为,自然中的声音信号是在时间分辨率和特征分辨率上都无限高的连续信号,离散信号处理要对时间和特征分辨率分别进行采样,单位为帧率和位深度,即每秒采样多少帧,每帧占用多少信息码位。

离散信号处理中的原始音频信号的帧率和位深度一般如下:

场景采样率 fs​/khz位深度 d/bit声道数 c原始码率 bitrate/kbps
电话8161128
语音16161256
音乐24161384
CD44.11621411
DVD481621536

音频分词器是在原始信号的基础上进一步对时间降采样并对特征量化的一种压缩方式。例如传统的 codec

格式典型码率采样率位深度压缩率
MP312844.1165.5x
AAC128 / 25644.1/48163~6x
Opus64-12848166~12x

事实上,mel 谱也可以视为一种广义上的音频分词器,以帧跳为 512,mel 特征维度为 80 计算,位深度为 32 为例,码率压缩率 = 时域压缩率 * 特征压缩率 * 位深度压缩率。其中时域压缩率为 512,特征压缩率为 1/80,位深度压缩率为 1/2,故 mel 谱的压缩率为 512/(80*2) = 3.2。

对于 neural codec 而言,压缩率可以进一步提高。例如:

模型原始采样率 khz帧跳帧率 hz特征维度位深度 bit码率 kbps压缩率
EnCodec243207532102416
SoundStream2432075810664
DAC44.1512869107.7491

这里,原始采样率 / 帧跳 = 帧率。特征维度即码本数,位深度即 log2 码本大小,因此以 DAC 为例,其压缩率=512*(1/9)*(16/10) = 91

而现在有一些连续 codec,准确说叫连续 autoencoder,其不在隐空间上作量化,例如 CALM 中的 VAE,或者 VibeVoice 的 σ-VAE。

模型原始采样率 khz帧跳帧率 hz特征维度位深度 bit码率 kbps压缩率
CALM24192012.5323212.830
Vibevoice2432007.5643215.3625

因为我们始终属于离散信号处理的领域,所以 codec 连续还是离散主要区别在于是否使用了某种量化手段,例如 基于 K-means 聚类的向量量化 VQ,有限标量量化 FSQ,二元标量量化 BSQ。在信息表示上本质都是离散的,因此离散 codec 的码本数相当于连续 codec 的特征维度,离散 codec 的码本大小相当于连续 codec 的位深度。

返回

人同此心,心同此理;如风沐面,若水润心