音频表征学习

音频表征学习

【Deep Research by Gemini 3.1 Pro】本文系统梳理音频/语音表征学习中连续表征与离散表征两条技术路线的发展脉络,从信息论视角分析两类表征的本质差异,深入讨论量化机制的技术体系,并追踪语义-声学融合、变帧率 token 等前沿方向。文章与语音预训练范式演进的讨论形成互补:后者侧重预训练框架的选择,本文则聚焦于表征本身的信息结构与构造方式。

目录

  1. 问题设定:表征的信息论视角
  2. 连续表征:从手工特征到自监督学习
  3. 离散表征:量化机制的技术体系
  4. 声学 Token 的系谱:神经音频编解码器
  5. 语义 Token 的系谱:SSL 模型的离散化
  6. 整体横向对比
  7. 统一表征:弥合语义与声学的尝试
  8. 前沿方向与开放问题
  9. 总结
  10. 参考文献

1. 问题设定:表征的信息论视角

1.1 音频信号的信息结构

原始音频波形是一个高维连续时间序列。以 16kHz 采样率录制的 1 秒语音包含 16,000 个采样点,直接在此空间建模语言内容或说话人特征既低效也不必要。然而,表征学习的目标并不仅仅是”降维”,而是在压缩的同时保留对目标任务有用的信息。

从信息论角度,语音信号 $\mathbf{x}$ 可以被视为多个潜在因子的混合生成结果:

$\mathbf{x} = f(\underbrace{c}{\text{内容}},\ \underbrace{s}{\text{说话人}},\ \underbrace{p}{\text{韵律}},\ \underbrace{n}{\text{噪声}},\ \ldots)$

其中内容因子 $c$ 对应音素序列,说话人因子 $s$ 对应声道共振特征,韵律因子 $p$ 对应基频与时长轮廓,噪声因子 $n$ 对应背景干扰。这些因子在物理上高度纠缠——同一说话人的声道特征同时影响音色($s$)和部分音素的发音方式($c$),韵律与情感状态相关但不等同。

这种信息纠缠导致不同下游任务对”好的表征”的要求相互矛盾:自动语音识别(ASR)需要对说话人变化保持不变性(最大化 $I(\mathbf{z}; c)$,最小化 $I(\mathbf{z}; s)$);说话人验证(SV)则需要精确保留说话人特征(最大化 $I(\mathbf{z}; s)$);语音合成(TTS)需要重建完整声学细节(最大化 $I(\mathbf{z}; \mathbf{x})$)。这一多目标张力是整个表征学习领域的核心困难。

1.2 信息瓶颈框架

信息瓶颈(Information Bottleneck, IB)理论 1 为表征学习提供了一个统一的理论框架:好的表征 $\mathbf{z}$ 应当在保留对目标变量 $y$ 的预测信息的同时,最小化对输入 $\mathbf{x}$ 的冗余信息:

$\min_{\mathbf{z}} \quad -I(\mathbf{z}; y) + \beta \cdot I(\mathbf{z}; \mathbf{x})$

其中 $\beta$ 控制压缩程度与信息保留之间的权衡。连续表征通常对应小 $\beta$(保留更多信息),离散表征通过量化引入强制信息瓶颈,对应大 $\beta$(更强压缩)。

然而,IB 框架在语音表征中面临一个根本困难:不同任务对应不同的目标变量 $y$(ASR 对应文本,SV 对应说话人标签),单一表征无法同时最优化所有任务的 IB 目标。这一困难直接催生了两条技术路线:连续表征保留尽可能多的信息,由下游任务自行选择所需成分;离散表征通过量化主动构造信息瓶颈,在压缩的同时(理想情况下)保留最关键的信息。

1.3 连续与离散的根本差异

连续表征与离散表征的差异不仅在于信息量,还在于符号兼容性。大语言模型(LLM)的语言建模框架本质上是在离散符号序列上定义的——下一个 token 的预测概率 $P(z_{t+1} z_1, \ldots, z_t)$ 要求 $z_t$ 是有限词汇表中的离散符号。连续表征与这一框架存在根本性的模态鸿沟:连续向量无法直接作为自回归语言模型的输入或输出目标。

这一鸿沟在 LLM 成为多模态系统核心之前并不突出,但随着语音 LLM 的兴起,它成为了整个领域最核心的工程与算法问题:如何在信息保真度与符号兼容性之间找到最优权衡?


2. 连续表征:从手工特征到自监督学习

2.1 手工特征的历史起点

在深度学习普及之前,音频表征主要依赖手工设计的频域特征。MFCC(梅尔频率倒谱系数)模拟人耳的感知特性,将频谱映射到梅尔尺度后取倒谱系数,有效压缩了冗余信息;log-Mel 频谱图直接保留梅尔滤波器组的输出,信息量更丰富,成为 Whisper 2 等现代模型的标准输入格式。

这类手工特征的局限在于其信息瓶颈由先验假设决定,而非由数据驱动优化。MFCC 的倒谱系数变换会丢失部分频谱信息(尤其是相位),且对噪声和说话人变化的鲁棒性有限。更根本的问题是,这些特征无法自适应下游任务需求——同一套 MFCC 特征被用于 ASR、说话人识别和情感识别,但这三类任务对信息的需求截然不同。

2.2 自监督学习的连续表征

自监督学习(SSL)模型从大规模无标注数据中学习连续表征,其 Transformer 编码器的隐层输出成为新的通用特征。这类表征的核心优势在于:通过大规模预训练,模型隐式地学习了语音信号的多层次结构,而无需任何标注数据。

wav2vec 2.03 的 Transformer 编码器输出是连续的上下文化表示,通过对比学习目标在被掩码位置进行训练。HuBERT4 以 k-means 伪标签为目标训练掩码预测,其连续输出在 SUPERB 基准 5 的多任务评估中展现出强大的迁移能力。WavLM6 在 HuBERT 基础上引入去噪预训练,使连续表征对噪声更鲁棒,在说话人验证(SV)、情感识别(ER)、语音增强(SE)等 15 个任务上均达到当时最优水平。data2vec7 以教师模型(学生模型的指数移动平均)的连续输出作为预测目标,主张连续目标携带更丰富的上下文信息,避免了离散化带来的信息损失。

SSL 连续表征的一个重要特性是层次性:模型不同层次捕获不同类型的信息。研究表明,浅层(第 1—3 层)偏向声学特征,中层(第 6—9 层)偏向音素信息,深层(第 18—24 层)偏向语义内容 5。这一层次结构为按需选择或融合不同层次信息提供了灵活性,也是 SUPERB 基准中加权层融合(Weighted Sum)策略有效的原因。从信息论角度,这一层次性对应于 IB 目标中 $\beta$ 的隐式变化:浅层 $\beta$ 小(保留更多声学细节),深层 $\beta$ 大(更强压缩,保留语义信息)。

2.3 连续表征的信息解耦

SSL 连续表征将多种信息混合在同一向量中,这对需要特定信息的任务造成干扰。信息解耦(Disentanglement)研究旨在从混合表征中分离出特定因子。

ContentVec8 是说话人解耦方向的代表工作:在 HuBERT 的训练框架中引入说话人扰动(对输入语音进行音色变换,保持内容不变)和对比损失,使模型学习对说话人变化不变的内容表征。其核心思想是通过最小化 $I(\mathbf{z}; s)$(说话人互信息)同时最大化 $I(\mathbf{z}; c)$(内容互信息),实现内容-说话人解耦。实验表明,ContentVec 在语音转换(VC)任务上的说话人相似度(SECS)比原始 HuBERT 提升显著 8

SpeechTripleNet9 将解耦目标扩展到三个维度:内容(音素序列)、音色(说话人特征)和韵律(基频、时长)。通过三路独立编码器和专用损失函数(包括对抗损失、互信息最小化和韵律重建损失),该模型实现了对三类信息的端到端分离,为可控语音合成提供了细粒度的表征基础。

解耦的根本困难在于语音因子的物理纠缠:说话人的声道特征同时影响音色和部分音素的发音方式,韵律与情感状态高度相关但不完全等同。目前的解耦方法大多依赖近似的监督信号(如说话人标签、音素标注),难以实现理论意义上的完全解耦。

2.4 连续表征与 LLM 的对接

随着 LLM 成为多模态系统的核心,如何将连续表征对接到 LLM 成为关键工程问题。连续融合路径的代表包括 SALMONN 10 和 Qwen-Audio 系列 11:前者通过 Q-Former 将 Whisper 和 BEATs 的连续输出压缩为固定数量的查询向量后输入 LLM,后者则通过线性投影层直接映射。

连续融合的优势在于信息损失小——语音编码器的完整输出被保留,LLM 可以访问包括说话人特征、韵律信息在内的全部声学细节。然而,这一路径面临一个被称为”LLM 休眠”(LLM Dormancy)的现象 12:语音编码器的连续输出分布与 LLM 在文本预训练中见过的 token 分布存在显著差异,导致 LLM 的注意力机制无法有效将语音特征与其内部语义知识关联,模型行为更接近增强版 ASR 系统而非真正的语音理解推理系统。

Flow-Omni13 提出了一种不同的连续表征利用方式:不将连续特征作为 LLM 的输入,而是将其作为 LLM 的输出目标,通过流匹配(Flow Matching)损失预测连续语音 token 的概率分布,再由解码器重建波形。这一设计避免了离散化的信息损失,同时利用了 LLM 的自回归生成能力,在语音到语音的实时交互场景中展现出优于离散 token 路径的鲁棒性 13


3. 离散表征:量化机制的技术体系

3.1 离散化的动机与代价

离散化的动机来自多个层面。从工程角度,离散符号比连续向量更易于压缩存储和网络传输——$V$ 个符号可用 $\lceil \log_2 V \rceil$ 比特编码;从建模角度,离散 token 与文本 token 的形式一致,使语音可以直接接入 LLM 的语言建模框架;从表征学习角度,量化引入的信息瓶颈可能迫使模型学习更抽象、更具泛化性的表示。

然而,离散化不可避免地引入信息损失。设连续表征 $\mathbf{z} \in \mathbb{R}^d$,量化后的离散 token 为 $q = Q(\mathbf{z}) \in {1, \ldots, V}$,则信息损失可用互信息差来量化:

$\Delta I = I(\mathbf{z}; y) - I(q; y)$

其中 $y$ 为目标变量(如文本、说话人标签)。$\Delta I$ 的大小取决于量化粒度(码本大小 $V$)、量化方法的质量,以及目标变量 $y$ 与连续表征 $\mathbf{z}$ 的分布对齐程度。

量化粒度与序列长度之间存在根本权衡:量化粒度越粗(小 $V$),信息损失越大,但序列越短,语言建模越容易;量化粒度越细(大 $V$),信息保留越多,但序列越长,LLM 处理成本越高。此外,帧率 $F$(Hz)直接决定每秒产生的 token 数量,是影响序列长度的另一关键参数。

3.2 离线聚类:k-means 的应用与局限

k-means 聚类是最简单的离散化方案,在训练完成后对 SSL 模型的隐层输出进行聚类,将每一帧分配到最近的聚类中心。给定数据集 $X = {\mathbf{x}_1, \ldots, \mathbf{x}_N}$,k-means 求解:

$\min_{\mathcal{C}} \sum_{i=1}^N \min_{k \in {1,\ldots,V}} |\mathbf{x}_i - \mathbf{c}_k|^2$

其中 $\mathcal{C} = {\mathbf{c}_1, \ldots, \mathbf{c}_V}$ 为聚类中心集合。训练后,新数据通过最近邻查找量化:$q(\mathbf{x}) = \arg\min_k |\mathbf{x} - \mathbf{c}_k|^2$。

k-means 的优点是简单直接,无需修改 SSL 模型;缺点是在高维空间中受”维度诅咒”影响——当特征维度 $d$(通常为 768 或 1024)远大于聚类数 $V$(通常为 200—2048)时,欧氏距离的区分能力下降,聚类结果不稳定。更根本的问题是,k-means 的目标(最小化帧级重建误差)与下游任务的目标(捕获语言内容)并不完全一致,聚类结果在很大程度上受到输入特征选择(选择 SSL 的哪一层)和聚类数 $V$ 的影响 14

3.3 在线向量量化(VQ)

向量量化(VQ)允许量化模块与神经网络端到端联合训练,是神经音频编解码器的核心组件。

3.3.1 k-means VQ 与直通估计器

VQ-VAE 15 的核心贡献是提出了直通估计器(Straight-Through Estimator, STE)来解决量化操作不可微的问题。量化过程为:

$q(\mathbf{z}) = \arg\min_k |\mathbf{z} - \mathbf{c}k|^2$

由于 $\arg\min$ 不可微,STE 将梯度直接从量化后的码向量 $\mathbf{c}{q(\mathbf{z})}$ 传递回编码器输出 $\mathbf{z}$,即在反向传播中令 $\frac{\partial \mathbf{c}{q(\mathbf{z})}}{\partial \mathbf{z}} = \mathbf{I}$。训练目标包含三项:

$\mathcal{L} = \underbrace{|\mathbf{x} - \hat{\mathbf{x}}|^2}{\text{重建损失}} + \underbrace{|\text{sg}(\mathbf{z}) - \mathbf{c}{q(\mathbf{z})}|^2}{\text{码本损失}} + \underbrace{\beta |\mathbf{z} - \text{sg}(\mathbf{c}{q(\mathbf{z})})|^2}_{\text{承诺损失}}$

其中 $\text{sg}(\cdot)$ 为停止梯度算子,码本损失更新码向量,承诺损失迫使编码器输出靠近码向量。实践中,码本损失常用指数移动平均(EMA)更新替代,以提高训练稳定性 15

VQ 的主要问题是码本崩溃(Codebook Collapse):训练中大量码向量从未被使用,有效码本大小远小于设计值 $V$。这是因为一旦某些码向量在初始阶段获得优势,编码器会持续将输入映射到这些码向量附近,其他码向量因无法获得梯度更新而逐渐失效。应对策略包括:随机替换不活跃码向量(码本过期替换)、熵惩罚(鼓励均匀使用所有码向量)、低维因子化查找(在低维空间进行码本查找,减少维度诅咒的影响)16

3.3.2 Gumbel VQ

Gumbel VQ(wav2vec 2.0 3 采用)用 Gumbel-Softmax 替代直接的最近邻查找,通过可微的概率采样实现量化。给定输入 $\mathbf{z}$ 和码本大小 $V$,变换 $h(\mathbf{z}) \in \mathbb{R}^V$ 产生 $V$ 个 logit,推理时取 $q(\mathbf{z}) = \arg\max_i h(\mathbf{z})^{(i)}$,训练时用 Gumbel-Softmax 近似:

$\mathbf{s} = \text{Softmax}\left(\frac{h(\mathbf{z}) + \mathbf{v}}{\tau}\right), \quad \mathbf{v}_i \sim -\log(-\log(\text{Uniform}(0,1)))$

其中 $\tau$ 为温度参数,$\tau \to 0$ 时趋近于 one-hot,$\tau \to \infty$ 时趋近于均匀分布。Gumbel VQ 无需额外损失项,码向量可直接通过梯度学习;缺点是对 $\tau$ 敏感,训练稳定性不如 k-means VQ。

3.3.3 有限标量量化(FSQ)

有限标量量化(Finite Scalar Quantization, FSQ)17 是近年来提出的一种从根本上避免码本崩溃的方案。FSQ 将每个维度独立量化为 $L$ 个整数级别:

$q\left(\mathbf{z}^{(i)}\right) = \text{round}\left(\lfloor L/2 \rfloor \cdot \tanh\left(\mathbf{z}^{(i)}\right)\right)$

对于 $d$ 维向量,有效码本大小为 $V = L^d$(例如 $d=8, L=3$ 时 $V = 3^8 = 6561$)。FSQ 无需显式码本,从根本上避免了码本崩溃问题——每个维度的量化级别是固定的,不存在”失活”的码向量。CosyVoice 2 18 将 S³ Tokenizer 的 VQ 替换为 FSQ 后,码本利用率从约 60% 提升到接近 100% 16

FSQ 的局限在于:有效码本大小 $V = L^d$ 与维度 $d$ 强绑定,灵活性不如 VQ;量化空间固定,对编码器的映射能力要求更高;在小词汇量场景下,FSQ 的性能不如充分利用的 VQ 17

3.3.4 残差向量量化(RVQ)

残差向量量化(Residual Vector Quantization, RVQ)是神经音频编解码器中最广泛采用的量化方案,由 $Q$ 个串行量化器组成,每个量化器对前一个的残差进行量化:

$\mathbf{r}0 = \mathbf{z}, \quad q_i = Q_i(\mathbf{r}{i-1}), \quad \mathbf{r}i = \mathbf{r}{i-1} - \mathbf{c}_{q_i}^{(i)}$

最终量化表示为各层码向量之和:$\hat{\mathbf{z}} = \sum_{i=1}^Q \mathbf{c}_{q_i}^{(i)}$。RVQ 的优点是自然形成从粗到细的信息层次——第一层量化器捕获最主要的信息,后续层逐步补充细节。这一层次结构使 RVQ 允许通过选择不同层数灵活调整比特率:使用前 $k$ 层($k < Q$)即可在较低比特率下获得可接受的质量。

RVQ 的比特率为 $F \times Q \times \log_2 V$ bps,其中 $F$ 为帧率(Hz),$Q$ 为量化器数量,$V$ 为每个量化器的码本大小。例如,EnCodec 19 在 24kHz 下使用 $F=75$ Hz、$Q=8$、$V=1024$,比特率为 $75 \times 8 \times 10 = 6000$ bps = 6kbps。

RVQ 的缺点是串行结构不能并行化,且多层 STE 的嵌套可能使优化复杂。此外,RVQ 的各层之间存在信息冗余——相邻层的残差可能高度相关,导致实际信息容量低于理论上限。

下表对主要量化方法进行系统对比:

量化方法 是否可微 码本崩溃风险 词汇量灵活性 并行化 代表应用
k-means 聚类 HuBERT+km, GSLM
k-means VQ (STE) 是(近似) VQ-VAE, EnCodec
Gumbel VQ 是(近似) wav2vec 2.0
FSQ 是(取整) 极低 受限($L^d$) CosyVoice 2
RVQ 是(近似) 高(多层) 否(串行) SoundStream, EnCodec, Mimi
GVQ 是(近似) 高(多组) wav2vec 2.0

4. 声学 Token 的系谱:神经音频编解码器

4.1 设计框架:VQ-GAN

声学 token 由神经音频编解码器产生,目标是在低比特率下实现高质量的音频重建。这类模型通常采用编码器-量化器-解码器框架:编码器 $f_\theta$ 将输入音频 $\mathbf{x}$ 压缩为连续潜变量 $\mathbf{z} = f_\theta(\mathbf{x})$,量化器 $Q_\phi$ 将 $\mathbf{z}$ 映射为离散 token 及对应码向量 $\hat{\mathbf{z}} = Q_\phi(\mathbf{z})$,解码器 $g_\psi$ 从 $\hat{\mathbf{z}}$ 重建音频 $\hat{\mathbf{x}} = g_\psi(\hat{\mathbf{z}})$。

训练目标结合重建损失、对抗损失(GAN)和量化损失:

$\mathcal{L} = \underbrace{\mathcal{L}{\text{recon}}(\mathbf{x}, \hat{\mathbf{x}})}{\text{时域+频域重建}} + \underbrace{\mathcal{L}{\text{adv}}(\mathbf{x}, \hat{\mathbf{x}})}{\text{多尺度判别器}} + \underbrace{\mathcal{L}{\text{feat}}(\mathbf{x}, \hat{\mathbf{x}})}{\text{特征匹配}} + \underbrace{\mathcal{L}{\text{VQ}}(\mathbf{z}, \hat{\mathbf{z}})}{\text{量化损失}}$

其中多尺度判别器(通常包括多分辨率 STFT 判别器和多尺度波形判别器)是保证重建音质的关键——纯重建损失会导致过度平滑,GAN 损失迫使生成音频在感知上更自然。

4.2 代表模型的演进

VQ-VAE15(Van den Oord 等,NeurIPS 2017)是神经离散表征学习的奠基工作,首次在音频生成中验证了离散潜变量的可行性,提出了 STE 梯度近似方案。VQ-VAE 使用单个 VQ 层,码本大小 $V=512$,在语音合成中展现出离散表征的潜力,但重建质量有限。

SoundStream20(Zeghidour 等,IEEE/ACM TASLP 2021)是第一个端到端神经音频编解码器,采用纯 CNN 编码器-解码器结构和 RVQ 量化器($Q=8$,$V=1024$,$F=50$ Hz),支持 3kbps 下的高质量语音编码。SoundStream 引入的 VQ-GAN 训练框架(多分辨率 STFT 判别器 + 特征匹配损失)成为后续工作的标准范式。通过结构化 dropout(随机选择使用前 $k$ 个量化器,$k \sim \text{Uniform}(1, Q)$),SoundStream 实现了可变比特率支持。

EnCodec19(Défossez 等,2022)在 SoundStream 基础上引入了 LSTM 层增强时序建模,并加入语言模型先验(用小型 Transformer 对 RVQ token 序列建模)用于熵编码,在 1.5kbps 下实现了接近 24kHz 的高保真重建($Q=8$,$V=1024$,$F=75$ Hz,比特率 6kbps)。EnCodec 被 VALL-E、AudioLM 等模型广泛采用,成为离散 token 语音生成领域的事实标准。

DAC(Descript Audio Codec,2023)针对 EnCodec 的码本崩溃问题进行了系统性改进:引入码本向量的 L2 归一化(使所有码向量位于单位球面上,避免部分码向量因范数过大而主导查找结果)、随机码向量替换策略(将不活跃码向量替换为当前批次中的随机编码器输出)和 Factorized Codebook Lookup(在低维空间进行码本查找,减少维度诅咒的影响)。DAC 在 44.1kHz 下使用 $Q=12$,$V=1024$,$F=86.1$ Hz,在相同比特率下实现了更好的码本利用率和重建质量。

WavTokenizer21(Ji 等,ICLR 2025)将极低比特率设计推向极限:通过单码本($Q=1$,$V=4096$,$F=75$ Hz,0.9kbps)实现与多码本方案相当的重建质量。其关键设计是扩展的感受野(通过更大的 CNN 卷积核)和改进的解码器架构(引入 Vocos 风格的频域解码器),使单个码向量能够携带更多信息。WavTokenizer 的单码本设计显著简化了语言建模的复杂度——多码本 RVQ 需要多阶段或并行预测,而单码本可以直接用标准自回归语言模型处理。

Mimi22(Kyutai,2024)是 Moshi 实时对话系统的专用编解码器,采用 CNN + Transformer 混合架构($Q=8$,$V=2048$,$F=12.5$ Hz,1.1kbps)。Mimi 的关键设计是第一个码本通过对 WavLM 表示的蒸馏进行训练,使其捕获语义信息,而非仅优化声学重建质量。12.5Hz 的帧率(每 80ms 一帧)和流式处理设计(因果卷积 + 因果 Transformer 注意力掩码)使其支持实时低延迟应用。

4.3 声学 Token 的子类型

根据 Guo 等人 16 的系统综述,声学 token 可进一步细分为三个子类型:

通用声学 token 仅以重建质量为目标,不引入额外的语义约束。代表包括 EnCodec、DAC、WavTokenizer 等。这类 token 在重建质量上表现最好,但语义建模能力有限——以 LSTM 探针网络在 LibriSpeech 上的 ASR WER 衡量,EnCodec(Q=8)的 WER 高达 19.4%,WavTokenizer(75Hz)为 37.2% 16

语义蒸馏声学 token 在重建目标之外,引入 SSL 模型的语义监督信号,使声学 token 同时具备语义建模能力。代表包括 SpeechTokenizer 23、X-Codec、Mimi 22、DM-Codec 24 等。SpeechTokenizer 通过对 HuBERT 特定层的蒸馏,使 RVQ 第一层捕获语义信息,ASR WER 降至 19.3%,意图分类准确率(IC ACC)提升至 57.3%(相比 EnCodec 的 34.8%)16

解耦声学 token 以显式的信息解耦为目标,将说话人音色与内容/韵律信息在量化层面分离。代表包括 FACodec 25、LSCodec 26、SD-Codec 等。FACodec 通过梯度反转层(GRL)和专用监督信号,将语音分解为说话人音色、内容、韵律和声学细节四个独立的 RVQ 流,在声音转换任务上实现了 SECS=0.773、P.Corr=0.583 的性能 16


5. 语义 Token 的系谱:SSL 模型的离散化

5.1 语义 Token 的定义与动机

语义 token 的目标是捕获语音的语言内容,而非声学细节。这类 token 主要来源于 SSL 模型的离散化,其设计动机来自两个方面:其一,SSL 模型的连续输出在 ASR、情感识别等判别式任务上表现优异,离散化后的 token 可以继承这些语义特性;其二,语义 token 通常对说话人信息不敏感,天然适合语音转换等需要内容-说话人分离的任务。

值得注意的是,”语义”(semantic)这一命名在学界存在争议——部分研究者认为 SSL 特征更准确地描述为”音素级”(phonetic)而非”语义级”(semantic),因为它们主要捕获音素序列而非词汇语义 16。本文沿用”语义 token”这一惯用术语,但读者应理解其实际含义更接近”音素-语义”表征。

5.2 外部量化:HuBERT+k-means 的范式

外部量化是最常见的语义 token 构造方式:对预训练 SSL 模型的某一 Transformer 层输出进行 k-means 聚类,以聚类标签作为离散 token。

GSLM27(Lakhotia 等,2021)首次将 HuBERT+k-means token(聚类数 $V=100$)用于文本无关的语音语言模型,证明了语义 token 可以支持基本的语音生成。AudioLM28(Borsos 等,IEEE/ACM TASLP 2023)将语义 token(w2v-BERT+k-means,$V=1024$)作为语义建模的第一阶段,后续阶段再用声学 token 补充声学细节。

外部量化的关键设计选择是选择哪一层进行聚类。研究表明 14,对于 ASR 等内容理解任务,中间层(HuBERT Large 的第 9 层)的聚类效果优于最后一层;对于说话人验证等任务,浅层更合适。聚类数 $V$ 的选择也至关重要:$V$ 过小(如 100)会导致同一音素的不同变体被合并,丢失细粒度信息;$V$ 过大(如 2048)则会导致聚类不稳定,相同音素在不同语境下被分配到不同聚类。

5.3 内置量化:SSL 模型的联合训练

内置量化指 SSL 模型本身包含量化模块,其输出直接作为语义 token。

vq-wav2vec29(Baevski 等,2020)在 wav2vec 的特征编码器输出后插入 GVQ 模块($G=2$ 组,每组 $V=320$),以量化后的 token 序列作为 BERT 式预训练的输入。这是首个将 SSL 预训练与向量量化结合的工作,但量化模块与 BERT 预训练分阶段进行,存在优化脱节问题。

wav2vec 2.03 将量化模块与 Transformer 编码器端到端联合训练,使用 Gumbel VQ($G=2$ 组,每组 $V=320$),以量化后的 token 作为对比学习的目标。这一设计解决了 vq-wav2vec 的优化脱节问题,但 Gumbel VQ 的训练稳定性仍有待改善。

BEST-RQ30(Chiu 等,ICML 2022)提出了一种更简洁的方案:用随机投影矩阵(训练中固定不更新)将语音特征投影到低维空间,再通过最近邻查找映射到固定码本中的离散 token。随机量化器的伪标签质量足以支持有效的掩码预测预训练,且无需迭代训练,流程更简单。

5.4 有监督语义 Token

有监督语义 token 以文本监督直接对齐语义 token,代表工作是 CosyVoice 的 S³ Tokenizer31(Du 等,2024)。该方法在两个 Transformer 编码器模块之间插入单码本 VQ 层($V=4096$,$F=25$ 或 50 Hz),以 ASR 交叉熵损失端到端训练。有监督方法的优点是 token 与文本语义的对齐更精确,且比 SSL+k-means 更好地保留了韵律信息(因为韵律对 ASR 有贡献)。

实验数据 16 表明,S³ Tokenizer 在 ASR WER(17.5%)和 IC ACC(67.2%)上均优于通用声学 token,但在重建质量(PESQ=1.37)上不如声学 token,这与其训练目标(ASR 而非重建)一致。CosyVoice 2 18 进一步将 VQ 替换为 FSQ($V=3^8=6561$)以改善码本利用率,CosyVoice 3 32 则将监督目标扩展到多任务(语言、情感、说话人、音频分析)。

5.5 扰动不变语义 Token

扰动不变语义 token 通过在训练中引入说话人或噪声扰动,使 token 对这些变化保持不变性。

ContentVec8 在 HuBERT 框架中引入说话人扰动(对输入语音进行音色变换)和对比损失,产生对说话人变化不变的内容 token。在语音转换任务中,ContentVec+k-means token 的说话人相似度(SECS=0.869)显著高于 HuBERT+k-means(SECS=0.876 差异不大,但 ContentVec 的韵律保留 P.Corr=0.348 更低,表明更强的说话人解耦以牺牲韵律为代价)16

SPIRAL33(Huang 等,2022)通过噪声增强训练使 SSL 特征对背景噪声不变,产生噪声鲁棒的语义 token,在噪声环境下的 ASR 任务上表现更好。


6. 整体横向对比

6.1 量化方法对比

量化方法 可微性 码本崩溃 词汇量 并行化 信息损失 代表应用
k-means 聚类 灵活 中(高维不稳定) HuBERT+km, GSLM
k-means VQ (STE) 近似 灵活 VQ-VAE, DAC
Gumbel VQ 近似 灵活 wav2vec 2.0
FSQ 近似(取整) 极低 受限($L^d$) 低(高利用率) CosyVoice 2
RVQ 近似(串行STE) 高(多层) 低(多层补偿) SoundStream, EnCodec
GVQ 近似 高(多组) wav2vec 2.0

6.2 声学 Token 代表模型对比

模型 年份 机构 量化方式 帧率 (Hz) 量化器数 Q 码本大小 V 比特率 (kbps) 子类型
VQ-VAE 2017 DeepMind k-means VQ 100 1 512 ~0.9 通用
SoundStream 2021 Google RVQ 50 8 1024 3.0 通用
EnCodec 2022 Meta RVQ 75 8 1024 6.0 通用
DAC 2023 Descript RVQ (L2归一化) 86 12 1024 8.0 通用
WavTokenizer 2025 单码本 VQ 75 1 4096 0.9 通用
FocalCodec 2025 FSQ 12.5–50 1 $2^{13}$ 0.16–0.65 通用
SpeechTokenizer 2024 上交大 RVQ + HuBERT蒸馏 50 8 1024 4.0 语义蒸馏
X-Codec 2024 RVQ + SSL蒸馏 50 8 1024 4.0 语义蒸馏
Mimi 2024 Kyutai RVQ + WavLM蒸馏 12.5 8 2048 1.1 语义蒸馏
DM-Codec 2025 RVQ + 多模态蒸馏 50 8 1024 4.0 语义蒸馏
FACodec 2024 微软 RVQ + GRL解耦 80 1+2+3 1024 4.8 解耦
LSCodec 2024 上交大 VQ + 扰动解耦 25–50 1 1024/300 0.25–0.45 解耦

6.3 语义 Token 代表模型对比

模型 年份 机构 量化方式 帧率 (Hz) 训练目标 内置量化 子类型
vq-wav2vec 2020 Meta GVQ (G=2, V=320) 100 对比学习 对比
wav2vec 2.0 2020 Meta Gumbel VQ (G=2, V=320) 50 对比学习 对比
HuBERT 2021 Meta 外部 k-means 50 掩码预测 预测
WavLM 2022 微软 外部 k-means 50 掩码预测+去噪 预测
BEST-RQ 2022 Google 随机投影量化 25 掩码预测 预测
ContentVec 2022 MIT 外部 k-means 50 说话人不变 扰动不变
S³ Tokenizer 2024 阿里 VQ (V=4096) 25–50 有监督 ASR 有监督
CosyVoice 2 2024 阿里 FSQ ($3^8$) 12.5 有监督 ASR 有监督

6.4 各类表征在下游任务上的系统性对比

以下数据来自 Guo 等人 16 的统一实验框架(LibriTTS 测试集,CTX-vec2wav 声码器辅助重建,LSTM 探针网络语义建模):

表征类型 代表模型 比特率 (kbps) 重建 WER↓ PESQ↑ STOI↑ GPE↓ VC SECS↑ ASR WER↓ IC ACC↑
连续基线 Mel + BigVGAN 1.18% 4.30 0.995 0.88 17.4% 50.1%
声学(通用) EnCodec (Q=8) 6.00 1.53% 2.83 0.946 1.33 19.4% 34.8%
  DAC (24kHz, Q=8) 6.00 1.34% 3.52 0.958 0.93 26.1% 18.3%
  WavTokenizer (75Hz) 0.90 2.45% 2.47 0.925 1.63 37.2% 15.5%
声学(语义蒸馏) SpeechTokenizer 4.00 1.47% 2.60 0.930 1.20 19.3% 57.3%
  X-Codec 4.00 1.27% 2.82 0.905 1.49 9.8% 69.6%
  Mimi 1.10 2.44% 2.27 0.917 1.68 26.8% 50.9%
声学(解耦) FACodec 4.80 1.37% 2.91 0.954 1.02 0.773 14.6% 51.1%
  LSCodec (50Hz) 0.45 3.33% 1.77 0.688 2.42 0.852 25.3% 49.8%
语义(SSL外部) HuBERT L24+km2048 0.55 1.86% 1.17 0.625 15.65 0.876 6.1% 67.2%
  WavLM L24+km2048 0.55 1.67% 1.16 0.621 17.94 0.872 6.1% 74.2%
  ContentVec L12+km2048 0.55 2.09% 1.15 0.613 18.88 0.869 5.5% 72.0%
语义(SSL内置) wav2vec 2.0 L14+km2048 0.55 2.51% 1.20 0.630 9.57 0.880 5.8% 69.5%
  vq-wav2vec (k-means) 1.80 2.81% 1.49 0.795 2.73 0.857 16.9% 58.7%
语义(有监督) S³ Tokenizer (50Hz) 0.60 2.12% 1.37 0.673 4.25 0.868 17.5% 67.2%

数据来源:Guo et al. 2025 16,Table I。重建 WER 通过 CTX-vec2wav 声码器辅助重建后评估;ASR WER 和 IC ACC 通过 LSTM 探针网络在 token 索引上直接评估;VC SECS 为声音转换任务的说话人相似度。GPE(基频误差百分比)越低表示韵律保留越好。加粗为各列最优值(不含连续基线)。

6.5 DASB 基准:判别式与生成式任务的系统评估

DASB 基准 35(Mousavi 等,2024)提供了更全面的多任务评估框架,覆盖语音识别(ASR)、说话人识别(SID)、说话人验证(SV)、情感识别(ER)、关键词检测(KS)、意图分类(IC)等判别式任务,以及语音增强(SE)、语音分离(SS)、文本转语音(TTS)等生成式任务。DASB 的核心结论是:语义 token 在判别式和生成式任务上均优于压缩(声学)token,但与连续表征的性能差距仍然显著35

这一结论揭示了离散化的根本代价:无论是声学 token 还是语义 token,量化过程都会引入信息损失,导致下游任务性能低于使用连续表征的基线。连续表征(如 WavLM Large 的连续输出)在 SUPERB 基准 5 的几乎所有任务上仍优于最好的离散 token。

6.6 两类表征的根本性差异总结

维度 连续表征 声学 Token 语义 Token
信息保真度 最高 中(重建质量好) 低(声学细节丢失)
语义建模能力 最高
重建/生成质量 需额外解码器 最高 低(需声码器)
LLM 兼容性 差(需适配器) 好(离散符号) 好(离散符号)
说话人信息保留 高(通用)/低(解耦) 低(天然解耦)
韵律信息保留 低(k-means丢失)
序列长度 长(50Hz) 可变(12.5—86Hz) 可变(25—100Hz)
流式处理 取决于模型 多数支持 多数不支持(非因果Transformer)
训练复杂度 低(直接使用) 高(端到端训练) 中(SSL+聚类)
典型应用 ASR、SV、ER、语音LLM理解 TTS、语音生成、对话 语音LM、VC、S2ST

7. 统一表征:弥合语义与声学的尝试

7.1 分层建模:AudioLM 的范式

AudioLM28(Borsos 等,IEEE/ACM TASLP 2023)提出了一个影响深远的分层建模框架,将语义 token 和声学 token 的互补优势结合起来。其三阶段生成过程为:首先用语言模型基于条件生成语义 token(w2v-BERT+k-means,$V=1024$),捕获长程语言结构和内容;再用粗粒度声学语言模型基于语义 token 生成 SoundStream 的第一层 RVQ token,确定音色和韵律的粗略轮廓;最后用细粒度声学语言模型生成 SoundStream 的后续 RVQ 层,补充声学细节。

AudioLM 的核心洞察是:语义 token 和声学 token 在信息层次上是互补的,而非竞争的。语义 token 负责”说什么”(内容和长程结构),粗粒度声学 token 负责”怎么说”(音色和韵律),细粒度声学 token 负责”听起来怎样”(声学细节)。这一分层对应于人类语音感知的层次结构,也为后续统一 tokenizer 的设计提供了理论依据。

AudioLM 的局限在于三阶段建模需要三个独立的语言模型,训练和推理成本高,且各阶段之间的信息传递存在误差积累。

7.2 统一 Tokenizer:SpeechTokenizer

SpeechTokenizer23(Zhang 等,ICLR 2024)的目标是设计一个单一的 tokenizer,使其 RVQ 的不同层次自然对应语义和声学信息的分离,从而在一个模型中同时支持理解和生成任务。

SpeechTokenizer 采用编码器-解码器架构和 RVQ 量化器($Q=8$,$V=1024$,$F=50$ Hz),关键创新在于语义蒸馏:第一层 RVQ 的训练目标不仅是最小化重建误差,还要最小化其输出与 HuBERT Large 第 9 层输出之间的距离(余弦相似度损失)。这一蒸馏目标迫使第一层 RVQ 捕获语义信息,而后续层则专注于补充声学细节。

实验表明,SpeechTokenizer 在重建质量上与 EnCodec 相当(WER=1.47% vs 1.53%),同时在语义建模上显著优于 EnCodec(IC ACC=57.3% vs 34.8%)16。SpeechTokenizer 的局限在于蒸馏目标的设计选择:选择 HuBERT 的哪一层作为蒸馏目标对最终性能影响显著,且蒸馏目标的质量上限受限于 HuBERT 本身的表征质量。

7.3 语义蒸馏的系列工作

语义蒸馏思路在 SpeechTokenizer 之后得到了广泛发展。

Mimi22(Kyutai,2024)将语义蒸馏与低延迟流式编解码器结合:第一个码本通过对 WavLM 表示的蒸馏进行训练,其余 7 个码本为标准残差量化声学码。12.5Hz 的帧率(每秒 12.5 个 token)使 Moshi 的实时对话系统能够在 200ms 延迟内运行。Mimi 的设计验证了语义蒸馏与低比特率设计的兼容性。

X-Codec(2024)将语义蒸馏推进到更强的程度:以 SSL 特征同时作为编码器输入和量化目标,使声学 token 的语义建模能力大幅提升。实验数据 16 显示,X-Codec 的 ASR WER 仅为 9.8%,意图分类准确率达 69.6%,在语义任务上接近纯语义 token 的水平,同时保持了声学 token 的重建质量(PESQ=2.82)。

DM-Codec24(2025)进一步扩展了蒸馏目标的来源:同时蒸馏语音 SSL 特征(语义信息)和语言模型特征(文本语义信息),实现多模态表示的融合蒸馏,使 token 在语音语义和文本语义两个层面上都具有良好的对齐。

7.4 解耦声学 Token 的系统设计

解耦声学 token 的目标是将说话人音色与内容/韵律信息在量化层面分离,以支持声音转换和可控语音合成。

FACodec25(NaturalSpeech 3,2024)采用监督解耦方案:通过独立的 RVQ 模块分别编码说话人音色、内容、韵律和声学细节,并用梯度反转层(GRL)和专用监督信号强制各模块只编码目标信息。具体而言,音色提取器通过说话人分类损失优化;内容、韵律和声学细节各有专用 RVQ 模块,通过 GRL 阻止其他信息渗入。FACodec 在声音转换任务上实现了 SECS=0.773 的说话人相似度和 P.Corr=0.583 的韵律保留 16,在解耦声学 token 中表现最优。

LSCodec26(2024)采用更简洁的设计:通过时间拉伸扰动破坏输入语音的说话人特征,利用 VQ 的信息瓶颈自然阻止音色信息进入 token,再以连续 WavLM 特征提供说话人信息给解码器。LSCodec 在极低比特率(0.45kbps,50Hz)下实现了高质量的声音转换(SECS=0.852),但由于比特率极低,重建质量(PESQ=1.77)相对有限。


8. 前沿方向与开放问题

8.1 极低比特率与单码本设计

降低比特率是神经音频编解码器的持续研究方向,其动机是减少语言建模的序列长度,从而降低 LLM 的计算成本。WavTokenizer 21 以 0.9kbps(75Hz,单码本)实现了与多码本方案相当的重建质量,验证了极低比特率的可行性。FocalCodec 34(NeurIPS 2025)进一步将比特率压缩到 0.16—0.65kbps,采用 FSQ 二值码本设计,在极低比特率下保持了基本的语音可懂度。

然而,极低比特率设计面临一个根本性挑战:内容可懂度与比特率之间存在硬性下限。当帧率降低到 12.5Hz 以下时,每帧需要编码的语音内容增多,单个码向量的信息容量可能不足以区分相似音素,导致 WER 急剧上升。实验数据 16 表明,Stable-Codec(约 0.7kbps)的重建 WER 高达 4.94%,而 WavTokenizer(0.9kbps)的 WER 为 2.45%,表明过度压缩会显著损害内容可懂度。

8.2 变帧率 Token

固定帧率设计的一个根本低效之处在于:静音段、稳定元音段和快速辅音段的信息密度差异巨大,但每帧分配的 token 数量相同。变帧率 token 的研究旨在根据语音内容的信息密度自适应分配 token 数量。

Dieleman 等人 36 的早期工作提出了基于慢速自编码器(SlowAE)的变速率离散表征学习,通过学习事件边界将语音分割为变长的语义单元。近期工作 37(AAAI 2026)通过自适应聚类和隐式时长编码实现变帧率 tokenization,在相同语义建模性能下将 token 数量减少约 30%—50%。

变帧率设计的主要挑战是与自回归语言模型的兼容性:标准 Transformer 的位置编码假设固定帧率,变帧率 token 需要额外的时长信息才能重建原始时序结构。

8.3 面向语言建模的 Token 设计

传统声学 token 的训练目标是最小化重建误差,但用于语言建模的 token 需要满足不同的性质:语义一致性(同一音素在不同语境下应映射到相同 token)、低冗余(相邻帧的 token 不应过于相似)和与文本 token 的语义对齐。

LLM-Codec38(2025)尝试将语言模型目标直接引入编解码器的训练:在标准重建损失之外,加入预训练语言模型对 token 序列的困惑度作为辅助损失,使编解码器产生的 token 更适合语言建模。实验表明,LLM-Codec 在语言建模困惑度上优于 EnCodec,但在重建质量上有所下降 16,揭示了重建目标与语言建模目标之间的内在张力。

8.4 连续表征的回归:生成式连续方案

尽管离散 token 在语音 LLM 领域占据主流,近期出现了重新审视连续表征的声音。Flow-Omni13 的实验表明,连续 speech token 在语音到语音的多模态训练中比离散 token 更鲁棒,能够避免离散化引入的表示损失。其技术路线是将流匹配(Flow Matching)损失与自回归 LLM 结合,直接预测连续语音 token 的概率分布,再由解码器重建波形。

这一方向的挑战在于:连续输出的生成需要额外的解码步骤(流匹配采样),推理延迟高于直接预测离散 token;此外,连续输出的质量评估比离散 token 更复杂,缺乏标准化的评估框架。

8.5 流式处理与实时性约束

全双工实时对话系统(如 Moshi 22)对表征的帧率和延迟有严格要求。Moshi 的 200ms 延迟已经接近可用水平,但其模型规模(约 7B 参数)和推理成本限制了其在边缘设备上的部署。

流式处理对语义 token 的挑战尤为突出:大多数 SSL 模型(HuBERT、WavLM)采用非因果 Transformer 架构,无法实时处理输入流。从非因果架构迁移到因果架构通常会导致显著的性能下降,这一代价目前尚未被系统性地量化 16

8.6 核心开放问题

最优表征的信息论定义。什么样的表征是”最优的”?从信息论角度,理想表征应当是目标任务相关信息的充分统计量,同时最小化冗余信息。然而,不同任务的”相关信息”不同,单一表征难以同时满足所有任务。多任务表征学习的理论框架仍不完善。

语义-声学的最优分离粒度。SpeechTokenizer 等工作将语义-声学分离定位在 RVQ 的第一层与后续层之间,但这一分离是否是最优的?是否存在更细粒度的分离方案(如按信息类型分离,而非按 RVQ 层次分离)?

跨语言、跨领域的表征泛化。现有 token 设计大多在英语或少数高资源语言上验证,其在声调语言、形态复杂语言上的表现仍不清楚。低资源语言的语音特征可能与高资源语言存在根本性差异,导致在高资源语言上优化的 token 设计难以迁移。


9. 总结

连续表征与离散表征的张力,本质上是音频信号处理中信息保真度符号兼容性之间的根本矛盾。从信息论视角,连续表征对应小 $\beta$ 的信息瓶颈目标(保留更多信息),离散表征通过量化引入强制信息瓶颈,对应大 $\beta$(更强压缩)。两者各有其适用场景,不存在绝对意义上的优劣之分。

在技术体系层面,量化方法从离线 k-means 聚类演进到在线 VQ(k-means VQ、Gumbel VQ、FSQ)和 RVQ,每一步演进都在解决前一方法的特定局限(不可微、码本崩溃、信息容量有限)。声学 token 从 VQ-VAE 到 SoundStream、EnCodec、WavTokenizer,比特率从数 kbps 降至 0.16kbps,同时重建质量持续提升。语义 token 从 HuBERT+k-means 到有监督 S³ Tokenizer,语义对齐精度不断改善。

在应用层面,两类表征并非线性替代关系:连续表征在判别式任务(ASR、SV、ER)上仍具有明显优势;声学 token 在生成任务(TTS、语音合成)上不可替代;语义 token 在语音语言建模和语音转换中具有独特价值;而语义蒸馏声学 token(SpeechTokenizer、X-Codec、Mimi)则代表了弥合两类表征的最新尝试。

当前研究的核心挑战是:如何设计一种表征,使其在信息保真度、符号兼容性、序列效率和跨任务泛化性之间达到更优的平衡。变帧率 token、面向语言建模的 token 设计、连续表征的流匹配生成等前沿方向,本质上都是在尝试回答这一问题。


参考文献


This post is licensed under CC BY 4.0 by the author.