音频表征学习

View mindmap of this page Edit in Notion By Jinchao Li

About 11785 words Posted May 10, 2026

【Deep Research by Gemini 3.1 Pro】本文系统梳理音频/语音表征学习中连续表征与离散表征两条技术路线的发展脉络，从信息论视角分析两类表征的本质差异，深入讨论量化机制的技术体系，并追踪语义-声学融合、变帧率 token 等前沿方向。文章与语音预训练范式演进的讨论形成互补：后者侧重预训练框架的选择，本文则聚焦于表征本身的信息结构与构造方式。

1. 问题设定：表征的信息论视角

1.1 音频信号的信息结构

原始音频波形是一个高维连续时间序列。以 16kHz 采样率录制的 1 秒语音包含 16,000 个采样点，直接在此空间建模语言内容或说话人特征既低效也不必要。然而，表征学习的目标并不仅仅是”降维”，而是在压缩的同时保留对目标任务有用的信息。

从信息论角度，语音信号 $\mathbf{x}$ 可以被视为多个潜在因子的混合生成结果：

$\mathbf{x} = f(\underbrace{c}{\text{内容}},\ \underbrace{s}{\text{说话人}},\ \underbrace{p}{\text{韵律}},\ \underbrace{n}{\text{噪声}},\ \ldots)$

其中内容因子 $c$ 对应音素序列，说话人因子 $s$ 对应声道共振特征，韵律因子 $p$ 对应基频与时长轮廓，噪声因子 $n$ 对应背景干扰。这些因子在物理上高度纠缠——同一说话人的声道特征同时影响音色（$s$）和部分音素的发音方式（$c$），韵律与情感状态相关但不等同。

这种信息纠缠导致不同下游任务对”好的表征”的要求相互矛盾：自动语音识别（ASR）需要对说话人变化保持不变性（最大化 $I(\mathbf{z}; c)$，最小化 $I(\mathbf{z}; s)$）；说话人验证（SV）则需要精确保留说话人特征（最大化 $I(\mathbf{z}; s)$）；语音合成（TTS）需要重建完整声学细节（最大化 $I(\mathbf{z}; \mathbf{x})$）。这一多目标张力是整个表征学习领域的核心困难。

1.2 信息瓶颈框架

信息瓶颈（Information Bottleneck, IB）理论 1 为表征学习提供了一个统一的理论框架：好的表征 $\mathbf{z}$ 应当在保留对目标变量 $y$ 的预测信息的同时，最小化对输入 $\mathbf{x}$ 的冗余信息：

$\min_{\mathbf{z}} \quad -I(\mathbf{z}; y) + \beta \cdot I(\mathbf{z}; \mathbf{x})$

其中 $\beta$ 控制压缩程度与信息保留之间的权衡。连续表征通常对应小 $\beta$（保留更多信息），离散表征通过量化引入强制信息瓶颈，对应大 $\beta$（更强压缩）。

然而，IB 框架在语音表征中面临一个根本困难：不同任务对应不同的目标变量 $y$（ASR 对应文本，SV 对应说话人标签），单一表征无法同时最优化所有任务的 IB 目标。这一困难直接催生了两条技术路线：连续表征保留尽可能多的信息，由下游任务自行选择所需成分；离散表征通过量化主动构造信息瓶颈，在压缩的同时（理想情况下）保留最关键的信息。

1.3 连续与离散的根本差异

连续表征与离散表征的差异不仅在于信息量，还在于符号兼容性。大语言模型（LLM）的语言建模框架本质上是在离散符号序列上定义的——下一个 token 的预测概率 $P(z_{t+1}

z_1, \ldots, z_t)$ 要求 $z_t$ 是有限词汇表中的离散符号。连续表征与这一框架存在根本性的模态鸿沟：连续向量无法直接作为自回归语言模型的输入或输出目标。

这一鸿沟在 LLM 成为多模态系统核心之前并不突出，但随着语音 LLM 的兴起，它成为了整个领域最核心的工程与算法问题：如何在信息保真度与符号兼容性之间找到最优权衡？

2. 连续表征：从手工特征到自监督学习

2.1 手工特征的历史起点

在深度学习普及之前，音频表征主要依赖手工设计的频域特征。MFCC（梅尔频率倒谱系数）模拟人耳的感知特性，将频谱映射到梅尔尺度后取倒谱系数，有效压缩了冗余信息；log-Mel 频谱图直接保留梅尔滤波器组的输出，信息量更丰富，成为 Whisper 2 等现代模型的标准输入格式。

这类手工特征的局限在于其信息瓶颈由先验假设决定，而非由数据驱动优化。MFCC 的倒谱系数变换会丢失部分频谱信息（尤其是相位），且对噪声和说话人变化的鲁棒性有限。更根本的问题是，这些特征无法自适应下游任务需求——同一套 MFCC 特征被用于 ASR、说话人识别和情感识别，但这三类任务对信息的需求截然不同。

2.2 自监督学习的连续表征

自监督学习（SSL）模型从大规模无标注数据中学习连续表征，其 Transformer 编码器的隐层输出成为新的通用特征。这类表征的核心优势在于：通过大规模预训练，模型隐式地学习了语音信号的多层次结构，而无需任何标注数据。

wav2vec 2.03 的 Transformer 编码器输出是连续的上下文化表示，通过对比学习目标在被掩码位置进行训练。HuBERT4 以 k-means 伪标签为目标训练掩码预测，其连续输出在 SUPERB 基准 5 的多任务评估中展现出强大的迁移能力。WavLM6 在 HuBERT 基础上引入去噪预训练，使连续表征对噪声更鲁棒，在说话人验证（SV）、情感识别（ER）、语音增强（SE）等 15 个任务上均达到当时最优水平。data2vec7 以教师模型（学生模型的指数移动平均）的连续输出作为预测目标，主张连续目标携带更丰富的上下文信息，避免了离散化带来的信息损失。

SSL 连续表征的一个重要特性是层次性：模型不同层次捕获不同类型的信息。研究表明，浅层（第 1—3 层）偏向声学特征，中层（第 6—9 层）偏向音素信息，深层（第 18—24 层）偏向语义内容 5。这一层次结构为按需选择或融合不同层次信息提供了灵活性，也是 SUPERB 基准中加权层融合（Weighted Sum）策略有效的原因。从信息论角度，这一层次性对应于 IB 目标中 $\beta$ 的隐式变化：浅层 $\beta$ 小（保留更多声学细节），深层 $\beta$ 大（更强压缩，保留语义信息）。

2.3 连续表征的信息解耦

SSL 连续表征将多种信息混合在同一向量中，这对需要特定信息的任务造成干扰。信息解耦（Disentanglement）研究旨在从混合表征中分离出特定因子。

ContentVec8 是说话人解耦方向的代表工作：在 HuBERT 的训练框架中引入说话人扰动（对输入语音进行音色变换，保持内容不变）和对比损失，使模型学习对说话人变化不变的内容表征。其核心思想是通过最小化 $I(\mathbf{z}; s)$（说话人互信息）同时最大化 $I(\mathbf{z}; c)$（内容互信息），实现内容-说话人解耦。实验表明，ContentVec 在语音转换（VC）任务上的说话人相似度（SECS）比原始 HuBERT 提升显著 8。

SpeechTripleNet9 将解耦目标扩展到三个维度：内容（音素序列）、音色（说话人特征）和韵律（基频、时长）。通过三路独立编码器和专用损失函数（包括对抗损失、互信息最小化和韵律重建损失），该模型实现了对三类信息的端到端分离，为可控语音合成提供了细粒度的表征基础。

解耦的根本困难在于语音因子的物理纠缠：说话人的声道特征同时影响音色和部分音素的发音方式，韵律与情感状态高度相关但不完全等同。目前的解耦方法大多依赖近似的监督信号（如说话人标签、音素标注），难以实现理论意义上的完全解耦。

2.4 连续表征与 LLM 的对接

随着 LLM 成为多模态系统的核心，如何将连续表征对接到 LLM 成为关键工程问题。连续融合路径的代表包括 SALMONN 10 和 Qwen-Audio 系列 11：前者通过 Q-Former 将 Whisper 和 BEATs 的连续输出压缩为固定数量的查询向量后输入 LLM，后者则通过线性投影层直接映射。

连续融合的优势在于信息损失小——语音编码器的完整输出被保留，LLM 可以访问包括说话人特征、韵律信息在内的全部声学细节。然而，这一路径面临一个被称为”LLM 休眠”（LLM Dormancy）的现象 12：语音编码器的连续输出分布与 LLM 在文本预训练中见过的 token 分布存在显著差异，导致 LLM 的注意力机制无法有效将语音特征与其内部语义知识关联，模型行为更接近增强版 ASR 系统而非真正的语音理解推理系统。

Flow-Omni13 提出了一种不同的连续表征利用方式：不将连续特征作为 LLM 的输入，而是将其作为 LLM 的输出目标，通过流匹配（Flow Matching）损失预测连续语音 token 的概率分布，再由解码器重建波形。这一设计避免了离散化的信息损失，同时利用了 LLM 的自回归生成能力，在语音到语音的实时交互场景中展现出优于离散 token 路径的鲁棒性 13。

3. 离散表征：量化机制的技术体系

3.1 离散化的动机与代价

离散化的动机来自多个层面。从工程角度，离散符号比连续向量更易于压缩存储和网络传输——$V$ 个符号可用 $\lceil \log_2 V \rceil$ 比特编码；从建模角度，离散 token 与文本 token 的形式一致，使语音可以直接接入 LLM 的语言建模框架；从表征学习角度，量化引入的信息瓶颈可能迫使模型学习更抽象、更具泛化性的表示。

然而，离散化不可避免地引入信息损失。设连续表征 $\mathbf{z} \in \mathbb{R}^d$，量化后的离散 token 为 $q = Q(\mathbf{z}) \in {1, \ldots, V}$，则信息损失可用互信息差来量化：

$\Delta I = I(\mathbf{z}; y) - I(q; y)$

其中 $y$ 为目标变量（如文本、说话人标签）。$\Delta I$ 的大小取决于量化粒度（码本大小 $V$）、量化方法的质量，以及目标变量 $y$ 与连续表征 $\mathbf{z}$ 的分布对齐程度。

量化粒度与序列长度之间存在根本权衡：量化粒度越粗（小 $V$），信息损失越大，但序列越短，语言建模越容易；量化粒度越细（大 $V$），信息保留越多，但序列越长，LLM 处理成本越高。此外，帧率 $F$（Hz）直接决定每秒产生的 token 数量，是影响序列长度的另一关键参数。

3.2 离线聚类：k-means 的应用与局限

k-means 聚类是最简单的离散化方案，在训练完成后对 SSL 模型的隐层输出进行聚类，将每一帧分配到最近的聚类中心。给定数据集 $X = {\mathbf{x}_1, \ldots, \mathbf{x}_N}$，k-means 求解：

$\min_{\mathcal{C}} \sum_{i=1}^N \min_{k \in {1,\ldots,V}} |\mathbf{x}_i - \mathbf{c}_k|^2$

其中 $\mathcal{C} = {\mathbf{c}_1, \ldots, \mathbf{c}_V}$ 为聚类中心集合。训练后，新数据通过最近邻查找量化：$q(\mathbf{x}) = \arg\min_k |\mathbf{x} - \mathbf{c}_k|^2$。

k-means 的优点是简单直接，无需修改 SSL 模型；缺点是在高维空间中受”维度诅咒”影响——当特征维度 $d$（通常为 768 或 1024）远大于聚类数 $V$（通常为 200—2048）时，欧氏距离的区分能力下降，聚类结果不稳定。更根本的问题是，k-means 的目标（最小化帧级重建误差）与下游任务的目标（捕获语言内容）并不完全一致，聚类结果在很大程度上受到输入特征选择（选择 SSL 的哪一层）和聚类数 $V$ 的影响 14。

3.3 在线向量量化（VQ）

向量量化（VQ）允许量化模块与神经网络端到端联合训练，是神经音频编解码器的核心组件。

3.3.1 k-means VQ 与直通估计器

VQ-VAE 15 的核心贡献是提出了直通估计器（Straight-Through Estimator, STE）来解决量化操作不可微的问题。量化过程为：

$q(\mathbf{z}) = \arg\min_k |\mathbf{z} - \mathbf{c}k|^2$

由于 $\arg\min$ 不可微，STE 将梯度直接从量化后的码向量 $\mathbf{c}{q(\mathbf{z})}$ 传递回编码器输出 $\mathbf{z}$，即在反向传播中令 $\frac{\partial \mathbf{c}{q(\mathbf{z})}}{\partial \mathbf{z}} = \mathbf{I}$。训练目标包含三项：

$\mathcal{L} = \underbrace{|\mathbf{x} - \hat{\mathbf{x}}|^2}{\text{重建损失}} + \underbrace{|\text{sg}(\mathbf{z}) - \mathbf{c}{q(\mathbf{z})}|^2}{\text{码本损失}} + \underbrace{\beta |\mathbf{z} - \text{sg}(\mathbf{c}{q(\mathbf{z})})|^2}_{\text{承诺损失}}$

其中 $\text{sg}(\cdot)$ 为停止梯度算子，码本损失更新码向量，承诺损失迫使编码器输出靠近码向量。实践中，码本损失常用指数移动平均（EMA）更新替代，以提高训练稳定性 15。

VQ 的主要问题是码本崩溃（Codebook Collapse）：训练中大量码向量从未被使用，有效码本大小远小于设计值 $V$。这是因为一旦某些码向量在初始阶段获得优势，编码器会持续将输入映射到这些码向量附近，其他码向量因无法获得梯度更新而逐渐失效。应对策略包括：随机替换不活跃码向量（码本过期替换）、熵惩罚（鼓励均匀使用所有码向量）、低维因子化查找（在低维空间进行码本查找，减少维度诅咒的影响）16。

3.3.2 Gumbel VQ

Gumbel VQ（wav2vec 2.0 3 采用）用 Gumbel-Softmax 替代直接的最近邻查找，通过可微的概率采样实现量化。给定输入 $\mathbf{z}$ 和码本大小 $V$，变换 $h(\mathbf{z}) \in \mathbb{R}^V$ 产生 $V$ 个 logit，推理时取 $q(\mathbf{z}) = \arg\max_i h(\mathbf{z})^{(i)}$，训练时用 Gumbel-Softmax 近似：

$\mathbf{s} = \text{Softmax}\left(\frac{h(\mathbf{z}) + \mathbf{v}}{\tau}\right), \quad \mathbf{v}_i \sim -\log(-\log(\text{Uniform}(0,1)))$

其中 $\tau$ 为温度参数，$\tau \to 0$ 时趋近于 one-hot，$\tau \to \infty$ 时趋近于均匀分布。Gumbel VQ 无需额外损失项，码向量可直接通过梯度学习；缺点是对 $\tau$ 敏感，训练稳定性不如 k-means VQ。

3.3.3 有限标量量化（FSQ）

有限标量量化（Finite Scalar Quantization, FSQ）17 是近年来提出的一种从根本上避免码本崩溃的方案。FSQ 将每个维度独立量化为 $L$ 个整数级别：

$q\left(\mathbf{z}^{(i)}\right) = \text{round}\left(\lfloor L/2 \rfloor \cdot \tanh\left(\mathbf{z}^{(i)}\right)\right)$

对于 $d$ 维向量，有效码本大小为 $V = L^d$（例如 $d=8, L=3$ 时 $V = 3^8 = 6561$）。FSQ 无需显式码本，从根本上避免了码本崩溃问题——每个维度的量化级别是固定的，不存在”失活”的码向量。CosyVoice 2 18 将 S³ Tokenizer 的 VQ 替换为 FSQ 后，码本利用率从约 60% 提升到接近 100% 16。

FSQ 的局限在于：有效码本大小 $V = L^d$ 与维度 $d$ 强绑定，灵活性不如 VQ；量化空间固定，对编码器的映射能力要求更高；在小词汇量场景下，FSQ 的性能不如充分利用的 VQ 17。

3.3.4 残差向量量化（RVQ）

残差向量量化（Residual Vector Quantization, RVQ）是神经音频编解码器中最广泛采用的量化方案，由 $Q$ 个串行量化器组成，每个量化器对前一个的残差进行量化：

$\mathbf{r}0 = \mathbf{z}, \quad q_i = Q_i(\mathbf{r}{i-1}), \quad \mathbf{r}i = \mathbf{r}{i-1} - \mathbf{c}_{q_i}^{(i)}$

最终量化表示为各层码向量之和：$\hat{\mathbf{z}} = \sum_{i=1}^Q \mathbf{c}_{q_i}^{(i)}$。RVQ 的优点是自然形成从粗到细的信息层次——第一层量化器捕获最主要的信息，后续层逐步补充细节。这一层次结构使 RVQ 允许通过选择不同层数灵活调整比特率：使用前 $k$ 层（$k < Q$）即可在较低比特率下获得可接受的质量。

RVQ 的比特率为 $F \times Q \times \log_2 V$ bps，其中 $F$ 为帧率（Hz），$Q$ 为量化器数量，$V$ 为每个量化器的码本大小。例如，EnCodec 19 在 24kHz 下使用 $F=75$ Hz、$Q=8$、$V=1024$，比特率为 $75 \times 8 \times 10 = 6000$ bps = 6kbps。

RVQ 的缺点是串行结构不能并行化，且多层 STE 的嵌套可能使优化复杂。此外，RVQ 的各层之间存在信息冗余——相邻层的残差可能高度相关，导致实际信息容量低于理论上限。

下表对主要量化方法进行系统对比：

量化方法	是否可微	码本崩溃风险	词汇量灵活性	并行化	代表应用
k-means 聚类	否	—	高	是	HuBERT+km, GSLM
k-means VQ (STE)	是（近似）	高	高	是	VQ-VAE, EnCodec
Gumbel VQ	是（近似）	低	高	是	wav2vec 2.0
FSQ	是（取整）	极低	受限（$L^d$）	是	CosyVoice 2
RVQ	是（近似）	中	高（多层）	否（串行）	SoundStream, EnCodec, Mimi
GVQ	是（近似）	中	高（多组）	是	wav2vec 2.0

4. 声学 Token 的系谱：神经音频编解码器

4.1 设计框架：VQ-GAN

声学 token 由神经音频编解码器产生，目标是在低比特率下实现高质量的音频重建。这类模型通常采用编码器-量化器-解码器框架：编码器 $f_\theta$ 将输入音频 $\mathbf{x}$ 压缩为连续潜变量 $\mathbf{z} = f_\theta(\mathbf{x})$，量化器 $Q_\phi$ 将 $\mathbf{z}$ 映射为离散 token 及对应码向量 $\hat{\mathbf{z}} = Q_\phi(\mathbf{z})$，解码器 $g_\psi$ 从 $\hat{\mathbf{z}}$ 重建音频 $\hat{\mathbf{x}} = g_\psi(\hat{\mathbf{z}})$。

训练目标结合重建损失、对抗损失（GAN）和量化损失：

$\mathcal{L} = \underbrace{\mathcal{L}{\text{recon}}(\mathbf{x}, \hat{\mathbf{x}})}{\text{时域+频域重建}} + \underbrace{\mathcal{L}{\text{adv}}(\mathbf{x}, \hat{\mathbf{x}})}{\text{多尺度判别器}} + \underbrace{\mathcal{L}{\text{feat}}(\mathbf{x}, \hat{\mathbf{x}})}{\text{特征匹配}} + \underbrace{\mathcal{L}{\text{VQ}}(\mathbf{z}, \hat{\mathbf{z}})}{\text{量化损失}}$

其中多尺度判别器（通常包括多分辨率 STFT 判别器和多尺度波形判别器）是保证重建音质的关键——纯重建损失会导致过度平滑，GAN 损失迫使生成音频在感知上更自然。

4.2 代表模型的演进

VQ-VAE15（Van den Oord 等，NeurIPS 2017）是神经离散表征学习的奠基工作，首次在音频生成中验证了离散潜变量的可行性，提出了 STE 梯度近似方案。VQ-VAE 使用单个 VQ 层，码本大小 $V=512$，在语音合成中展现出离散表征的潜力，但重建质量有限。

SoundStream20（Zeghidour 等，IEEE/ACM TASLP 2021）是第一个端到端神经音频编解码器，采用纯 CNN 编码器-解码器结构和 RVQ 量化器（$Q=8$，$V=1024$，$F=50$ Hz），支持 3kbps 下的高质量语音编码。SoundStream 引入的 VQ-GAN 训练框架（多分辨率 STFT 判别器 + 特征匹配损失）成为后续工作的标准范式。通过结构化 dropout（随机选择使用前 $k$ 个量化器，$k \sim \text{Uniform}(1, Q)$），SoundStream 实现了可变比特率支持。

EnCodec19（Défossez 等，2022）在 SoundStream 基础上引入了 LSTM 层增强时序建模，并加入语言模型先验（用小型 Transformer 对 RVQ token 序列建模）用于熵编码，在 1.5kbps 下实现了接近 24kHz 的高保真重建（$Q=8$，$V=1024$，$F=75$ Hz，比特率 6kbps）。EnCodec 被 VALL-E、AudioLM 等模型广泛采用，成为离散 token 语音生成领域的事实标准。

DAC（Descript Audio Codec，2023）针对 EnCodec 的码本崩溃问题进行了系统性改进：引入码本向量的 L2 归一化（使所有码向量位于单位球面上，避免部分码向量因范数过大而主导查找结果）、随机码向量替换策略（将不活跃码向量替换为当前批次中的随机编码器输出）和 Factorized Codebook Lookup（在低维空间进行码本查找，减少维度诅咒的影响）。DAC 在 44.1kHz 下使用 $Q=12$，$V=1024$，$F=86.1$ Hz，在相同比特率下实现了更好的码本利用率和重建质量。

WavTokenizer21（Ji 等，ICLR 2025）将极低比特率设计推向极限：通过单码本（$Q=1$，$V=4096$，$F=75$ Hz，0.9kbps）实现与多码本方案相当的重建质量。其关键设计是扩展的感受野（通过更大的 CNN 卷积核）和改进的解码器架构（引入 Vocos 风格的频域解码器），使单个码向量能够携带更多信息。WavTokenizer 的单码本设计显著简化了语言建模的复杂度——多码本 RVQ 需要多阶段或并行预测，而单码本可以直接用标准自回归语言模型处理。

Mimi22（Kyutai，2024）是 Moshi 实时对话系统的专用编解码器，采用 CNN + Transformer 混合架构（$Q=8$，$V=2048$，$F=12.5$ Hz，1.1kbps）。Mimi 的关键设计是第一个码本通过对 WavLM 表示的蒸馏进行训练，使其捕获语义信息，而非仅优化声学重建质量。12.5Hz 的帧率（每 80ms 一帧）和流式处理设计（因果卷积 + 因果 Transformer 注意力掩码）使其支持实时低延迟应用。

4.3 声学 Token 的子类型

根据 Guo 等人 16 的系统综述，声学 token 可进一步细分为三个子类型：

通用声学 token 仅以重建质量为目标，不引入额外的语义约束。代表包括 EnCodec、DAC、WavTokenizer 等。这类 token 在重建质量上表现最好，但语义建模能力有限——以 LSTM 探针网络在 LibriSpeech 上的 ASR WER 衡量，EnCodec（Q=8）的 WER 高达 19.4%，WavTokenizer（75Hz）为 37.2% 16。

语义蒸馏声学 token 在重建目标之外，引入 SSL 模型的语义监督信号，使声学 token 同时具备语义建模能力。代表包括 SpeechTokenizer 23、X-Codec、Mimi 22、DM-Codec 24 等。SpeechTokenizer 通过对 HuBERT 特定层的蒸馏，使 RVQ 第一层捕获语义信息，ASR WER 降至 19.3%，意图分类准确率（IC ACC）提升至 57.3%（相比 EnCodec 的 34.8%）16。

解耦声学 token 以显式的信息解耦为目标，将说话人音色与内容/韵律信息在量化层面分离。代表包括 FACodec 25、LSCodec 26、SD-Codec 等。FACodec 通过梯度反转层（GRL）和专用监督信号，将语音分解为说话人音色、内容、韵律和声学细节四个独立的 RVQ 流，在声音转换任务上实现了 SECS=0.773、P.Corr=0.583 的性能 16。

5. 语义 Token 的系谱：SSL 模型的离散化

5.1 语义 Token 的定义与动机

语义 token 的目标是捕获语音的语言内容，而非声学细节。这类 token 主要来源于 SSL 模型的离散化，其设计动机来自两个方面：其一，SSL 模型的连续输出在 ASR、情感识别等判别式任务上表现优异，离散化后的 token 可以继承这些语义特性；其二，语义 token 通常对说话人信息不敏感，天然适合语音转换等需要内容-说话人分离的任务。

值得注意的是，”语义”（semantic）这一命名在学界存在争议——部分研究者认为 SSL 特征更准确地描述为”音素级”（phonetic）而非”语义级”（semantic），因为它们主要捕获音素序列而非词汇语义 16。本文沿用”语义 token”这一惯用术语，但读者应理解其实际含义更接近”音素-语义”表征。

5.2 外部量化：HuBERT+k-means 的范式

外部量化是最常见的语义 token 构造方式：对预训练 SSL 模型的某一 Transformer 层输出进行 k-means 聚类，以聚类标签作为离散 token。

GSLM27（Lakhotia 等，2021）首次将 HuBERT+k-means token（聚类数 $V=100$）用于文本无关的语音语言模型，证明了语义 token 可以支持基本的语音生成。AudioLM28（Borsos 等，IEEE/ACM TASLP 2023）将语义 token（w2v-BERT+k-means，$V=1024$）作为语义建模的第一阶段，后续阶段再用声学 token 补充声学细节。

外部量化的关键设计选择是选择哪一层进行聚类。研究表明 14，对于 ASR 等内容理解任务，中间层（HuBERT Large 的第 9 层）的聚类效果优于最后一层；对于说话人验证等任务，浅层更合适。聚类数 $V$ 的选择也至关重要：$V$ 过小（如 100）会导致同一音素的不同变体被合并，丢失细粒度信息；$V$ 过大（如 2048）则会导致聚类不稳定，相同音素在不同语境下被分配到不同聚类。

5.3 内置量化：SSL 模型的联合训练

内置量化指 SSL 模型本身包含量化模块，其输出直接作为语义 token。

vq-wav2vec29（Baevski 等，2020）在 wav2vec 的特征编码器输出后插入 GVQ 模块（$G=2$ 组，每组 $V=320$），以量化后的 token 序列作为 BERT 式预训练的输入。这是首个将 SSL 预训练与向量量化结合的工作，但量化模块与 BERT 预训练分阶段进行，存在优化脱节问题。

wav2vec 2.03 将量化模块与 Transformer 编码器端到端联合训练，使用 Gumbel VQ（$G=2$ 组，每组 $V=320$），以量化后的 token 作为对比学习的目标。这一设计解决了 vq-wav2vec 的优化脱节问题，但 Gumbel VQ 的训练稳定性仍有待改善。

BEST-RQ30（Chiu 等，ICML 2022）提出了一种更简洁的方案：用随机投影矩阵（训练中固定不更新）将语音特征投影到低维空间，再通过最近邻查找映射到固定码本中的离散 token。随机量化器的伪标签质量足以支持有效的掩码预测预训练，且无需迭代训练，流程更简单。

5.4 有监督语义 Token

有监督语义 token 以文本监督直接对齐语义 token，代表工作是 CosyVoice 的 S³ Tokenizer31（Du 等，2024）。该方法在两个 Transformer 编码器模块之间插入单码本 VQ 层（$V=4096$，$F=25$ 或 50 Hz），以 ASR 交叉熵损失端到端训练。有监督方法的优点是 token 与文本语义的对齐更精确，且比 SSL+k-means 更好地保留了韵律信息（因为韵律对 ASR 有贡献）。

实验数据 16 表明，S³ Tokenizer 在 ASR WER（17.5%）和 IC ACC（67.2%）上均优于通用声学 token，但在重建质量（PESQ=1.37）上不如声学 token，这与其训练目标（ASR 而非重建）一致。CosyVoice 2 18 进一步将 VQ 替换为 FSQ（$V=3^8=6561$）以改善码本利用率，CosyVoice 3 32 则将监督目标扩展到多任务（语言、情感、说话人、音频分析）。

5.5 扰动不变语义 Token

扰动不变语义 token 通过在训练中引入说话人或噪声扰动，使 token 对这些变化保持不变性。

ContentVec8 在 HuBERT 框架中引入说话人扰动（对输入语音进行音色变换）和对比损失，产生对说话人变化不变的内容 token。在语音转换任务中，ContentVec+k-means token 的说话人相似度（SECS=0.869）显著高于 HuBERT+k-means（SECS=0.876 差异不大，但 ContentVec 的韵律保留 P.Corr=0.348 更低，表明更强的说话人解耦以牺牲韵律为代价）16。

SPIRAL33（Huang 等，2022）通过噪声增强训练使 SSL 特征对背景噪声不变，产生噪声鲁棒的语义 token，在噪声环境下的 ASR 任务上表现更好。

6. 整体横向对比

6.1 量化方法对比

量化方法	可微性	码本崩溃	词汇量	并行化	信息损失	代表应用
k-means 聚类	否	—	灵活	是	中（高维不稳定）	HuBERT+km, GSLM
k-means VQ (STE)	近似	高	灵活	是	中	VQ-VAE, DAC
Gumbel VQ	近似	低	灵活	是	中	wav2vec 2.0
FSQ	近似（取整）	极低	受限（$L^d$）	是	低（高利用率）	CosyVoice 2
RVQ	近似（串行STE）	中	高（多层）	否	低（多层补偿）	SoundStream, EnCodec
GVQ	近似	中	高（多组）	是	中	wav2vec 2.0

6.2 声学 Token 代表模型对比

模型	年份	机构	量化方式	帧率 (Hz)	量化器数 Q	码本大小 V	比特率 (kbps)	子类型
VQ-VAE	2017	DeepMind	k-means VQ	100	1	512	~0.9	通用
SoundStream	2021	Google	RVQ	50	8	1024	3.0	通用
EnCodec	2022	Meta	RVQ	75	8	1024	6.0	通用
DAC	2023	Descript	RVQ (L2归一化)	86	12	1024	8.0	通用
WavTokenizer	2025	—	单码本 VQ	75	1	4096	0.9	通用
FocalCodec	2025	—	FSQ	12.5–50	1	$2^{13}$	0.16–0.65	通用
SpeechTokenizer	2024	上交大	RVQ + HuBERT蒸馏	50	8	1024	4.0	语义蒸馏
X-Codec	2024	—	RVQ + SSL蒸馏	50	8	1024	4.0	语义蒸馏
Mimi	2024	Kyutai	RVQ + WavLM蒸馏	12.5	8	2048	1.1	语义蒸馏
DM-Codec	2025	—	RVQ + 多模态蒸馏	50	8	1024	4.0	语义蒸馏
FACodec	2024	微软	RVQ + GRL解耦	80	1+2+3	1024	4.8	解耦
LSCodec	2024	上交大	VQ + 扰动解耦	25–50	1	1024/300	0.25–0.45	解耦

6.3 语义 Token 代表模型对比

模型	年份	机构	量化方式	帧率 (Hz)	训练目标	内置量化	子类型
vq-wav2vec	2020	Meta	GVQ (G=2, V=320)	100	对比学习	是	对比
wav2vec 2.0	2020	Meta	Gumbel VQ (G=2, V=320)	50	对比学习	是	对比
HuBERT	2021	Meta	外部 k-means	50	掩码预测	否	预测
WavLM	2022	微软	外部 k-means	50	掩码预测+去噪	否	预测
BEST-RQ	2022	Google	随机投影量化	25	掩码预测	是	预测
ContentVec	2022	MIT	外部 k-means	50	说话人不变	否	扰动不变
S³ Tokenizer	2024	阿里	VQ (V=4096)	25–50	有监督 ASR	是	有监督
CosyVoice 2	2024	阿里	FSQ ($3^8$)	12.5	有监督 ASR	是	有监督

6.4 各类表征在下游任务上的系统性对比

以下数据来自 Guo 等人 16 的统一实验框架（LibriTTS 测试集，CTX-vec2wav 声码器辅助重建，LSTM 探针网络语义建模）：

表征类型	代表模型	比特率 (kbps)	重建 WER↓	PESQ↑	STOI↑	GPE↓	VC SECS↑	ASR WER↓	IC ACC↑
连续基线	Mel + BigVGAN	—	1.18%	4.30	0.995	0.88	—	17.4%	50.1%
声学（通用）	EnCodec (Q=8)	6.00	1.53%	2.83	0.946	1.33	—	19.4%	34.8%
	DAC (24kHz, Q=8)	6.00	1.34%	3.52	0.958	0.93	—	26.1%	18.3%
	WavTokenizer (75Hz)	0.90	2.45%	2.47	0.925	1.63	—	37.2%	15.5%
声学（语义蒸馏）	SpeechTokenizer	4.00	1.47%	2.60	0.930	1.20	—	19.3%	57.3%
	X-Codec	4.00	1.27%	2.82	0.905	1.49	—	9.8%	69.6%
	Mimi	1.10	2.44%	2.27	0.917	1.68	—	26.8%	50.9%
声学（解耦）	FACodec	4.80	1.37%	2.91	0.954	1.02	0.773	14.6%	51.1%
	LSCodec (50Hz)	0.45	3.33%	1.77	0.688	2.42	0.852	25.3%	49.8%
语义（SSL外部）	HuBERT L24+km2048	0.55	1.86%	1.17	0.625	15.65	0.876	6.1%	67.2%
	WavLM L24+km2048	0.55	1.67%	1.16	0.621	17.94	0.872	6.1%	74.2%
	ContentVec L12+km2048	0.55	2.09%	1.15	0.613	18.88	0.869	5.5%	72.0%
语义（SSL内置）	wav2vec 2.0 L14+km2048	0.55	2.51%	1.20	0.630	9.57	0.880	5.8%	69.5%
	vq-wav2vec (k-means)	1.80	2.81%	1.49	0.795	2.73	0.857	16.9%	58.7%
语义（有监督）	S³ Tokenizer (50Hz)	0.60	2.12%	1.37	0.673	4.25	0.868	17.5%	67.2%

数据来源：Guo et al. 2025 16，Table I。重建 WER 通过 CTX-vec2wav 声码器辅助重建后评估；ASR WER 和 IC ACC 通过 LSTM 探针网络在 token 索引上直接评估；VC SECS 为声音转换任务的说话人相似度。GPE（基频误差百分比）越低表示韵律保留越好。加粗为各列最优值（不含连续基线）。

6.5 DASB 基准：判别式与生成式任务的系统评估

DASB 基准 35（Mousavi 等，2024）提供了更全面的多任务评估框架，覆盖语音识别（ASR）、说话人识别（SID）、说话人验证（SV）、情感识别（ER）、关键词检测（KS）、意图分类（IC）等判别式任务，以及语音增强（SE）、语音分离（SS）、文本转语音（TTS）等生成式任务。DASB 的核心结论是：语义 token 在判别式和生成式任务上均优于压缩（声学）token，但与连续表征的性能差距仍然显著35。

这一结论揭示了离散化的根本代价：无论是声学 token 还是语义 token，量化过程都会引入信息损失，导致下游任务性能低于使用连续表征的基线。连续表征（如 WavLM Large 的连续输出）在 SUPERB 基准 5 的几乎所有任务上仍优于最好的离散 token。

6.6 两类表征的根本性差异总结

维度	连续表征	声学 Token	语义 Token
信息保真度	最高	中（重建质量好）	低（声学细节丢失）
语义建模能力	最高	低	高
重建/生成质量	需额外解码器	最高	低（需声码器）
LLM 兼容性	差（需适配器）	好（离散符号）	好（离散符号）
说话人信息保留	高	高（通用）/低（解耦）	低（天然解耦）
韵律信息保留	高	高	低（k-means丢失）
序列长度	长（50Hz）	可变（12.5—86Hz）	可变（25—100Hz）
流式处理	取决于模型	多数支持	多数不支持（非因果Transformer）
训练复杂度	低（直接使用）	高（端到端训练）	中（SSL+聚类）
典型应用	ASR、SV、ER、语音LLM理解	TTS、语音生成、对话	语音LM、VC、S2ST

7. 统一表征：弥合语义与声学的尝试

7.1 分层建模：AudioLM 的范式

AudioLM28（Borsos 等，IEEE/ACM TASLP 2023）提出了一个影响深远的分层建模框架，将语义 token 和声学 token 的互补优势结合起来。其三阶段生成过程为：首先用语言模型基于条件生成语义 token（w2v-BERT+k-means，$V=1024$），捕获长程语言结构和内容；再用粗粒度声学语言模型基于语义 token 生成 SoundStream 的第一层 RVQ token，确定音色和韵律的粗略轮廓；最后用细粒度声学语言模型生成 SoundStream 的后续 RVQ 层，补充声学细节。

AudioLM 的核心洞察是：语义 token 和声学 token 在信息层次上是互补的，而非竞争的。语义 token 负责”说什么”（内容和长程结构），粗粒度声学 token 负责”怎么说”（音色和韵律），细粒度声学 token 负责”听起来怎样”（声学细节）。这一分层对应于人类语音感知的层次结构，也为后续统一 tokenizer 的设计提供了理论依据。

AudioLM 的局限在于三阶段建模需要三个独立的语言模型，训练和推理成本高，且各阶段之间的信息传递存在误差积累。

7.2 统一 Tokenizer：SpeechTokenizer

SpeechTokenizer23（Zhang 等，ICLR 2024）的目标是设计一个单一的 tokenizer，使其 RVQ 的不同层次自然对应语义和声学信息的分离，从而在一个模型中同时支持理解和生成任务。

SpeechTokenizer 采用编码器-解码器架构和 RVQ 量化器（$Q=8$，$V=1024$，$F=50$ Hz），关键创新在于语义蒸馏：第一层 RVQ 的训练目标不仅是最小化重建误差，还要最小化其输出与 HuBERT Large 第 9 层输出之间的距离（余弦相似度损失）。这一蒸馏目标迫使第一层 RVQ 捕获语义信息，而后续层则专注于补充声学细节。

实验表明，SpeechTokenizer 在重建质量上与 EnCodec 相当（WER=1.47% vs 1.53%），同时在语义建模上显著优于 EnCodec（IC ACC=57.3% vs 34.8%）16。SpeechTokenizer 的局限在于蒸馏目标的设计选择：选择 HuBERT 的哪一层作为蒸馏目标对最终性能影响显著，且蒸馏目标的质量上限受限于 HuBERT 本身的表征质量。

7.3 语义蒸馏的系列工作

语义蒸馏思路在 SpeechTokenizer 之后得到了广泛发展。

Mimi22（Kyutai，2024）将语义蒸馏与低延迟流式编解码器结合：第一个码本通过对 WavLM 表示的蒸馏进行训练，其余 7 个码本为标准残差量化声学码。12.5Hz 的帧率（每秒 12.5 个 token）使 Moshi 的实时对话系统能够在 200ms 延迟内运行。Mimi 的设计验证了语义蒸馏与低比特率设计的兼容性。

X-Codec（2024）将语义蒸馏推进到更强的程度：以 SSL 特征同时作为编码器输入和量化目标，使声学 token 的语义建模能力大幅提升。实验数据 16 显示，X-Codec 的 ASR WER 仅为 9.8%，意图分类准确率达 69.6%，在语义任务上接近纯语义 token 的水平，同时保持了声学 token 的重建质量（PESQ=2.82）。

DM-Codec24（2025）进一步扩展了蒸馏目标的来源：同时蒸馏语音 SSL 特征（语义信息）和语言模型特征（文本语义信息），实现多模态表示的融合蒸馏，使 token 在语音语义和文本语义两个层面上都具有良好的对齐。

7.4 解耦声学 Token 的系统设计

解耦声学 token 的目标是将说话人音色与内容/韵律信息在量化层面分离，以支持声音转换和可控语音合成。

FACodec25（NaturalSpeech 3，2024）采用监督解耦方案：通过独立的 RVQ 模块分别编码说话人音色、内容、韵律和声学细节，并用梯度反转层（GRL）和专用监督信号强制各模块只编码目标信息。具体而言，音色提取器通过说话人分类损失优化；内容、韵律和声学细节各有专用 RVQ 模块，通过 GRL 阻止其他信息渗入。FACodec 在声音转换任务上实现了 SECS=0.773 的说话人相似度和 P.Corr=0.583 的韵律保留 16，在解耦声学 token 中表现最优。

LSCodec26（2024）采用更简洁的设计：通过时间拉伸扰动破坏输入语音的说话人特征，利用 VQ 的信息瓶颈自然阻止音色信息进入 token，再以连续 WavLM 特征提供说话人信息给解码器。LSCodec 在极低比特率（0.45kbps，50Hz）下实现了高质量的声音转换（SECS=0.852），但由于比特率极低，重建质量（PESQ=1.77）相对有限。

8. 前沿方向与开放问题

8.1 极低比特率与单码本设计

降低比特率是神经音频编解码器的持续研究方向，其动机是减少语言建模的序列长度，从而降低 LLM 的计算成本。WavTokenizer 21 以 0.9kbps（75Hz，单码本）实现了与多码本方案相当的重建质量，验证了极低比特率的可行性。FocalCodec 34（NeurIPS 2025）进一步将比特率压缩到 0.16—0.65kbps，采用 FSQ 二值码本设计，在极低比特率下保持了基本的语音可懂度。

然而，极低比特率设计面临一个根本性挑战：内容可懂度与比特率之间存在硬性下限。当帧率降低到 12.5Hz 以下时，每帧需要编码的语音内容增多，单个码向量的信息容量可能不足以区分相似音素，导致 WER 急剧上升。实验数据 16 表明，Stable-Codec（约 0.7kbps）的重建 WER 高达 4.94%，而 WavTokenizer（0.9kbps）的 WER 为 2.45%，表明过度压缩会显著损害内容可懂度。

8.2 变帧率 Token

固定帧率设计的一个根本低效之处在于：静音段、稳定元音段和快速辅音段的信息密度差异巨大，但每帧分配的 token 数量相同。变帧率 token 的研究旨在根据语音内容的信息密度自适应分配 token 数量。

Dieleman 等人 36 的早期工作提出了基于慢速自编码器（SlowAE）的变速率离散表征学习，通过学习事件边界将语音分割为变长的语义单元。近期工作 37（AAAI 2026）通过自适应聚类和隐式时长编码实现变帧率 tokenization，在相同语义建模性能下将 token 数量减少约 30%—50%。

变帧率设计的主要挑战是与自回归语言模型的兼容性：标准 Transformer 的位置编码假设固定帧率，变帧率 token 需要额外的时长信息才能重建原始时序结构。

8.3 面向语言建模的 Token 设计

传统声学 token 的训练目标是最小化重建误差，但用于语言建模的 token 需要满足不同的性质：语义一致性（同一音素在不同语境下应映射到相同 token）、低冗余（相邻帧的 token 不应过于相似）和与文本 token 的语义对齐。

LLM-Codec38（2025）尝试将语言模型目标直接引入编解码器的训练：在标准重建损失之外，加入预训练语言模型对 token 序列的困惑度作为辅助损失，使编解码器产生的 token 更适合语言建模。实验表明，LLM-Codec 在语言建模困惑度上优于 EnCodec，但在重建质量上有所下降 16，揭示了重建目标与语言建模目标之间的内在张力。

8.4 连续表征的回归：生成式连续方案

尽管离散 token 在语音 LLM 领域占据主流，近期出现了重新审视连续表征的声音。Flow-Omni13 的实验表明，连续 speech token 在语音到语音的多模态训练中比离散 token 更鲁棒，能够避免离散化引入的表示损失。其技术路线是将流匹配（Flow Matching）损失与自回归 LLM 结合，直接预测连续语音 token 的概率分布，再由解码器重建波形。

这一方向的挑战在于：连续输出的生成需要额外的解码步骤（流匹配采样），推理延迟高于直接预测离散 token；此外，连续输出的质量评估比离散 token 更复杂，缺乏标准化的评估框架。

8.5 流式处理与实时性约束

全双工实时对话系统（如 Moshi 22）对表征的帧率和延迟有严格要求。Moshi 的 200ms 延迟已经接近可用水平，但其模型规模（约 7B 参数）和推理成本限制了其在边缘设备上的部署。

流式处理对语义 token 的挑战尤为突出：大多数 SSL 模型（HuBERT、WavLM）采用非因果 Transformer 架构，无法实时处理输入流。从非因果架构迁移到因果架构通常会导致显著的性能下降，这一代价目前尚未被系统性地量化 16。

8.6 核心开放问题

最优表征的信息论定义。什么样的表征是”最优的”？从信息论角度，理想表征应当是目标任务相关信息的充分统计量，同时最小化冗余信息。然而，不同任务的”相关信息”不同，单一表征难以同时满足所有任务。多任务表征学习的理论框架仍不完善。

语义-声学的最优分离粒度。SpeechTokenizer 等工作将语义-声学分离定位在 RVQ 的第一层与后续层之间，但这一分离是否是最优的？是否存在更细粒度的分离方案（如按信息类型分离，而非按 RVQ 层次分离）？

跨语言、跨领域的表征泛化。现有 token 设计大多在英语或少数高资源语言上验证，其在声调语言、形态复杂语言上的表现仍不清楚。低资源语言的语音特征可能与高资源语言存在根本性差异，导致在高资源语言上优化的 token 设计难以迁移。

9. 总结

连续表征与离散表征的张力，本质上是音频信号处理中信息保真度与符号兼容性之间的根本矛盾。从信息论视角，连续表征对应小 $\beta$ 的信息瓶颈目标（保留更多信息），离散表征通过量化引入强制信息瓶颈，对应大 $\beta$（更强压缩）。两者各有其适用场景，不存在绝对意义上的优劣之分。

在技术体系层面，量化方法从离线 k-means 聚类演进到在线 VQ（k-means VQ、Gumbel VQ、FSQ）和 RVQ，每一步演进都在解决前一方法的特定局限（不可微、码本崩溃、信息容量有限）。声学 token 从 VQ-VAE 到 SoundStream、EnCodec、WavTokenizer，比特率从数 kbps 降至 0.16kbps，同时重建质量持续提升。语义 token 从 HuBERT+k-means 到有监督 S³ Tokenizer，语义对齐精度不断改善。

在应用层面，两类表征并非线性替代关系：连续表征在判别式任务（ASR、SV、ER）上仍具有明显优势；声学 token 在生成任务（TTS、语音合成）上不可替代；语义 token 在语音语言建模和语音转换中具有独特价值；而语义蒸馏声学 token（SpeechTokenizer、X-Codec、Mimi）则代表了弥合两类表征的最新尝试。

当前研究的核心挑战是：如何设计一种表征，使其在信息保真度、符号兼容性、序列效率和跨任务泛化性之间达到更优的平衡。变帧率 token、面向语言建模的 token 设计、连续表征的流匹配生成等前沿方向，本质上都是在尝试回答这一问题。

参考文献

Study representation

This post is licensed under CC BY 4.0 by the author.