语音预训练范式

语音预训练范式

本文梳理了语音预训练领域自 2019 年以来的主要技术范式,重点分析各范式的设计动机、方法论选择及其内在局限,并追踪 Whisper 之后(2024—2026 年)以大语言模型融合为核心的新一轮技术演变。

目录

  1. 问题设定:语音预训练的独特困难
  2. 第一范式:对比学习(2019—2020)
  3. 第二范式:掩码预测(2021—2022)
  4. 第三范式:弱监督大规模训练(2022—2023)
  5. 第四范式:LLM 融合(2023—2026)
  6. 各范式横向对比
  7. 进化路线的内在逻辑
  8. 开放问题与研究方向
  9. 总结
  10. 参考文献

1. 问题设定:语音预训练的独特困难

将预训练范式从 NLP 迁移到语音,面临的核心困难并非数据规模,而是监督信号的构造问题。

在文本领域,BERT 的掩码语言模型目标之所以有效,是因为文本本身已经是离散的 token 序列——被掩码的位置有明确的词汇表范围内的”正确答案”。语音信号则是高维连续时间序列,每秒包含数万个采样点,且不存在天然的离散单元边界。如果直接在原始波形上定义掩码预测目标,预测目标是什么?如果是原始波形值,模型将退化为对低级声学细节的重建,而非对语言内容的理解。

这一困难催生了语音 SSL 领域的两条技术路线:其一是绕开离散化,用对比学习在连续表示空间中构造自监督信号(wav2vec 系列);其二是主动构造离散目标,通过聚类或量化生成伪标签,再用掩码预测训练(HuBERT、WavLM)。两条路线的分歧,本质上是对”什么是好的语音表示”这一问题的不同回答。

此外,语音信号携带的信息是多层次、部分相互干扰的:音素序列(内容)、基频轮廓(韵律)、声道共振(说话人身份)、情感状态、背景噪声等同时叠加在一个信号通道中。这意味着不同下游任务对”好的表示”的要求是相互矛盾的——说话人识别需要保留说话人特征,而语音内容识别则希望对说话人变化保持不变性。这一多目标张力贯穿了整个预训练范式的演进历程。


2. 第一范式:对比学习(2019—2020)

2.1 wav2vec 的设计逻辑

2019 年,Schneider 等人提出 wav2vec1,其核心思想来自 NLP 领域的预测式语言模型(Predictive Language Model):给定过去的上下文,预测未来的表示。具体而言,模型由两个卷积网络组成——特征编码器(Feature Encoder)将原始波形映射为局部帧级表示,上下文网络(Context Network)在更长时间窗口内聚合信息。训练目标是对比损失:对于时刻 \(t\) 的上下文表示 \(c_t\),模型需要从候选集 \(\{z_{t+k}, \tilde{z}_1, ..., \tilde{z}N\}\) 中识别出真实的未来帧 \(z{t+k}\),其中 \(\tilde{z}\) 为随机采样的负样本。

这一设计的关键假设是:语音帧之间存在可预测的时序依赖,而这种依赖主要由语言内容(音素序列、韵律结构)决定,而非随机声学变化。因此,能够预测未来帧的表示,应当捕获了语音的语言学规律。

wav2vec 的局限在于,对比学习目标本质上是一个排序问题(rank the true future frame above negatives),而非一个结构化预测问题。模型学到的是相对区分性,而非绝对语义。这导致其表示对下游任务的迁移能力受限,尤其是对需要细粒度语义理解的任务。

2.2 vq-wav2vec:离散化的动机

vq-wav2vec2 的提出源于一个直接的问题:能否将 BERT 的训练框架直接应用于语音?BERT 的掩码语言模型目标需要离散的词汇表,而语音是连续信号。vq-wav2vec 的解决方案是在 wav2vec 的特征编码器输出后插入一个向量量化(VQ)模块,将连续表示映射到有限码本中的离散 token,从而可以在量化后的 token 序列上运行 BERT 式预训练。

这一思路的问题在于,量化过程是有损的,且量化质量高度依赖码本的初始化和训练稳定性。更根本的问题是:VQ 模块的训练目标(重建损失)与下游任务的目标(语义理解)之间存在错位——码本不一定对齐语言学上有意义的单元(如音素)。vq-wav2vec 的实验结果也印证了这一点:直接在量化 token 上运行 BERT 的效果并不优于 wav2vec 的对比学习版本。

2.3 wav2vec 2.0:两条路线的融合

wav2vec 2.03 的设计解决了 vq-wav2vec 的核心矛盾:它不再将量化作为预处理步骤,而是将量化模块与 Transformer 编码器端到端联合训练,同时用对比学习目标替代 BERT 的交叉熵目标,从而绕开了离散 token 需要固定词汇表的限制

具体架构如下:特征编码器(7 层 CNN)将原始波形映射为局部潜在表示 \(z_1, ..., z_T\);随机掩码后,Transformer 编码器生成上下文化表示 \(c_1, ..., c_T\);量化模块将未掩码的 \(z_t\) 映射为离散 token \(q_t\)(通过 Gumbel-Softmax 实现可微量化)。训练目标是对比损失:对于每个被掩码的位置 \(t\),模型需要从 \(K\) 个候选(1 个真实 \(q_t\) 加 \(K-1\) 个负样本)中识别出真实量化表示:

\[\mathcal{L}m = -\log \frac{\exp(\text{sim}(c_t, q_t)/\kappa)}{\sum{\tilde{q} \sim p_n} \exp(\text{sim}(c_t, \tilde{q})/\kappa)}\]

其中 \(\text{sim}(\cdot)\) 为余弦相似度,\(\kappa\) 为温度参数,负样本从同一批次的其他语音中均匀采样。

这一设计有几个值得关注的细节。掩码策略:wav2vec 2.0 在潜在空间(而非输入波形)上施加掩码,掩码的最小单元是连续的帧块(span masking),而非单帧,这迫使模型依赖更长程的上下文进行预测。量化多样性损失:为防止量化模块退化为只使用少数码字,训练目标中加入了码本使用多样性的正则项 \(\mathcal{L}_d\),鼓励均匀使用所有码字。多码本设计:wav2vec 2.0 使用 \(G\) 个独立码本,每个码本有 \(V\) 个条目,最终量化表示为各码本选择的拼接,增加了表示的容量。

wav2vec 2.0 的实验结果表明,在 LibriSpeech 上仅用 10 分钟标注数据微调,即可达到与当时监督基线相当的词错误率(WER)3。这一结果的意义在于证明了语音 SSL 的可行性,而非表明 10 分钟标注足以解决实际 ASR 问题——在真实噪声场景和低资源语言上,wav2vec 2.0 的性能仍与全监督系统有显著差距。

wav2vec 2.0 的主要局限在于其预训练目标与下游任务之间的结构性错位。对比学习目标优化的是表示的区分性,而 ASR 等任务需要的是表示的语义一致性。此外,量化 codebook 的训练在实践中存在不稳定性,不同随机种子下的量化结果差异较大,影响了预训练的可重复性。


3. 第二范式:掩码预测(2021—2022)

3.1 HuBERT:离线聚类作为监督信号

HuBERT(Hidden-Unit BERT)4 的出发点是对 wav2vec 2.0 的一个根本性批评:对比学习目标对于构造语音表示而言并非最优,因为它只要求模型区分正负样本,而不要求模型理解语音的内部结构。HuBERT 的作者认为,更好的做法是直接用分类目标(预测离散类别)训练模型,类似于 BERT 的掩码语言模型——但问题在于语音没有天然的离散类别。

HuBERT 的解决方案是离线 k-means 聚类:在训练开始前,先对语音特征(MFCC 或已有模型的中间层输出)进行 k-means 聚类,将每一帧分配到某个聚类中心,以聚类标签作为伪标签(Pseudo Labels)。然后,在被掩码的帧上用交叉熵损失训练模型预测这些伪标签。

这一设计的关键洞察是:伪标签不需要是完美的语言学单元,只需要在时间上保持一致性(consistency over time)。即使 k-means 聚类产生的标签与音素边界不完全对齐,只要同一音素在不同语境下被分配到相同的聚类,模型就能从掩码预测目标中学到有用的语音结构。

HuBERT 的迭代训练机制进一步强化了这一逻辑:第一轮用 MFCC 特征聚类(100 类)训练 BASE 模型;第二轮用 BASE 模型的第 6 层输出重新聚类(500 类),训练 LARGE 模型。随着模型质量提升,聚类质量也随之提升,形成正向循环。实验表明,第二轮聚类的伪标签与真实音素的对齐度(Phone Purity)显著高于第一轮 4,这验证了迭代机制的有效性。

HuBERT 与 wav2vec 2.0 的一个重要区别是掩码位置的损失计算。wav2vec 2.0 只在被掩码的位置计算对比损失;HuBERT 在原始论文中同时在掩码和非掩码位置计算交叉熵损失,但实验表明只在掩码位置计算损失效果更好,最终采用了只在掩码位置计算损失的设计。这一选择的理由是:非掩码位置的预测任务过于简单(模型可以直接”看到”对应的特征),不能有效迫使模型学习上下文依赖。

HuBERT 的局限主要有两点。其一,离线聚类引入了训练流程的复杂性——每次迭代都需要重新聚类和重新训练,计算成本高,且聚类步骤本身不可微,无法与主模型联合优化。其二,k-means 聚类的目标是最小化帧级特征的重建误差,这与语音理解的目标(捕获语言内容)并不完全一致。聚类结果在很大程度上受到输入特征选择的影响,而输入特征的选择没有原则性的指导。

3.2 WavLM:预训练目标的扩展

WavLM6 的核心贡献是对 HuBERT 预训练目标的扩展:在保留掩码预测目标的同时,引入去噪预训练(Denoising Pre-training)任务。

去噪预训练的动机来自对 HuBERT 局限的分析。HuBERT 的训练数据是干净的单说话人语音,模型从未在训练中接触过噪声或多说话人混合场景。这导致 HuBERT 在说话人分离、语音增强等任务上的表现受限——模型的表示对噪声不具备鲁棒性。WavLM 的解决方案是在预训练阶段直接引入噪声:在 20% 的训练样本中,将当前语音与另一段语音(或背景噪声)按随机比例混合,要求模型预测干净语音对应的伪标签(而非混合语音的伪标签)。

这一设计的理论依据是:如果模型能够在噪声条件下正确预测干净语音的离散单元,它必然学到了对噪声鲁棒的语音内容表示。同时,由于训练目标是干净语音的标签,模型不会被”训练成”一个噪声分类器,而是保留了对语音内容的建模能力。

WavLM 还引入了门控相对位置编码(Gated Relative Position Bias),在 Transformer 的注意力计算中加入可学习的相对位置偏置,并通过门控机制控制其对不同注意力头的影响程度。这一设计的动机是:语音信号的时序结构在不同层次上有不同的重要性(低层更依赖局部时序,高层更依赖全局语义),门控机制允许模型自适应地调整位置信息的使用。

WavLM Large 在 SUPERB 基准 5 的 15 个任务中,在说话人验证(SV)、说话人分割(SD)、语音增强(SE)、语音分离(SS)等任务上相比 HuBERT Large 有显著提升,而在 ASR 等内容理解任务上性能相当或略有提升 6。这一结果与 WavLM 的设计预期一致:去噪目标主要改善了对噪声和说话人变化敏感的任务,而对纯内容理解任务的改善有限。

WavLM 的局限在于训练成本的大幅上升。去噪预训练需要在线生成混合语音,增加了数据处理的计算开销;WavLM Large 使用了 94,000 小时的语音数据(包括 LibriLight 的 60,000 小时),远超 HuBERT Large 的 60,000 小时,且需要更长的训练时间。此外,WavLM 仍是 encoder-only 架构,不能直接用于序列生成任务,在语音合成、语音翻译等生成场景中需要额外的解码器。

3.3 data2vec:预测目标的再思考

data2vec7 提出了一个与 HuBERT/WavLM 不同的问题:为什么预测目标必须是离散的?离散化(无论是 k-means 聚类还是 VQ)都是有损的,且引入了额外的设计选择(聚类数量、码本大小等)。data2vec 的主张是:直接预测连续的上下文化表示,不仅避免了离散化的信息损失,还能让预测目标本身携带更丰富的上下文信息。

data2vec 采用教师-学生框架:教师模型是学生模型的指数移动平均(EMA),对完整(未掩码)输入生成上下文化表示;学生模型对掩码输入进行编码,并预测教师模型在被掩码位置的输出。预测目标是教师模型顶部若干层输出的平均值(而非单层输出),以获得更稳定的训练信号。

在语音任务上,data2vec 的实验结果表明,连续目标预测在 LibriSpeech ASR 上的性能与 HuBERT 相近,但在 SUPERB 的多任务评估中不如 WavLM 7。这一结果揭示了一个有趣的张力:连续目标在理论上信息更丰富,但在实践中,离散化带来的”信息瓶颈”可能反而有助于模型学习更抽象、更具泛化性的表示。

data2vec 2.0 8 通过引入多掩码(multi-mask)策略和更高效的训练流程,将训练速度提升了约 16 倍,但在语音任务的综合性能上仍与 WavLM 有差距。

3.4 BEST-RQ:量化目标的简化

谷歌的 BEST-RQ9(BERT-based Speech pre-Training with Random-projection Quantizer)从另一个角度简化了预训练目标的构造:用一个随机投影矩阵(Random Projection,训练中固定不更新)将语音特征投影到低维空间,再通过最近邻查找映射到固定码本中的离散 token,以此作为掩码预测的目标。

BEST-RQ 的设计动机是:HuBERT 的 k-means 聚类需要迭代训练,BEST-RQ 的随机量化器是固定的,无需迭代,训练流程更简单。实验表明,随机量化器产生的伪标签质量足以支持有效的掩码预测预训练——在 LibriSpeech ASR 上,BEST-RQ 的性能与 HuBERT 相当 9

这一结果有一定的反直觉性:随机投影产生的伪标签与语言学单元没有任何对应关系,为什么模型仍能从中学到有用的表示?一个可能的解释是:掩码预测目标的关键不在于预测目标的语义质量,而在于它迫使模型学习时序一致性(temporally consistent representations)——只要同一语音片段在不同上下文中被分配到相同的量化 token,模型就能从预测任务中学到有用的结构。BEST-RQ 后来成为谷歌 USM(Universal Speech Model)的预训练基础,在大规模多语言场景中得到了验证。


4. 第三范式:弱监督大规模训练(2022—2023)

4.1 Whisper:监督范式的回归与扩展

Whisper10 的设计哲学与前两个范式截然不同,它本质上是对监督学习范式的回归——但以前所未有的数据规模实现。

Whisper 的核心假设是:语音识别的泛化性问题,根本上是数据分布覆盖问题,而非模型架构或训练目标问题。SSL 模型(wav2vec 2.0、HuBERT)在 LibriSpeech 等干净英语数据集上表现出色,但在真实世界的噪声、口音、领域变化下性能下降明显,原因在于预训练数据的分布过于单一。Whisper 的解决方案是:从互联网收集 680,000 小时带有字幕的多语言音频,用这些”弱标注”数据直接训练一个序列到序列模型。

Whisper 的架构是标准的 Transformer Encoder-Decoder,输入为 80 维 log-Mel 频谱图(30 秒窗口,步长 10ms,窗长 25ms),输出为文本 token 序列。多任务训练通过特殊 token 实现:解码器的输入序列以任务描述 token 开头(如 <|transcribe|> 表示转录,<|translate|> 表示翻译为英语),语言标识 token(如 <|zh|>)指定源语言,时间戳 token 可选地插入输出序列中以预测词级时间戳。

这一设计有几个值得深入分析的选择。为什么用 Encoder-Decoder 而非 Encoder-only? SSL 模型(HuBERT、WavLM)是 encoder-only 的,因为它们的目标是学习通用表示,解码器是任务专用的。Whisper 的目标是直接输出文本,因此 encoder-decoder 是自然的选择。但这也意味着 Whisper 的 encoder 表示是针对解码器优化的,而非针对通用语音理解优化的——这解释了为什么 Whisper 的 encoder 在说话人识别、情感识别等任务上的表现不如 WavLM。

为什么用弱监督而非强监督? 互联网字幕数据的质量参差不齐——字幕可能是机器生成的、翻译的、或与音频不完全对齐的。Whisper 的论文对数据清洗做了大量工作:过滤掉与音频语言不匹配的字幕、过滤掉重复率过高的字幕、过滤掉非语音内容等。即便如此,训练数据中仍存在大量噪声标注。Whisper 的论点是:数据规模对泛化性的贡献超过了噪声标注的负面影响,这与 NLP 领域大规模预训练的经验一致。

30 秒窗口的设计选择。Whisper 以 30 秒为固定处理窗口,这对于大多数短语音片段是合适的,但对于长音频(如讲座、访谈)则需要滑动窗口处理。滑动窗口在窗口边界处容易产生断句错误,且 Whisper 的解码器没有跨窗口的上下文记忆,导致长音频处理时的一致性较差。这一问题在后续工作(如 Whisper-CD 31)中被专门研究。

Whisper 的幻觉问题(Hallucination)是其最受批评的局限之一。幻觉指的是模型在静音或低信噪比音频上生成与实际内容无关的文字,通常是训练数据中的常见短语或重复片段。幻觉的根本原因在于 Whisper 的解码器是自回归的,一旦开始生成错误的 token,后续 token 会以此为条件继续生成,形成”雪球效应”。此外,Whisper 的训练目标是最大化字幕的似然,而非最小化幻觉率,训练目标与幻觉问题之间存在错位。

Whisper 的主要局限可以归纳为三点:其一,encoder 表示针对 ASR 优化,不适合说话人识别、情感识别等需要副语言信息的任务;其二,30 秒固定窗口和自回归解码导致长音频处理困难和幻觉问题;其三,训练数据分布不均(英语占比约 65%),低资源语言的性能与高资源语言差距显著。

4.2 MMS:数据覆盖的极限探索

MMS(Massively Multilingual Speech)11 的出发点是一个与 Whisper 不同的问题:如何将语音技术覆盖到资源极度匮乏的语言?Whisper 的 99 种语言覆盖已经远超此前系统,但仍有数千种语言没有任何语音技术支持。

MMS 的数据策略是利用宗教文本录音——圣经等宗教文本被翻译成了数千种语言,并有相应的朗读录音,这是目前覆盖语言数量最多的语音数据来源。MMS 在 wav2vec 2.0 框架上进行多语言预训练,支持 1,107 种语言的 ASR 和 TTS,以及 4,017 种语言的语言识别 11

MMS 的局限是数据来源的单一性带来的领域偏差。宗教文本的语言风格(正式、朗读体、特定词汇)与日常对话存在显著差异,导致 MMS 在非宗教领域的实际 ASR 性能不如 Whisper。这是一个典型的覆盖广度与领域深度之间的权衡

4.3 SeamlessM4T:统一多模态翻译的尝试

SeamlessM4T12 将多语言语音翻译问题统一为一个端到端模型,支持语音-语音、语音-文本、文本-语音、文本-文本四种翻译模式,覆盖 100 种语言。其技术贡献在于设计了一个共享的多模态编码器,能够处理语音和文本两种输入模态,并通过统一的解码器生成语音或文本输出。

SeamlessM4T 的一个值得关注的特性是说话人声音保留(Voice Preservation):在语音翻译时,模型能够在目标语言中重现源说话人的音色特征,而非使用固定的合成声音。这需要模型在编码阶段同时捕获内容信息和说话人特征,并在解码阶段将两者分离使用。


5. 第四范式:LLM 融合(2023—2026)

5.1 范式转变的结构性原因

2023 年以来,语音预训练领域出现了一个新的主导方向:将语音编码器与大语言模型(LLM)对接,以 LLM 的语言理解和生成能力赋能语音任务。这一方向的兴起有其结构性原因,而非仅仅是技术跟风。

传统语音预训练模型(SSL 或 Whisper)的根本局限在于:它们是封闭任务系统。无论是 WavLM 还是 Whisper,其能力边界由预训练任务和微调数据决定。WavLM 可以提取说话人特征,但无法回答”这个说话人的情绪是否与其说话内容一致?”这类需要跨模态推理的问题;Whisper 可以转录语音,但无法理解转录内容并给出智能回应。

LLM 的出现提供了一个解决方案:LLM 本质上是一个通用推理引擎,其能力不依赖于特定任务的微调,而来自大规模文本预训练中积累的世界知识和推理能力。如果能将语音信号”翻译”成 LLM 能够理解的形式,就可以直接利用 LLM 的推理能力处理语音相关的复杂任务。

这一思路催生了两种技术路径,其差异本质上是对”如何将语音表示为 LLM 可处理的形式”这一问题的不同回答。

路径一:连续表示融合。将语音编码器(如 Whisper Encoder 或 WavLM)的连续输出,通过一个可学习的投影层(Adapter)映射到 LLM 的 token embedding 空间,与文本 token 一起输入 LLM。这一路径保留了语音的连续性,信息损失较小,但需要 LLM 学会处理连续的”软 token”,与其原始的离散 token 处理方式存在差异。

路径二:离散 Token 融合。将语音信号通过神经音频编解码器(Neural Audio Codec,如 EnCodec 30、SoundStream 29)量化为离散 token,直接作为 LLM 的输入序列。这一路径与 LLM 的原始处理方式一致,但量化过程引入了信息损失,且音频 token 序列通常远长于对应的文本序列(每秒语音对应约 75—150 个 token),带来了序列长度的挑战。

5.2 连续融合路径的代表:SALMONN 与 Qwen-Audio

SALMONN15 是连续融合路径的早期代表。其设计选择了双编码器架构:Whisper Large-v2 负责编码语音内容(利用其在大规模弱监督数据上训练的 ASR 能力),BEATs 编码器负责编码通用音频事件(环境声、音乐等)。两路特征通过 Q-Former(借鉴自视觉语言模型 BLIP-2)融合后输入 Vicuna LLM。

双编码器的设计动机是:单一编码器难以同时对语音内容(需要语言学表示)和音频事件(需要声学事件表示)建模,而这两类信息对于通用音频理解都是必要的。Q-Former 的作用是将可变长度的音频特征序列压缩为固定数量的查询向量,减少输入到 LLM 的 token 数量,降低计算成本。

Qwen-Audio 系列采用了更直接的连续融合方案:Whisper Large-v2 编码器的输出通过一个线性投影层直接映射到 Qwen LLM 的 embedding 空间。Qwen2-Audio17 在此基础上扩展了训练数据规模和任务多样性,支持语音聊天(实时对话)和音频分析(批量处理)两种交互模式,并在 AIR-Bench 等多模态音频基准上取得了当时较好的结果。

Qwen2.5-Omni18Qwen3-Omni19 进一步将语音能力整合到全模态模型中,同时处理文本、图像、音频和视频输入,并支持流式语音输出。这一方向的技术挑战在于如何在统一的模型中平衡不同模态的能力,避免模态之间的干扰。

5.3 离散 Token 路径:从 VALL-E 到 Moshi

VALL-E26 将语音合成问题重新定义为条件语言建模问题:给定文本 token 序列和 3 秒的说话人提示音频,预测目标语音的 EnCodec 离散 token 序列。这一定义的关键在于,它将说话人特征的建模从显式的说话人嵌入(Speaker Embedding)转移到了隐式的上下文建模——LLM 通过对提示音频 token 的条件化,隐式地捕获了说话人特征。

VALL-E 226 在此基础上引入了两项技术改进。重复感知采样(Repetition-Aware Sampling)解决了自回归解码中的重复生成问题:在采样时,对已经出现过的 token 施加惩罚,减少重复片段的生成概率。分组码建模(Grouped Code Modeling)将 EnCodec 的多层残差量化码(RVQ)分组处理,每组内的码字并行预测,而非逐一自回归,在保持质量的同时显著提升了解码速度。

Moshi20 将离散 token 路径推进到了实时全双工对话场景。其核心技术挑战是:如何在一个模型中同时处理用户语音输入和模型语音输出,且两者在时间上是重叠的(全双工)?

Moshi 的解决方案是多流建模(Multi-Stream Modeling):将用户语音流、模型语音流和模型内心独白(Inner Monologue,即模型生成语音对应的文本 token)作为三个并行的 token 流,在同一个 Transformer 中联合建模。在每个时间步,模型同时读取用户语音 token 并生成自己的语音 token,实现真正的全双工。

Moshi 的神经编解码器 Mimi 专为低延迟流式处理设计:输入 24kHz 音频,输出 12.5Hz 的 8 个码本(第一个码本通过 WavLM 蒸馏学习语义信息,其余 7 个为残差量化声学码)。12.5Hz 的帧率意味着每 80ms 产生一帧,这是实现低延迟的关键——模型不需要等待长段音频才能开始处理。

Moshi 的 RQ-Transformer 架构将时间维度(Temporal Transformer)和码本深度维度(Depth Transformer)分开处理:Temporal Transformer 处理时间序列,对每个时间步输出一个隐状态;Depth Transformer 在该隐状态上自回归地预测 8 个码本的 token。这一分解将计算复杂度从 \(O(S \times K)\) 降低到约 \(O(S + K)\)(\(S\) 为时间步,\(K\) 为码本数),使实时处理成为可能。Moshi 的理论延迟为 160ms,实际测量约 200ms 20

5.4 端到端原生多模态:GPT-4o 的意义

GPT-4o21 的发布在技术层面的意义,不在于其性能指标,而在于它代表了一种不同的系统设计哲学:原生多模态(Native Multimodal)——在文本、语音、视觉三种模态上进行端到端联合训练,而非将各模态的预训练模型拼接在一起。

在此之前,所有语音 LLM(包括 SALMONN、Qwen-Audio、Moshi)都是”拼接式”的:一个预训练好的语音编码器 + 一个预训练好的 LLM,通过有限的对齐训练连接起来。这种设计的问题是:语音编码器和 LLM 的表示空间是独立优化的,对齐训练的数据量和计算量有限,两者之间的语义对齐不可能完美。

原生多模态训练从一开始就在统一的表示空间中处理所有模态,理论上可以实现更深层的跨模态理解。GPT-4o 能够感知说话人的情感、语调、背景噪声,并以笑声、叹气等方式回应,这些能力在拼接式系统中很难实现,因为它们需要在语音信号和语言内容之间进行细粒度的交互。

GPT-4o 的延迟约为 320ms 21,相比级联系统(ASR + LLM + TTS,通常 2—5 秒)有显著降低,但仍高于 Moshi 的 200ms。这一差距部分来自 GPT-4o 的模型规模(参数量远大于 Moshi),部分来自其服务端部署的网络延迟。

5.5 Whisper 的持续演进

Whisper 本身在 2024 年也经历了重要的工程优化。Whisper Large v3-Turbo22 将解码器层数从 32 减少到 4,在保持 encoder 不变的情况下,推理速度提升约 6 倍,而 LibriSpeech 上的 WER 仅增加约 1%。这一结果表明,Whisper 的性能主要由 encoder 决定,decoder 的大部分层对最终性能的贡献有限——这与 encoder-decoder 架构的一般认知一致:encoder 负责特征提取,decoder 负责序列生成,而对于 ASR 这类相对简单的序列生成任务,浅层 decoder 已经足够。

Distil-Whisper23 通过序列级知识蒸馏(Sequence-Level Knowledge Distillation)将 Whisper Large 压缩为更小的学生模型:学生模型的 encoder 与教师相同,decoder 层数减少,训练目标是最小化学生输出与教师输出之间的 KL 散度。Distil-Whisper 在英语 ASR 上的速度比 Whisper Large v2 快约 6 倍,模型大小减少约 49%,WER 在分布内数据上与教师相当,在分布外数据上略有下降。值得注意的是,Distil-Whisper 的幻觉率(以重复 5-gram 的比例衡量)比 Whisper Large v2 低约 1.3 倍,这可能是因为蒸馏过程中学生模型学到了更保守的解码策略。

OWSM(Open Whisper-style Speech Models)24 项目的动机是提升语音预训练研究的可重复性:Whisper 的训练数据和训练代码均未开源,导致研究者无法验证其训练过程或在此基础上进行改进。OWSM 使用完全开源的数据(包括 GigaSpeech、VoxPopuli、LibriSpeech 等)和开源工具包(ESPnet)复现 Whisper 的训练流程。OWSM v3.1 24 使用 E-Branchformer 架构(结合了 Conformer 和 Transformer 的优点),在多项任务上的性能与同等规模的 Whisper 相当。

5.6 神经音频编解码器:新范式的基础设施

离散 token 融合路径的发展在很大程度上依赖于神经音频编解码器(Neural Audio Codec)的进步。这类模型将音频信号压缩为离散 token 序列,其质量直接决定了语音 LLM 的生成质量上限。

SoundStream29 是第一个端到端神经音频编解码器,使用残差向量量化(RVQ)在多个码本层次上逐步编码音频信号。EnCodec30 在 SoundStream 的基础上引入了语言模型先验(用小型 Transformer 对 RVQ token 序列建模),进一步提升了压缩率和重建质量,并被 VALL-E 等模型广泛采用。

Moshi 的 Mimi 编解码器在设计上有一个关键区别:第一个码本通过对 WavLM 表示的蒸馏进行训练,使其捕获语义信息,而非仅仅优化声学重建质量。这一设计使语义信息和声学信息在不同码本层次上分离,有助于语音 LLM 在生成时分别控制内容和音色。

2024—2025 年,神经音频编解码器的研究方向集中在以下几个问题上:如何在更低比特率下保持语音质量;如何设计更适合语言建模的 token 结构(如语义 token 与声学 token 的分离);如何实现流式编解码以支持实时应用。LLM-Codec35 等工作尝试将语言模型目标直接引入编解码器的训练,使编解码器产生的 token 更适合语言建模,而非仅仅优化重建质量。

5.7 SenseVoice:工业场景的效率优化

SenseVoice27 代表了一类不同的技术路线:在有限的计算预算内,通过多任务联合训练实现高效的语音理解。SenseVoice 将多语言 ASR(50+ 种语言)、情感识别和音频事件检测统一在一个非自回归(Non-Autoregressive)编码器模型中,通过共享编码器和任务专用头实现多任务处理。

非自回归设计是 SenseVoice 速度优势的关键:与 Whisper 的自回归解码器不同,SenseVoice 的输出层并行预测所有帧的标签,推理速度约为 Whisper Large 的 5 倍。在中文 ASR 上,SenseVoice 的 CER 低于 Whisper Large v3 约 50%,这主要得益于其针对中文数据的专项优化。

SenseVoice 的局限在于,非自回归设计对长程依赖的建模能力不如自回归模型,在需要全局上下文的任务(如长音频理解、语义理解)上存在固有限制。


6. 各范式横向对比

在完整介绍四个范式的所有代表性工作之后,本节从技术维度对上述模型进行系统性横向比较。

6.1 核心设计选择对比

下表从预训练目标、数据规模、架构类型和主要适用场景等维度,梳理了各模型的核心设计选择:

模型 年份 机构 预训练目标 训练数据量 架构 主要适用任务 核心局限
wav2vec 2.0 2020 Meta 对比学习(量化目标) 960h–53k h Encoder-only ASR(低资源)、跨语言迁移 目标与下游任务错位;codebook 训练不稳定
HuBERT 2021 Meta 掩码预测(k-means 伪标签) 960h–60k h Encoder-only ASR、语音合成特征、语音转换 离线聚类流程复杂;噪声场景性能有限
WavLM 2022 Microsoft 掩码预测 + 去噪预测 94k h Encoder-only 全栈语音任务(含说话人、增强) 训练成本高;仍为 encoder-only
data2vec 2022 Meta 连续目标预测(EMA 教师) 960h Encoder-only 跨模态统一预训练 语音任务综合性能不如 WavLM
BEST-RQ 2022 Google 掩码预测(随机量化目标) 960h Encoder-only ASR(训练效率优先场景) 多任务综合性能有限
Whisper 2022 OpenAI 弱监督序列预测 680k h Encoder-Decoder 多语言 ASR、翻译、零样本泛化 幻觉;长音频;副语言任务不适用
MMS 2023 Meta 弱监督 + SSL 数千 h(1100+ 语言) Encoder-only 极低资源语言 ASR 领域偏差(宗教文本)
SeamlessM4T 2023 Meta 弱监督多任务 大规模多语言 Encoder-Decoder 端到端多语言语音翻译 训练数据和计算成本高
SALMONN 2023 清华 对齐微调(连续融合) 双编码器 + LLM 通用音频理解、语音问答 LLM 推理能力激活不充分
Qwen2-Audio 2024 阿里 对齐微调(连续融合) 大规模多任务 Encoder + LLM 多语言语音聊天、音频分析 对齐训练数据有限
VALL-E 2 2024 Microsoft 条件语言建模(离散 token) LLM(离散 token) 零样本语音合成 仅限生成;实时性差
Moshi 2024 Kyutai 多流语言建模(离散 token) RQ-Transformer 实时全双工语音对话 模型规模大;边缘部署困难
SenseVoice 2024 阿里 弱监督多任务(非自回归) 大规模多语言 Encoder-only(NAR) 高效多语言 ASR + 情感识别 长程依赖建模能力有限
GPT-4o 2024 OpenAI 原生多模态联合训练 超大规模 原生多模态 LLM 语音理解、情感感知、实时对话 训练成本极高;不开源

6.2 下游任务性能格局

SUPERB 基准 5 提供了系统性的对比数据,以下是各类模型在代表性任务上的相对表现:

任务类型 SSL 最优模型 弱监督最优模型 LLM 融合模型 性能差异的根本原因
语音识别(ASR) WavLM Large Whisper Large Qwen2-Audio Whisper 零样本泛化更强;WavLM 微调后在干净数据上更精确
说话人识别(SID) WavLM Large Whisper encoder 针对内容优化,说话人信息被压制
说话人验证(SV) WavLM Large WavLM 去噪目标保留了说话人特征
情感识别(ER) WavLM Large SALMONN SSL 模型保留了更多韵律和副语言信息
语音增强(SE) WavLM Large 去噪预训练与增强任务目标直接相关
多语言 ASR Whisper Large Qwen2-Audio 弱监督训练数据语言覆盖更广
语音合成(TTS) VALL-E 2 离散 token 路径天然支持生成任务
实时对话 Moshi / GPT-4o LLM 融合范式独有能力

这一对比揭示了三种范式的根本性差异:SSL 模型的 encoder-only 架构保留了语音信号的多层次信息(内容、说话人、韵律),适合需要细粒度表示的任务;Whisper 的 encoder-decoder 架构将 encoder 的表示空间导向了解码器的需求,在内容识别上具有更好的零样本泛化性,但以牺牲副语言信息为代价;LLM 融合范式则在语义理解和生成任务上开辟了前两类范式无法触及的能力空间,但在细粒度声学任务(说话人验证、语音增强)上仍依赖 SSL 模型的表示。

6.3 数据规模与架构的演进轨迹

从数据规模和架构两个维度来看,四个范式的演进呈现出清晰的方向性:

flowchart TD
    A["wav2vec<br/>预测式对比学习<br/>960h"] --> B["wav2vec 2.0<br/>掩码 + 对比 + 量化<br/>960h–53kh"]
    B --> C["HuBERT<br/>掩码预测(k-means 伪标签)<br/>960h–60kh"]
    C --> D["WavLM<br/>掩码预测 + 去噪<br/>94kh"]
    C --> E["data2vec<br/>连续目标预测(EMA)<br/>960h"]
    C --> F["BEST-RQ<br/>掩码预测(随机量化)<br/>960h"]
    B --> G["Whisper<br/>弱监督序列预测<br/>680kh"]
    G --> H["MMS<br/>弱监督 + SSL<br/>1100+ 语言"]
    G --> I["SeamlessM4T<br/>弱监督多模态翻译<br/>100 语言"]
    G --> J["Distil-Whisper / v3-Turbo<br/>蒸馏 / 架构精简"]
    D --> K["SALMONN / Qwen-Audio<br/>连续融合路径<br/>Encoder + LLM"]
    G --> K
    K --> L["Qwen2.5-Omni / Qwen3-Omni<br/>全模态 LLM"]
    M["EnCodec / SoundStream<br/>神经音频编解码器"] --> N["VALL-E 2<br/>条件语言建模<br/>离散 token 路径"]
    M --> O["Moshi<br/>多流全双工对话<br/>RQ-Transformer"]
    K --> P["GPT-4o<br/>原生多模态联合训练"]
    O --> P

数据规模的演进轨迹为:960h(早期 SSL)→ 53k–94k h(大规模 SSL)→ 680k h(Whisper)→ 5M+ h(LLM 融合阶段的预训练数据)。架构的演进轨迹为:CNN Encoder → CNN + Transformer Encoder(encoder-only)→ Transformer Encoder-Decoder → Speech Encoder + LLM(拼接式)→ 原生多模态 LLM。


7. 进化路线的内在逻辑

回顾上述四个范式,可以识别出几条贯穿始终的技术张力,这些张力驱动了范式之间的演变:

张力一:监督信号的质量与可获取性。对比学习(wav2vec 2.0)的监督信号可以从数据本身自动生成,但信号质量有限;k-means 伪标签(HuBERT)质量更高,但需要离线聚类;弱监督字幕(Whisper)质量参差不齐,但数据规模可以无限扩展;LLM 融合范式则将监督信号的构造问题转移到了对齐训练阶段,以 LLM 的通用能力为代价换取任务灵活性。这四种方案在质量-规模-灵活性的三角权衡上各占不同位置。

张力二:表示的通用性与任务特异性。SSL 模型的设计目标是学习通用表示,但实验表明,不同任务对”好的表示”的要求不同(ASR 需要内容表示,SV 需要说话人表示),单一预训练目标难以同时满足所有任务。WavLM 通过多目标预训练(掩码预测 + 去噪)缓解了这一问题,但并未从根本上解决。LLM 融合范式通过将语音表示与 LLM 的通用推理能力结合,在一定程度上绕开了这一张力,但代价是对细粒度声学任务的支持能力下降。

张力三:预训练目标与下游任务的对齐。对比学习目标优化的是区分性,而非语义一致性;掩码预测目标优化的是帧级分类,而非序列级理解;弱监督目标优化的是序列到序列的转录,而非通用表示;LLM 融合范式的对齐训练目标(最大化文本输出的似然)也并不直接优化语音-文本的语义对齐。每种目标都与部分下游任务存在错位,这一张力在 LLM 融合时代以”LLM 休眠”现象 36 的形式再次显现。

张力四:表示的连续性与离散性。连续表示(data2vec、连续融合路径)理论上信息更丰富,但对下游任务的适配性不确定;离散表示(HuBERT 的伪标签、Whisper 的 token、神经编解码器的 RVQ token)引入了信息瓶颈,但可能有助于学习更抽象的表示,且与 LLM 的原始处理方式兼容。这一张力在 LLM 融合时代变得更加关键,因为 LLM 本身是基于离散 token 的,离散化的质量直接决定了语音 LLM 的能力上限。

这些张力的存在解释了为什么没有一个单一的预训练范式能够在所有任务上占据主导——每个范式都是在特定约束下对上述张力的一种权衡。四个范式并非线性替代关系,而是在不同的任务需求和计算约束下共存:WavLM 仍是说话人识别、情感识别等任务的标准基线;Whisper 仍是多语言零样本 ASR 的首选;而语音 LLM 则在需要语义理解和对话能力的场景中逐渐成为新的选择。


8. 开放问题与研究方向

8.1 幻觉问题的根本性困难

Whisper 的幻觉问题在 2024—2025 年受到了持续关注,但目前的解决方案仍是局部性的。Whisper-CD31 通过对比解码(Contrastive Decoding)在推理时抑制幻觉:同时运行一个大模型(Whisper Large)和一个小模型(Whisper Small),将大模型的 logit 减去小模型的 logit,以抑制两者共同倾向于生成的”通用”短语(这些短语往往是幻觉的来源)。实验表明,这一方法在 CORAAL 数据集上将 WER 降低了约 24.3 个百分点,但代价是推理时需要运行两个模型,计算成本翻倍。

幻觉问题的根本困难在于:它是自回归解码的固有属性,而非训练数据或模型架构的缺陷。自回归解码在每一步都以前面生成的 token 为条件,一旦生成了错误的 token,后续的生成会以此为前提继续,形成自我强化的错误链。从训练目标的角度看,最大化字幕似然的目标并不惩罚幻觉——模型在训练中从未见过”正确的静音处理方式”,因为训练数据中的静音片段通常被过滤掉了。

8.2 预训练目标与下游任务对齐的未解问题

尽管 WavLM 通过多目标预训练在 SUPERB 基准上取得了较好的综合性能,但”单一预训练目标能否满足所有下游任务”这一问题仍未得到根本解决。SUPERB 基准 5 的结果显示,即使是 WavLM Large,在语音分离(SS)和语音增强(SE)等生成任务上的性能仍与专用模型有显著差距——这表明判别式预训练目标(掩码预测)与生成式下游任务之间存在结构性错位。

UniWav34 等工作尝试在统一框架中同时优化判别式和生成式目标,但在两类任务上均未超越各自的专用模型。这一结果提示,判别式表示和生成式表示可能需要不同的归纳偏置(Inductive Bias),统一框架的设计需要更深入的理论分析。

8.3 多语言公平性的系统性挑战

Whisper 和 MMS 都在多语言场景下展现出一定的覆盖能力,但低资源语言与高资源语言之间的性能差距仍然显著。Whisper Large v3 在英语上的 WER 约为 2—3%,而在部分低资源语言上 WER 超过 50%。这一差距不仅来自训练数据的不均衡,还来自低资源语言的语音学特征(如声调、复杂辅音群)可能与高资源语言存在根本性差异,导致在高资源语言上学到的表示难以迁移。

ML-SUPERB 2.033 等基准的建立有助于系统性地评估多语言模型的公平性,但如何在有限数据下有效学习低资源语言的语音特征,仍是一个开放的研究问题。

8.4 实时性与模型能力的权衡

全双工、低延迟的语音交互是 2024—2025 年的核心工程挑战。Moshi 的 200ms 延迟已经接近可用水平,但其模型规模(约 7B 参数)和推理成本限制了其在边缘设备上的部署。Voxtral Realtime32 等工作尝试在保持转录质量的同时实现亚秒级延迟,但在噪声环境和多说话人场景下的鲁棒性仍有待提升。

实时性与模型能力之间的权衡是一个基本约束:更大的模型通常有更强的语音理解能力,但推理延迟也更高。这一约束在端侧部署场景中尤为突出,如何在有限计算资源下实现高质量的实时语音交互,是一个尚未解决的工程与算法问题。

8.5 语音 LLM 的”休眠”问题

语音 LLM 领域存在一个被称为”LLM 休眠”(LLM Dormancy)的现象 36:当 LLM 与语音编码器对接后,LLM 的语言推理能力往往无法被充分激活,模型的行为更接近于一个增强版的 ASR 系统,而非一个真正理解语音语义的推理系统。这一现象的原因可能在于,语音编码器的输出分布与 LLM 在文本预训练中见过的 token 分布存在显著差异,导致 LLM 的注意力机制无法有效地将语音特征与其内部的语义知识关联起来。

解决这一问题需要更深入地理解语音表示与文本表示之间的对齐机制,以及如何设计更有效的对齐训练策略。目前的对齐训练(通常是在语音-文本对数据上进行有监督微调)数据量有限,且目标函数(最大化文本输出的似然)并不直接优化语音-文本的语义对齐。


9. 总结

语音预训练领域在 2019—2026 年间经历了四次范式转变,每次转变都由前一范式的特定局限所驱动。

对比学习范式(wav2vec 2.0)解决了语音 SSL 的可行性问题,证明了在无标注数据上训练的语音表示可以在少量标注数据下迁移到 ASR 任务,但其对比学习目标与下游任务的结构性错位限制了其通用性。掩码预测范式(HuBERT、WavLM)通过引入离散伪标签和多目标预训练,建立了更通用的语音表示,在 SUPERB 基准的多任务评估中表现更好,但训练流程的复杂性和 encoder-only 架构的局限制约了其应用范围。弱监督范式(Whisper)通过大规模数据和多任务训练实现了前所未有的零样本泛化能力,但以牺牲副语言信息建模和引入幻觉问题为代价。LLM 融合范式(SALMONN、Qwen-Audio、Moshi、GPT-4o)将语音能力与大语言模型的通用推理能力结合,扩展了语音 AI 的能力边界,但带来了更高的训练成本、更复杂的对齐问题,以及实时性与模型能力之间的新权衡。

这四种范式并非线性替代关系。在实际应用中,WavLM 仍是说话人识别、情感识别等任务的标准基线;Whisper 仍是多语言零样本 ASR 的首选;而语音 LLM 则在需要语义理解和对话能力的场景中逐渐成为新的选择。未来的研究方向——统一预训练框架、原生多模态训练、更高效的神经编解码器——本质上都是在尝试解决上述范式之间的张力,而非简单地在某一维度上继续扩展。


参考文献


This post is licensed under CC BY 4.0 by the author.