06. 语音大模型(TTS / ASR + LLM)的典型架构是什么?

语音大模型系统的常见架构与实现方式。

简单回答

语音大模型的架构可以分为"级联式"和"端到端"两种。级联式是 ASR(语音转文字)→ LLM(文本理解和生成)→ TTS(文字转语音),三个模块串联。端到端是用一个统一模型直接处理语音输入和输出,不经过中间的文本表示。级联式成熟度高、可控性强;端到端延迟更低、能保留语音中的副语言信息(语气、情感、停顿),但技术难度大。GPT-4o 的语音模式是端到端的标杆。

详细解释

级联架构(Cascaded)

级联架构是目前最常见的"语音对话"实现方式。三个独立模块各司其职。

ASR(Automatic Speech Recognition,自动语音识别)负责把用户的语音转成文字。主流方案有 Whisper(OpenAI,开源,效果好)、Conformer 系列(Google)。Whisper 支持 99 种语言,在中英文上的识别准确率非常高,是目前最流行的开源 ASR 方案。

LLM 接收 ASR 转出的文字,做理解和生成,输出文字回复。这一步和普通的文本 LLM 调用完全一样。

TTS(Text-to-Speech,文字转语音)把 LLM 的文字回复合成为语音。现代 TTS 的自然度已经非常高,很多时候听不出是合成的。主流方案有 VITS、XTTS(Coqui)、ChatTTS、CosyVoice(阿里)、Fish Speech 等。

级联架构的优势是各模块独立,可以分别选型和优化。换 LLM 不影响 ASR 和 TTS,换 TTS 不影响 LLM。调试也容易——把 ASR 的文字输出打印出来就能判断是识别错了还是 LLM 理解错了。

级联架构的核心劣势是延迟。语音要经过三个模块串行处理:ASR 需要等用户说完(或至少说完一句)才能开始转文字,LLM 需要等 ASR 完成才能开始生成,TTS 需要等 LLM 生成一些文字才能开始合成。三段延迟加起来,从用户说完到听到回复可能要 2~5 秒,体验上有明显的"卡顿感"。

另一个劣势是信息损失。语音中包含大量副语言信息——语气、情感、语速、停顿、强调——这些在 ASR 转成文字后全部丢失了。LLM 只看到"我很好"这三个字,不知道用户说的是开心的"我很好!"还是无奈的"我……很好"。

端到端架构(End-to-End)

端到端架构的目标是用一个统一模型直接处理语音。语音进来不经过 ASR 转文字,直接在模型内部处理,模型输出也不经过 TTS,直接生成语音波形或语音 token。

GPT-4o 的语音模式(2024 年发布时引起轰动的实时语音对话)就是端到端的——语音进、语音出,中间没有文字中间表示。它能理解语气和情感,回复中也能带有恰当的语气和停顿,延迟极低(约 320ms),接近人与人对话的速度。

端到端架构的技术路线有几种。一种是把语音用 Speech Tokenizer(如 EnCodec、SpeechTokenizer)编码成离散的"语音 token",和文本 token 一起送进 Transformer 处理。这样语音和文本在模型内部用同一套机制处理。输出时模型生成语音 token,再用 Vocoder 解码成波形。

另一种是在 LLM 的基础上加语音编码器(类似 VLM 加视觉编码器的思路)。语音编码器把语音信号编码成连续特征,通过适配层(Adapter)映射到 LLM 的嵌入空间,和文本一起处理。

中间路线:Semi-End-to-End

完全端到端的训练成本极高,很多团队选择中间路线。比如 ASR + LLM 端到端(语音直接进 LLM 不经过 ASR 转文字,但输出仍然是文字再接 TTS),或者 LLM + TTS 端到端(输入是文字,但 LLM 直接生成语音 token 不经过独立 TTS)。

VITA(阿里)、Qwen-Audio 等模型属于输入端的端到端——能直接理解语音输入而不需要外接 ASR。

实际落地的考量

目前绝大多数商用语音对话产品仍然用级联架构——成熟度高、可控性强、各模块可以独立迭代。延迟问题可以通过 Streaming ASR(边听边转)、Streaming LLM Generation(边生成边输出)、Streaming TTS(边合成边播放)的流式管线来缓解,做得好可以把端到端延迟压到 1~2 秒。

端到端架构代表了未来方向——延迟更低、体验更自然、能理解和生成副语言信息。但目前只有少数顶尖实验室能做(GPT-4o、Gemini),开源社区在逐步跟进。

面试时可以这样答

语音大模型有级联和端到端两种架构。级联式是 ASR → LLM → TTS 三段串联,各模块独立,成熟度高可控性强,但延迟是三段之和,而且 ASR 转文字后丢失了语气、情感等副语言信息。

端到端是一个模型直接处理语音输入输出,GPT-4o 是标杆——延迟只有 320ms,能理解和生成语气。技术上通常用 Speech Tokenizer 把语音编码成离散 token,和文本 token 一起在 Transformer 中处理。

目前生产上大部分还是级联架构。延迟可以通过全链路流式处理来缓解——边听边转、边生成边合成、边合成边播放,做得好能压到一两秒。端到端是未来方向但训练成本极高,开源社区还在追赶。

常见追问

  1. Whisper 的架构是什么?它和传统 ASR 有什么区别?
  2. Speech Tokenizer 是怎么把语音变成离散 token 的?
  3. 语音大模型的评测怎么做?