06. 语音大模型（TTS / ASR + LLM）的典型架构是什么？

语音大模型系统的常见架构与实现方式。

简单回答

语音大模型的架构可以分为"级联式"和"端到端"两种。级联式是 ASR（语音转文字）→ LLM（文本理解和生成）→ TTS（文字转语音），三个模块串联。端到端是用一个统一模型直接处理语音输入和输出，不经过中间的文本表示。级联式成熟度高、可控性强；端到端延迟更低、能保留语音中的副语言信息（语气、情感、停顿），但技术难度大。GPT-4o 的语音模式是端到端的标杆。

详细解释

级联架构（Cascaded）

级联架构是目前最常见的"语音对话"实现方式。三个独立模块各司其职。

ASR（Automatic Speech Recognition，自动语音识别）负责把用户的语音转成文字。主流方案有 Whisper（OpenAI，开源，效果好）、Conformer 系列（Google）。Whisper 支持 99 种语言，在中英文上的识别准确率非常高，是目前最流行的开源 ASR 方案。

LLM 接收 ASR 转出的文字，做理解和生成，输出文字回复。这一步和普通的文本 LLM 调用完全一样。

TTS（Text-to-Speech，文字转语音）把 LLM 的文字回复合成为语音。现代 TTS 的自然度已经非常高，很多时候听不出是合成的。主流方案有 VITS、XTTS（Coqui）、ChatTTS、CosyVoice（阿里）、Fish Speech 等。

级联架构的优势是各模块独立，可以分别选型和优化。换 LLM 不影响 ASR 和 TTS，换 TTS 不影响 LLM。调试也容易——把 ASR 的文字输出打印出来就能判断是识别错了还是 LLM 理解错了。

级联架构的核心劣势是延迟。语音要经过三个模块串行处理：ASR 需要等用户说完（或至少说完一句）才能开始转文字，LLM 需要等 ASR 完成才能开始生成，TTS 需要等 LLM 生成一些文字才能开始合成。三段延迟加起来，从用户说完到听到回复可能要 2~5 秒，体验上有明显的"卡顿感"。

另一个劣势是信息损失。语音中包含大量副语言信息——语气、情感、语速、停顿、强调——这些在 ASR 转成文字后全部丢失了。LLM 只看到"我很好"这三个字，不知道用户说的是开心的"我很好！"还是无奈的"我……很好"。

端到端架构（End-to-End）

端到端架构的目标是用一个统一模型直接处理语音。语音进来不经过 ASR 转文字，直接在模型内部处理，模型输出也不经过 TTS，直接生成语音波形或语音 token。

GPT-4o 的语音模式（2024 年发布时引起轰动的实时语音对话）就是端到端的——语音进、语音出，中间没有文字中间表示。它能理解语气和情感，回复中也能带有恰当的语气和停顿，延迟极低（约 320ms），接近人与人对话的速度。

端到端架构的技术路线有几种。一种是把语音用 Speech Tokenizer（如 EnCodec、SpeechTokenizer）编码成离散的"语音 token"，和文本 token 一起送进 Transformer 处理。这样语音和文本在模型内部用同一套机制处理。输出时模型生成语音 token，再用 Vocoder 解码成波形。

另一种是在 LLM 的基础上加语音编码器（类似 VLM 加视觉编码器的思路）。语音编码器把语音信号编码成连续特征，通过适配层（Adapter）映射到 LLM 的嵌入空间，和文本一起处理。

中间路线：Semi-End-to-End

完全端到端的训练成本极高，很多团队选择中间路线。比如 ASR + LLM 端到端（语音直接进 LLM 不经过 ASR 转文字，但输出仍然是文字再接 TTS），或者 LLM + TTS 端到端（输入是文字，但 LLM 直接生成语音 token 不经过独立 TTS）。

VITA（阿里）、Qwen-Audio 等模型属于输入端的端到端——能直接理解语音输入而不需要外接 ASR。

实际落地的考量

目前绝大多数商用语音对话产品仍然用级联架构——成熟度高、可控性强、各模块可以独立迭代。延迟问题可以通过 Streaming ASR（边听边转）、Streaming LLM Generation（边生成边输出）、Streaming TTS（边合成边播放）的流式管线来缓解，做得好可以把端到端延迟压到 1~2 秒。

端到端架构代表了未来方向——延迟更低、体验更自然、能理解和生成副语言信息。但目前只有少数顶尖实验室能做（GPT-4o、Gemini），开源社区在逐步跟进。

面试时可以这样答

语音大模型有级联和端到端两种架构。级联式是 ASR → LLM → TTS 三段串联，各模块独立，成熟度高可控性强，但延迟是三段之和，而且 ASR 转文字后丢失了语气、情感等副语言信息。
端到端是一个模型直接处理语音输入输出，GPT-4o 是标杆——延迟只有 320ms，能理解和生成语气。技术上通常用 Speech Tokenizer 把语音编码成离散 token，和文本 token 一起在 Transformer 中处理。
目前生产上大部分还是级联架构。延迟可以通过全链路流式处理来缓解——边听边转、边生成边合成、边合成边播放，做得好能压到一两秒。端到端是未来方向但训练成本极高，开源社区还在追赶。

常见追问

Whisper 的架构是什么？它和传统 ASR 有什么区别？
Speech Tokenizer 是怎么把语音变成离散 token 的？
语音大模型的评测怎么做？

05. 多模态 Agent 有哪些典型场景？

07. 视频理解模型面临哪些技术挑战？