01. 一个大模型应用的后端架构通常怎么设计?

整理大模型应用服务端的基本模块划分。

简单回答

典型架构可以拆成接入层、业务编排层、模型调用层、知识检索层、异步任务层和观测治理层。

详细解析

  • 接入层负责鉴权、限流、路由和多端接口统一。
  • 业务编排层负责对话状态、Prompt 组织、工具调用和 RAG 链路串联。
  • 模型调用层负责统一接多种模型或服务商,并处理重试、降级和计费。
  • 线上系统还需要日志、监控、追踪、缓存和配置中心,不能只盯着模型本身。

面试时可以这样答

面试时建议按“在线请求怎么走一遍”来讲,比抽象罗列模块更清楚。

常见追问

  • 为什么要有独立的模型网关?
  • RAG 应该挂在哪一层?