01. 一个大模型应用的后端架构通常怎么设计?
整理大模型应用服务端的基本模块划分。
简单回答
典型架构可以拆成接入层、业务编排层、模型调用层、知识检索层、异步任务层和观测治理层。
详细解析
- 接入层负责鉴权、限流、路由和多端接口统一。
- 业务编排层负责对话状态、Prompt 组织、工具调用和 RAG 链路串联。
- 模型调用层负责统一接多种模型或服务商,并处理重试、降级和计费。
- 线上系统还需要日志、监控、追踪、缓存和配置中心,不能只盯着模型本身。
面试时可以这样答
面试时建议按“在线请求怎么走一遍”来讲,比抽象罗列模块更清楚。
常见追问
- 为什么要有独立的模型网关?
- RAG 应该挂在哪一层?