【滴滴】大模型开发-新鲜的26届校招面经
滴滴大模型岗面经
- 实习介绍
- 项目介绍+拷打(主要是数据来源,数据构造方式,分块过程,rag流程,检索方式,涉及到的每个步骤的原理,transformer、dpo,如何评测的,如果是多轮message怎么作mask的)
- 八股
- transformer架构、ffn层是干嘛的,它的架构(为什么先升维再降维)
- 注意力机制的类型(mha,mqa,gqa,mla)各自的优缺点
- PPO、DPO、GRPO各自优缺点
- SFT损失及其公式
- 代码题 手撕多头自注意力机制
滴滴大模型岗面经