【滴滴】大模型开发-新鲜的26届校招面经

滴滴大模型岗面经

  1. 实习介绍
  2. 项目介绍+拷打(主要是数据来源,数据构造方式,分块过程,rag流程,检索方式,涉及到的每个步骤的原理,transformer、dpo,如何评测的,如果是多轮message怎么作mask的)
  3. 八股
  4. transformer架构、ffn层是干嘛的,它的架构(为什么先升维再降维)
  5. 注意力机制的类型(mha,mqa,gqa,mla)各自的优缺点
  6. PPO、DPO、GRPO各自优缺点
  7. SFT损失及其公式
  8. 代码题 手撕多头自注意力机制