【滴滴】大模型开发-10分钟就挂了

滴滴大模型岗面经

  1. 自我介绍,为什么想做大模型方向?
  2. 拷打项目和实习
  3. reward bench上的reward model分哪几类?reward model如何训练的,训练目标是什么?
  4. dpo训练的损失函数和训练目标,dpo如何改进
  5. 指令跟随能力的评估集有什么,如何评估的?
  6. gsm8k和math评估集有什么区别?
  7. mbpp和hella swag评估集有什么区别?
  8. 阿尔法狗强化学习策略是什么?
  9. 提升推理能力和指令跟随能力哪个更难,为什么,提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方
  10. dpo训完了一般输出长度会变化吗?如何解决这个问题
  11. 注意力机制为什么除以根号dk,为什么不是dk
  12. transformer里边norm的位置在哪里,norm如何计算的
  13. 大模型训练过程学习率一般如何变化的,退火阶段学习率如何变化的

代码:

  1. 写了个注意力层
  2. 手撕,一个数组,输出这个数组每个位置之外的其他元素的乘机,不能用除法,要求尽量减少时间复杂度,然后要求仅用一个数组存储