美团大模型开发-27暑期实习凉经

美团大模型岗面经

  1. 先answer后cot和先cot后answer,做SFT有什么区别?是否对比过效果?
  2. 怎么确保人工标注的数据准确率符合预期?
  3. 如何选择合理的SFT的checkpoint,用于后续的RL?
  4. 图片怎么输入模型的,一张图片有多少token?
  5. 你觉得RL和SFT有什么区别?
  6. 为什么不只做RL,而选择SFT then RL?
  7. 重要性采样是什么,为什么RL中要加入CLIP机制?
  8. On-policy和Off-policy有什么区别?

八股

  1. Transformer的decoder中为什么要用自回归因果掩码?
  2. 缩放点积注意力为什么要除以