美团大模型开发-27暑期实习凉经
美团大模型岗面经
- 先answer后cot和先cot后answer,做SFT有什么区别?是否对比过效果?
- 怎么确保人工标注的数据准确率符合预期?
- 如何选择合理的SFT的checkpoint,用于后续的RL?
- 图片怎么输入模型的,一张图片有多少token?
- 你觉得RL和SFT有什么区别?
- 为什么不只做RL,而选择SFT then RL?
- 重要性采样是什么,为什么RL中要加入CLIP机制?
- On-policy和Off-policy有什么区别?
八股:
- Transformer的decoder中为什么要用自回归因果掩码?
- 缩放点积注意力为什么要除以?