墨圆大模型

美团大模型开发-27暑期实习凉经

美团大模型岗面经

先answer后cot和先cot后answer，做SFT有什么区别？是否对比过效果？
怎么确保人工标注的数据准确率符合预期？
如何选择合理的SFT的checkpoint，用于后续的RL？
图片怎么输入模型的，一张图片有多少token？
你觉得RL和SFT有什么区别？
为什么不只做RL，而选择SFT then RL？
重要性采样是什么，为什么RL中要加入CLIP机制？
On-policy和Off-policy有什么区别？

八股：

Transformer的decoder中为什么要用自回归因果掩码？
缩放点积注意力为什么要除以 $d_{k}$ ？

快手大模型开发-一轮挂喜提人才库

美团大模型开发-难度较高，攒人品面经