墨圆大模型

美团大模型开发-难度较高，攒人品面经

美团大模型岗面经

讲一下为什么先cot后answer的情况下，越往后token的prob越高？
用大模型蒸馏的cot很多噪声怎么办？
对VLM做SFT，发现模型对文本信息更置信，看图片的时候反而会产生幻觉，怎么办？

RL相关：

PPO中GAE的公式，如何递归计算每个token的优势？
DPO的loss公式？
GRPO和PPO有什么区别？GSPO和GRPO又有什么区别？
RL中的熵塌缩和reward hacking遇到过吗？两个问题都有什么改进方法，最近有什么新论文提出了改进方法？
在组内采样类型的RL算法中，on-policy rollout不出正确答案怎么办？
知道Self-Distillation吗，为什么要做，最近这方面有哪些论文？
RL过程中reward或者loss震荡严重，怎么办？

美团大模型开发-27暑期实习凉经

美团大模型开发-秋招详细一二面分享