美团大模型开发-难度较高,攒人品面经
美团大模型岗面经
- 讲一下为什么先cot后answer的情况下,越往后token的prob越高?
- 用大模型蒸馏的cot很多噪声怎么办?
- 对VLM做SFT,发现模型对文本信息更置信,看图片的时候反而会产生幻觉,怎么办?
RL相关:
- PPO中GAE的公式,如何递归计算每个token的优势?
- DPO的loss公式?
- GRPO和PPO有什么区别?GSPO和GRPO又有什么区别?
- RL中的熵塌缩和reward hacking遇到过吗?两个问题都有什么改进方法,最近有什么新论文提出了改进方法?
- 在组内采样类型的RL算法中,on-policy rollout不出正确答案怎么办?
- 知道Self-Distillation吗,为什么要做,最近这方面有哪些论文?
- RL过程中reward或者loss震荡严重,怎么办?