【字节】-大模型开发-高强度拷打凉经

字节大模型岗面经

实习拷打
项目拷打
八股：
1. GPRO 相比 PPO 的优缺点是什么?
2. PPO 是如何计算优势的?GAE的原理?
3. 有了解过除了 GRPO 的其他强化学习训练方法么?
DAPO 改进了什么地方?
你觉得 VERL 框架如果用 DAPO 该改哪些地方?
DPO的原理是什么?如何推导出来的?
重要性采样的原理?
SGD、Adam、AdamW 的区别和改进
你平常使用什么编程语言?Python 精通么?
Python 的** 是干什么的，**kwargs 是干嘛的，@字符是干嘛的?装饰器的原理是什么?
平时用什么 AI编程软件?有对比过 cursor里面不同模型的效果么?
你觉得大模型未来会朝着哪里发展?
你做的这些项目，如果回过头来，哪个最想迭代改善?
代码 : Leetcode718 最长重复子数组