【腾讯】-大模型开发-校招一二三面分享,被疯狂拷打
腾讯大模型岗面经
一面
项目狠狠拷打40分钟
八股
- 解释LORA训练方法
- 有了解传统精排方法吗,比如LTR
- 有了解Qwen3的embedding和Reranker模型吗
- 结合项目讲大模型训练的几个阶段的特点和异同
- 介绍GRPO、PPO、DPO,分别需要几个模型,需要训练的是哪些
- 重要性采样有哪些方法(裁剪、KL和加权归一)
- GRPO的算力资源省在哪
- 介绍GSPO的优化,腾讯最近出的SPO有关注吗
代码
- Pytorch实现GQA
- 接雨水(两种方法)
- SQL题
二面
- 自我介绍,过实习和论文
- 知道哪些强化学习算法,除了 PPO和 DPO 这些呢
- 知道 LoRA 的原理吗, A 和 B 两个矩阵怎么初始化,有了解过其他的初始化方法吗
- 除了 DeepSpeed ,还用过其他的什么优化方法吗
- ZeRO -1, ZeRO -2,ZeRO -3三个模式的区别
- 讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗
- 当时你用 DeepSpeed ZeRO -3来微调Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存
- 在微调 Qwen 的时候,数据是怎么构造的
- 代码:无重复字符的最长子串
三面
- 自我介绍,挑一个觉得做的比较好的论文和实习讲一下,面试官问的比较详细,为什么选现在这种方案,为什么 work,其他方案有考虑吗
- 在微调 Qwen 的时候,数据是怎么构造的,有用到什么数据清洗方法吗,数据配比是怎么做的
- 讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗
- 在做对齐的时候,为什么 SFT之后还要做 RLHF,只用 SFT 可以吗
- 知道哪些强化学习算法,除了PPO和 DPO这些呢,DeepSeek用的GRPO 相比于 GPT的 PPO 做了哪些改进
- 开放题:对目前大模型的发展有什么看法
- 代码:零钱的两个题 322.零钱兑换518.零钱兑换 II