【腾讯】-大模型开发-校招一二三面分享,被疯狂拷打

腾讯大模型岗面经

一面

项目狠狠拷打40分钟

八股

  1. 解释LORA训练方法
  2. 有了解传统精排方法吗,比如LTR
  3. 有了解Qwen3的embedding和Reranker模型吗
  4. 结合项目讲大模型训练的几个阶段的特点和异同
  5. 介绍GRPO、PPO、DPO,分别需要几个模型,需要训练的是哪些
  6. 重要性采样有哪些方法(裁剪、KL和加权归一)
  7. GRPO的算力资源省在哪
  8. 介绍GSPO的优化,腾讯最近出的SPO有关注吗

代码

  1. Pytorch实现GQA
  2. 接雨水(两种方法)
  3. SQL题

二面

  1. 自我介绍,过实习和论文
  2. 知道哪些强化学习算法,除了 PPO和 DPO 这些呢
  3. 知道 LoRA 的原理吗, A 和 B 两个矩阵怎么初始化,有了解过其他的初始化方法吗
  4. 除了 DeepSpeed ,还用过其他的什么优化方法吗
  5. ZeRO -1, ZeRO -2,ZeRO -3三个模式的区别
  6. 讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗
  7. 当时你用 DeepSpeed ZeRO -3来微调Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存
  8. 在微调 Qwen 的时候,数据是怎么构造的
  9. 代码:无重复字符的最长子串

三面

  1. 自我介绍,挑一个觉得做的比较好的论文和实习讲一下,面试官问的比较详细,为什么选现在这种方案,为什么 work,其他方案有考虑吗
  2. 在微调 Qwen 的时候,数据是怎么构造的,有用到什么数据清洗方法吗,数据配比是怎么做的
  3. 讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗
  4. 在做对齐的时候,为什么 SFT之后还要做 RLHF,只用 SFT 可以吗
  5. 知道哪些强化学习算法,除了PPO和 DPO这些呢,DeepSeek用的GRPO 相比于 GPT的 PPO 做了哪些改进
  6. 开放题:对目前大模型的发展有什么看法
  7. 代码:零钱的两个题 322.零钱兑换518.零钱兑换 II