墨圆大模型

【腾讯】-大模型开发-校招一二三面分享，被疯狂拷打

腾讯大模型岗面经

一面

项目狠狠拷打40分钟

八股

解释LORA训练方法
有了解传统精排方法吗，比如LTR
有了解Qwen3的embedding和Reranker模型吗
结合项目讲大模型训练的几个阶段的特点和异同
介绍GRPO、PPO、DPO，分别需要几个模型，需要训练的是哪些
重要性采样有哪些方法（裁剪、KL和加权归一）
GRPO的算力资源省在哪
介绍GSPO的优化，腾讯最近出的SPO有关注吗

代码

Pytorch实现GQA
接雨水（两种方法）
SQL题

二面

自我介绍，过实习和论文
知道哪些强化学习算法，除了 PPO和 DPO 这些呢
知道 LoRA 的原理吗， A 和 B 两个矩阵怎么初始化，有了解过其他的初始化方法吗
除了 DeepSpeed ，还用过其他的什么优化方法吗
ZeRO -1, ZeRO -2,ZeRO -3三个模式的区别
讲一下 RLHF 的流程，之前有用 RLHF 做过模型对齐吗
当时你用 DeepSpeed ZeRO -3来微调Qwen2-72B，每一张卡占用的显存大概是多少，估算一下为什么是占这么多的显存
在微调 Qwen 的时候，数据是怎么构造的
代码：无重复字符的最长子串

三面

自我介绍，挑一个觉得做的比较好的论文和实习讲一下，面试官问的比较详细，为什么选现在这种方案，为什么 work，其他方案有考虑吗
在微调 Qwen 的时候，数据是怎么构造的，有用到什么数据清洗方法吗，数据配比是怎么做的
讲一下 RLHF 的流程，之前有用 RLHF 做过模型对齐吗
在做对齐的时候，为什么 SFT之后还要做 RLHF，只用 SFT 可以吗
知道哪些强化学习算法，除了PPO和 DPO这些呢，DeepSeek用的GRPO 相比于 GPT的 PPO 做了哪些改进
开放题:对目前大模型的发展有什么看法
代码：零钱的两个题 322.零钱兑换518.零钱兑换 II

【字节】-大模型开发-暑期实习一二面，进人才库了

【腾讯】-大模型开发-26校招，攒人品面经