【腾讯】-大模型开发-双非勇闯大厂LLM面经

腾讯大模型岗面经

一面

  1. 能否解释Transformer使用多头注意力机制的动机?
  2. 如果只使用单头注意力,可能会在哪些方面受限?
  3. 请谈谈Transformer是如何实现并行化计算的。在计算注意力得分时,为什么通常要对点积结果进行缩放(即除以根号dk)?
  4. 在推荐系统的模型适配中,对比LoRA与全参数微调,它们各自更适合什么样的场景?
  5. 有什么优势和代价?在推荐系统中引入RAG(检索增强生成)主要是为了解决哪些问题?
  6. 通常如何构建与更新其背后的知识库?
  7. 在RAG实践中,选择BGE作为嵌入模型主要出于哪些考量?后续的向量检索索引(如FAISS)是如何构建和优化的?
  8. 对于RAG中的文档,通常采用哪些策略进行分块(chunk)?
  9. 如何平衡块的大小与信息完整性?GraphRAG适用于解决哪些传统RAG难以处理的问题场景?
  10. 你的项目中利用LangGraph来编排多工具调用链路。与纯Prompt工程方法相比,这种框架带来了哪些核心优势?
  11. 当输入的文本长度超出模型的上下文窗口时,目前有哪些主流的处理方案或模型架构来应对?

二面

八股

  1. GRPO 和 PPO 在 RLHF 中的核心区别是什么?为什么选择 GRPO 而不是 PPO?
  2. KL 散度在 RLHF 中的作用是什么?它的公式如何直观理解?
  3. vLLM 的核心优势是什么?它是如何通过 PagedAttention 提升显存利用率的?
  4. Qwen3 和 DeepSeek-R1 在架构上有哪些关键差异?(如 MLA、MoE、GQA 等)

项目

  1. 微调数据集的结构是怎样的?有多少条?数据清洗和有效性验证是怎么做的?
  2. 奖励函数是如何设计的?是否考虑了回答的正确性(如推荐商品是否真符合用户需求)而不仅是长度或流畅度?
  3. 怎么避免模型靠堆字数刷奖励?
  4. KV Cache 在长上下文推理中可能被污染,你们有做缓存隔离或清理机制吗?
  5. 本地部署时,如何平衡 vLLM 的上下文长度和显存占用?是否做过量化或动态批处理?

手撕

  1. 乘积最大子数组(LeetCode 152)