【拼多多】大模型开发-一二面详细面经

拼多多大模型岗面经

一面

  1. 介绍一个最能代表自己的项目
  2. 项目里负责的边界是什么?哪些内容是亲手实现/验证的?
  3. 电商领域预训练数据:低质过滤与去重会怎么做?用哪些简单指标快速判断数据质量?
  4. Pretrain 和 SFT 分别解决什么问题?
  5. Transformer 的基本结构怎么理解?
  6. 多模态模型的大致结构是什么(图像编码器+连接层+ LLM )?最容易踩坑的点通常在哪里?
  7. SFT 数据如何更贴近业务:如何避免过度模板化?如何做基础的 train / test 去重来避免评测失真?
  8. 对齐( RLHF / DPO 等)整体思路是什么:为什么需要偏好对/奖励信号?

二面

  1. 做过的最有影响力的一件事是什么?具体推动了什么变化?
  2. 训练不稳定怎么排查( loss NaN 、 OOM 、吞吐下降)
  3. Long Context 常见思路有哪些?在业务里如何做"能看长文本但不太贵"的折中(摘要/分段/滑窗等)?
  4. 如何做一套简单可执行的离线评测集?如何覆盖不同语言与类目?
  5. 多模态场景怎么评估:如何检查"图文一致性/不编造信息"?优先加哪些自动化检查?
  6. Prompt /模板如何管理:如何版本化、如何回滚、如何避免一次改动导致整体波动?
  7. 手撕:实现一个最简单的 top - k 采样(给定 logits /概率,取 top - k 后重新归一化采样),并说明边界情况怎么处理。