【拼多多】大模型开发-26届校招面经

拼多多大模型岗面经

一面

  1. 预训练 loss,自己实现过吗?
  2. 电商数据多模态内容如何在大模型处理端预处理?图文视频对齐训练角度
  3. 后训练中你一般调哪些块?分析一下特定模块的作用以及为什么?如何验证是否起作用的
  4. dapo 还有哪些提高的地方?还有哪些其他工作?我们在电商数据有很多同质低质量数据,但我不想用人工一个个检查,你能在策略层面做优化吗?
  5. 预训练 loss prompt 和 response 都要算吗?和后训练区别?和 rl 区别?
  6. 继续预训练做过吗?长度外推Q如何设置?为什么要做这个?
  7. 预训练评估有哪些维度?
  8. 评估逻辑推理时候,预训练大概率没有指令遵循输出答案评估,你是如何提取答案做的
  9. 数据 packing 如何做的?
  10. 手撕:最长公共子序列Q、岛屿数量

二面

  1. 训练 20m 数据用了多少卡?多长时间一次迭代?有做过优化吗?
  2. agentic 训练 loss 是什么?
  3. 多轮对话中对 tool 和 think 的 loss 如何计算的?
  4. 如何看待 CoTQ 的作用?我们发现评估价了 cot 会退化。
  5. tool use 数据合成如何做的?
  6. 大部分 agent 没有办法突出思维限制,你是如何做到你的 agent 突破原有思维链限制?
  7. RL 训练 agentic 需要处理哪些问题?你是如何处理的?
  8. offer 有哪些、倾向什么?
  9. 手撕:环形链表