【拼多多】大模型开发-26届校招面经
拼多多大模型岗面经
一面
- 预训练 loss,自己实现过吗?
- 电商数据多模态内容如何在大模型处理端预处理?图文视频对齐训练角度
- 后训练中你一般调哪些块?分析一下特定模块的作用以及为什么?如何验证是否起作用的
- dapo 还有哪些提高的地方?还有哪些其他工作?我们在电商数据有很多同质低质量数据,但我不想用人工一个个检查,你能在策略层面做优化吗?
- 预训练 loss prompt 和 response 都要算吗?和后训练区别?和 rl 区别?
- 继续预训练做过吗?长度外推Q如何设置?为什么要做这个?
- 预训练评估有哪些维度?
- 评估逻辑推理时候,预训练大概率没有指令遵循输出答案评估,你是如何提取答案做的
- 数据 packing 如何做的?
- 手撕:最长公共子序列Q、岛屿数量
二面
- 训练 20m 数据用了多少卡?多长时间一次迭代?有做过优化吗?
- agentic 训练 loss 是什么?
- 多轮对话中对 tool 和 think 的 loss 如何计算的?
- 如何看待 CoTQ 的作用?我们发现评估价了 cot 会退化。
- tool use 数据合成如何做的?
- 大部分 agent 没有办法突出思维限制,你是如何做到你的 agent 突破原有思维链限制?
- RL 训练 agentic 需要处理哪些问题?你是如何处理的?
- offer 有哪些、倾向什么?
- 手撕:环形链表