墨圆大模型

【拼多多】大模型开发-26届校招面经

拼多多大模型岗面经

一面

预训练 loss，自己实现过吗？
电商数据多模态内容如何在大模型处理端预处理？图文视频对齐训练角度
后训练中你一般调哪些块？分析一下特定模块的作用以及为什么？如何验证是否起作用的
dapo 还有哪些提高的地方？还有哪些其他工作？我们在电商数据有很多同质低质量数据，但我不想用人工一个个检查，你能在策略层面做优化吗？
预训练 loss prompt 和 response 都要算吗？和后训练区别？和 rl 区别？
继续预训练做过吗？长度外推Q如何设置？为什么要做这个？
预训练评估有哪些维度？
评估逻辑推理时候，预训练大概率没有指令遵循输出答案评估，你是如何提取答案做的
数据 packing 如何做的？
手撕：最长公共子序列Q、岛屿数量

二面

训练 20m 数据用了多少卡？多长时间一次迭代？有做过优化吗？
agentic 训练 loss 是什么？
多轮对话中对 tool 和 think 的 loss 如何计算的？
如何看待 CoTQ 的作用？我们发现评估价了 cot 会退化。
tool use 数据合成如何做的？
大部分 agent 没有办法突出思维限制，你是如何做到你的 agent 突破原有思维链限制？
RL 训练 agentic 需要处理哪些问题？你是如何处理的？
offer 有哪些、倾向什么？
手撕：环形链表

美团大模型开发-暑期实习第一面

【拼多多】大模型开发-一二面详细面经