墨圆大模型

【拼多多】大模型开发-一二面详细面经

拼多多大模型岗面经

一面

介绍一个最能代表自己的项目
项目里负责的边界是什么？哪些内容是亲手实现／验证的？
电商领域预训练数据：低质过滤与去重会怎么做？用哪些简单指标快速判断数据质量？
Pretrain 和 SFT 分别解决什么问题？
Transformer 的基本结构怎么理解？
多模态模型的大致结构是什么（图像编码器+连接层+ LLM )？最容易踩坑的点通常在哪里？
SFT 数据如何更贴近业务：如何避免过度模板化？如何做基础的 train / test 去重来避免评测失真？
对齐（ RLHF / DPO 等）整体思路是什么：为什么需要偏好对／奖励信号？

二面

做过的最有影响力的一件事是什么？具体推动了什么变化？
训练不稳定怎么排查（ loss NaN 、 OOM 、吞吐下降）
Long Context 常见思路有哪些？在业务里如何做"能看长文本但不太贵"的折中（摘要／分段／滑窗等）?
如何做一套简单可执行的离线评测集？如何覆盖不同语言与类目？
多模态场景怎么评估：如何检查"图文一致性／不编造信息"？优先加哪些自动化检查？
Prompt ／模板如何管理：如何版本化、如何回滚、如何避免一次改动导致整体波动？
手撕：实现一个最简单的 top - k 采样（给定 logits ／概率，取 top - k 后重新归一化采样），并说明边界情况怎么处理。

【拼多多】大模型开发-26届校招面经

【拼多多】大模型开发-大模型算法一面分享