【阿里】-大模型开发-一面分享，给我面的没招了

阿里大模型岗面经

哎，还是要多练习

项目拷打
你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？
像那种rl里面的那个MOE之类的那种的优化有去做过吗
看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？
有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下
像底层，如果你们在做.kernel fusion，倾向于用什么方式来做
有没有哪次你做了 fusion 结果性能反而下降的？原因是什么
平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的
试过用 Agent去生成cuda内核么，怎么去做的
如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？
怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了
在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的