【字节】-大模型开发-暑期实习一二面,进人才库了

字节大模型岗面经

一面

  1. 自我介绍2min
  2. 拷打项目
  3. 损失函数设计
  4. LoRA吟唱
  5. 手撕MHA
  6. 看你除以了根号k 有什么作用
  7. 梯度消失和梯度爆炸 如何缓解
  8. QKV代表什么 说说理解
  9. 如果QK变成同一个矩阵你觉得有什么影响
  10. 除了LoRA还有什么微调的方法
  11. 实习并未拷打,做的主要是Agent相关的,简单问了下RAG和CodeAct就过了
  12. 手撕:面试官说出个简单一点的,n个长为m的升序数组,找TOPK

二面

被横向挂了,希望发出来对大家有帮助!

  1. 项目介绍
  2. 训练样本大概多少条
  3. 用户反馈怎么做的
  4. MOE 激活的分布,怎么确定是 MOE 的效果而不是单纯 ffn 参数量增大的效果
  5. 有考虑用别的强化学习的方法吗
  6. dpo 的公式是什么
  7. grpo 了解吗
  8. kvcache 怎么做的,了解大模型中别的提高效率的办法吗
  9. sgd 是什么, Adam 相对于 sgd 改进了什么位置编码
  10. 手撕 transformer 并计算 flops 和内存开销