【字节】-大模型开发-日常实习面经分享

字节大模型岗面经

  1. Lora应用于哪些模块?为什么是这两个模块?
  2. Lora两个矩阵怎么初始化?它们的初始化方式能交换吗?为什么?
  3. Lora r 怎么设置的?为什么这样设置?
  4. 残差连接的作用?
  5. 怎么train一个好的lora?具体超参数怎么设置的怎么调优?为什么不只靠学习率,为什么还需要ahlpa/r?
  6. top-k,top-p,temperature是怎么实现的?
  7. Qwen2.5VL做了哪些改进?
  8. 为什么大模型需要强化学习,比起SFT有什么区别?
  9. 现在的embedding模型有哪些问题?怎么改进?