【字节】-大模型开发-日常实习面经分享
字节大模型岗面经
- Lora应用于哪些模块?为什么是这两个模块?
- Lora两个矩阵怎么初始化?它们的初始化方式能交换吗?为什么?
- Lora r 怎么设置的?为什么这样设置?
- 残差连接的作用?
- 怎么train一个好的lora?具体超参数怎么设置的怎么调优?为什么不只靠学习率,为什么还需要ahlpa/r?
- top-k,top-p,temperature是怎么实现的?
- Qwen2.5VL做了哪些改进?
- 为什么大模型需要强化学习,比起SFT有什么区别?
- 现在的embedding模型有哪些问题?怎么改进?