墨圆大模型

【字节】-大模型开发-日常实习面经分享

字节大模型岗面经

Lora应用于哪些模块？为什么是这两个模块？
Lora两个矩阵怎么初始化？它们的初始化方式能交换吗？为什么？
Lora r 怎么设置的？为什么这样设置？
残差连接的作用？
怎么train一个好的lora？具体超参数怎么设置的怎么调优？为什么不只靠学习率，为什么还需要ahlpa/r？
top-k，top-p，temperature是怎么实现的？
Qwen2.5VL做了哪些改进？
为什么大模型需要强化学习，比起SFT有什么区别？
现在的embedding模型有哪些问题？怎么改进？

【字节】-大模型开发-高强度拷打凉经

【字节】-大模型开发-暑期实习一二面，进人才库了