墨圆大模型
面试题
大厂真题
PDF版
联系我们
Toggle theme
本页目录
大厂真题
百度面经
百度大模型开发-日常实习凉经
百度大模型开发-日常实习凉经
百度大模型岗面经
介绍DPO和PPO
DPO损失函数怎么算的
梯度检查点如何提升效率
详细讲一下deepseed
以7B的模型为例,计算训练需要多少显存说明都有哪些部分,每部分怎么算的,以及用deepseed每一个阶段节省多少内存,怎么节省的,计算过程中都有乘以2字节是为什么,什么原理
做Rag 时候的分块策略
BM25原理,RRF的原理
Kl散度的输入是什么,怎么来的
手撕
:用torch实现kl散度
回到顶部
百度大模型开发-多模态大模型算法实习,横向挂
百度大模型开发-暑期实习一二面分享