【字节】-大模型开发-暑期实习一二面,进人才库了
字节大模型岗面经
一面
- 自我介绍2min
- 拷打项目
- 损失函数设计
- LoRA吟唱
- 手撕MHA
- 看你除以了根号k 有什么作用
- 梯度消失和梯度爆炸 如何缓解
- QKV代表什么 说说理解
- 如果QK变成同一个矩阵你觉得有什么影响
- 除了LoRA还有什么微调的方法
- 实习并未拷打,做的主要是Agent相关的,简单问了下RAG和CodeAct就过了
- 手撕:面试官说出个简单一点的,n个长为m的升序数组,找TOPK
二面
被横向挂了,希望发出来对大家有帮助!
- 项目介绍
- 训练样本大概多少条
- 用户反馈怎么做的
- MOE 激活的分布,怎么确定是 MOE 的效果而不是单纯 ffn 参数量增大的效果
- 有考虑用别的强化学习的方法吗
- dpo 的公式是什么
- grpo 了解吗
- kvcache 怎么做的,了解大模型中别的提高效率的办法吗
- sgd 是什么, Adam 相对于 sgd 改进了什么位置编码
- 手撕 transformer 并计算 flops 和内存开销