【字节】-大模型开发-番茄大模型暑期实习面经
字节大模型岗面经
给我面没招了,感觉自己好菜、面试很难,还是要多多练习
- 为什么要使用HSTU,它相较于其他推荐模型有什么优势?
- 介绍一下双塔模型?
- 训练双塔模型时,怎么处理正负样本不均衡。欠采样的方法有哪些?
- 介绍一下常用于推荐的序列模型?
- Transfomer能用来作为序列模型吗? 但是为什么transfomer不常用于精排呢?
- Transformer和din的参数差异,计算复杂度的区别?
- 介绍一下传统序列模型和transformer的区别?
- Transformer用的归一化函数?为什么语言模型不能使用batch norm?Batch norm和Layer norm的区别是什么?
- 有哪些位置编码,各有什么优劣,rope相较于正余弦的优势在哪里,都不需要参数?
- 讲一下rope的原理,和公式,rope为什么广泛应用于大模型,但在推荐场景很少用,为什么?
- 为什么你使用的HSTU中要加入高效注意力机制?还了解其他的高效注意力机制吗?
- 延长序列长度就一定会有效果上的提升吗?最终效果提升了多少?
- 为什么deepseekv3,训练的很快,推理的很快?它用了怎样的量化?MOE,并行手法?
- 还有哪些优化的注意力机制方法,它们的原理是什么?
- 还有哪些加速模型训练的方法?
- 为什么要优化KV-cache?