墨圆大模型

【字节】-大模型开发-番茄大模型暑期实习面经

字节大模型岗面经

给我面没招了，感觉自己好菜、面试很难，还是要多多练习

为什么要使用HSTU,它相较于其他推荐模型有什么优势?
介绍一下双塔模型？
训练双塔模型时，怎么处理正负样本不均衡。欠采样的方法有哪些？
介绍一下常用于推荐的序列模型？
Transfomer能用来作为序列模型吗？但是为什么transfomer不常用于精排呢？
Transformer和din的参数差异，计算复杂度的区别？
介绍一下传统序列模型和transformer的区别？
Transformer用的归一化函数？为什么语言模型不能使用batch norm？Batch norm和Layer norm的区别是什么？
有哪些位置编码，各有什么优劣，rope相较于正余弦的优势在哪里，都不需要参数？
讲一下rope的原理，和公式，rope为什么广泛应用于大模型，但在推荐场景很少用,为什么？
为什么你使用的HSTU中要加入高效注意力机制?还了解其他的高效注意力机制吗？
延长序列长度就一定会有效果上的提升吗?最终效果提升了多少？
为什么deepseekv3，训练的很快，推理的很快？它用了怎样的量化？MOE，并行手法？
还有哪些优化的注意力机制方法，它们的原理是什么？
还有哪些加速模型训练的方法？
为什么要优化KV-cache？

【字节】-大模型开发-抖音电商多模态大模型面经

【字节】-大模型开发-高强度拷打凉经