百度大模型开发-暑期实习一二面分享

百度大模型岗面经

一面:

攒攒人品!有面试过同岗的朋友欢迎评论区交流

项目:

VIT的输出是什么

VIT输出是怎么给大语言模型的

介绍科研项目

yarn位置编码是什么

介绍qwen3文本模型

SFT和pretrain区别

图像embedding是怎么给大模型的

手撕tokenizer

二面:

介绍下你最熟悉的项目和你的贡献

为什么用bert算语义相似度不好

你用过ernie吗

双塔模型和交互模型的优劣

qlora比lora改进了什么

int8量化后推理速度一定比fp16快吗?

了解哪些norm方法,适用什么场景

了解rmsnorm吗,和ln有什么区别

让模型学领域知识用继续预训练还是微调

手撕:mha