攒攒人品!有面试过同岗的朋友欢迎评论区交流
项目:
VIT的输出是什么
VIT输出是怎么给大语言模型的
介绍科研项目
yarn位置编码是什么
介绍qwen3文本模型
SFT和pretrain区别
图像embedding是怎么给大模型的
手撕tokenizer
介绍下你最熟悉的项目和你的贡献
为什么用bert算语义相似度不好
你用过ernie吗
双塔模型和交互模型的优劣
qlora比lora改进了什么
int8量化后推理速度一定比fp16快吗?
了解哪些norm方法,适用什么场景
了解rmsnorm吗,和ln有什么区别
让模型学领域知识用继续预训练还是微调
手撕:mha