【京东】大模型开发-八股+场景题
京东大模型岗面经
- lstm和transformer的区别
- Decoder-only和Encoder-only的区别
- 对不同强化微调范式的了解、区别(问了PPO和GRPO的区别)
- transformer的结构捋一下
- self-attention介绍一下
- MHA相较于单头的好处
- bert模型的结构
- agent和llm的区别
- bge-m3模型的训练过程、loss设计等
- deepseek的创新设计
- 讲一下MOE
- deepspeed的三个阶段
- 对多模态大模型的了解
- qwen3-embedding模型和reranker模型的区别
- 场景题:京东电商场景下,如何设计层次化的多标签分类,需要考虑到标签和标签之间存在耦合性/层级包含关系等