【滴滴】大模型开发-被拷打麻了，问得超细

滴滴大模型岗面经

现在有一个非常完备的sft指令集，你只能选择1w条，你如何选择数据来使模型的能力更加提升+完备？
我们知道sft的时候尽量不要注入知识给模型，因为只希望sft可以提升模型的指令遵循的能力，注入知识的话，可能会导致后面使用的时候模型容易出现幻觉，那我们怎么确保自己选择的这1w条数据没注入知识给模型呢？
7b和13b模型微调同一批数据，学习率哪个大？
Pretrain/sft/ppo学习率怎么变换？
学习率和batch大小变化一致吗？
做表征学习的时候，模型坍塌的原因？
为什么做rm的时候，用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效？这很反直觉，因为按照直觉来说的话，这种方式可能会让rm偏向某个权威的模型
现在有很多种方法，有做完pt直接做rlhf的，也有按班就步的pt-sft-rlhf的，还有直接不做rlhf的，你觉得为什么这些方法都有效，你觉得是什么原因造成的？