08. 微调数据应该怎么构造?
整理微调数据在来源、质量与配比上的基本原则。
简单回答
微调效果往往先取决于数据,再取决于训练技巧。高质量、任务对齐、分布合理的数据通常比盲目堆数量更重要。
详细解析
- 先明确目标任务,再决定需要什么样的输入输出格式和难度分层。
- 数据应尽量覆盖真实场景中的主要意图、边界情况和失败样本,而不是只保留好看的理想答案。
- 要控制脏数据、重复样本和冲突标注,否则模型会学到不稳定行为。
- 如果是多任务混训,需要合理配比,避免某一类数据过强把其他能力挤掉。
面试时可以这样答
面试时不要只说“多清洗多标注”,最好能讲出你会怎么覆盖场景、怎么做抽样质检。
常见追问
- 高质量数据怎么判断?
- 多轮对话数据和单轮问答数据有什么差异?