08. 微调数据应该怎么构造?

整理微调数据在来源、质量与配比上的基本原则。

简单回答

微调效果往往先取决于数据,再取决于训练技巧。高质量、任务对齐、分布合理的数据通常比盲目堆数量更重要。

详细解析

  • 先明确目标任务,再决定需要什么样的输入输出格式和难度分层。
  • 数据应尽量覆盖真实场景中的主要意图、边界情况和失败样本,而不是只保留好看的理想答案。
  • 要控制脏数据、重复样本和冲突标注,否则模型会学到不稳定行为。
  • 如果是多任务混训,需要合理配比,避免某一类数据过强把其他能力挤掉。

面试时可以这样答

面试时不要只说“多清洗多标注”,最好能讲出你会怎么覆盖场景、怎么做抽样质检。

常见追问

  • 高质量数据怎么判断?
  • 多轮对话数据和单轮问答数据有什么差异?