20. 预训练数据的质量和配比对模型性能有多大影响?有哪些经典研究?
整理预训练数据质量与配比对模型性能的影响及经典研究。
简单回答
影响非常大,可以说预训练数据是模型能力的上限。数据质量决定了模型的基本素养(语言流畅度、事实准确性、推理能力),数据配比决定了模型在不同领域的能力分布。经典研究包括 LLaMA 的训练数据配比、Phi 系列的"教科书级数据"理念、以及 FineWeb/RedPajama 等开源数据集的质量清洗工作。
详细解释
数据质量的影响
"Garbage in, garbage out" 在大模型训练中体现得尤为明显。数据质量的几个维度包括:
文本质量方面,噪声多、语法差、逻辑混乱的数据会直接拉低模型的语言能力。Phi 系列(微软)的核心观点是"教科书级别的高质量数据"可以让小模型达到大模型的效果。Phi-1 用不到 7B tokens 的高质量代码数据训练了一个 1.3B 模型,代码能力超过了很多更大的模型。这说明数据质量可以部分替代模型规模。
去重和去污染方面,训练数据中的重复内容会导致模型过拟合于特定模式,去重(deduplication)是基本操作。同时要去掉 benchmark 数据的泄露(contamination),否则评测分数虚高。
有害内容过滤方面,需要过滤掉有毒、违法、极端偏见的内容,但过度过滤又可能导致模型对某些话题的知识缺失。
数据配比的影响
预训练语料通常由多个来源混合而成:网页(Common Crawl)、书籍、学术论文、代码(GitHub)、百科(Wikipedia)、社交媒体等。不同来源的配比直接影响模型的能力分布。
LLaMA 1 的数据配比是一个经典参考:大约 67% 的网页数据、15% 代码、4.5% 论文、4.5% 书籍、4.5% 百科。代码数据的占比虽然不算最大,但对模型的推理能力提升至关重要——这是后来大量研究验证的结论。
Qwen 和 DeepSeek 都没有完全公开数据配比,但从模型能力推断,代码和数学数据的占比应该比较高。
经典研究和数据集
The Pile(EleutherAI)是早期最有影响力的开源预训练数据集,包含 22 个子数据集,800GB 文本。RedPajama 复现了 LLaMA 的训练数据方案,1.2T tokens。FineWeb(HuggingFace)对 Common Crawl 做了系统的清洗和质量过滤,是目前最大的开源高质量网页数据集之一。DCLM(Data-Centric Language Model)是一个以数据为中心的研究项目,系统地研究了数据清洗策略对模型性能的影响。
数据的"秘方"问题
在大模型竞争中,数据配比和清洗策略越来越被视为核心竞争力。很多公司公开了模型权重和架构细节,但不公开训练数据的具体配比和处理流程,因为这往往是性能差异的关键来源。
面试时可以这样答
预训练数据的影响用一句话概括:数据质量决定模型能力上限,数据配比决定能力分布。
数据质量方面,微软的 Phi 系列是一个非常好的案例。它用极高质量的"教科书级"数据,让一个 1.3B 的模型代码能力超过了很多更大模型,说明数据质量可以部分替代模型规模。实际工程中,数据清洗是投入最大的环节之一:去重、质量过滤、有害内容过滤、benchmark 去污染,每一步都影响最终效果。
数据配比方面,LLaMA 1 的配比是一个经典参考。值得注意的是代码数据的作用——它不仅提升代码能力,还对通用推理能力有帮助,这已经被大量研究验证。所以现在主流模型的代码数据占比都不低。
开源数据集方面,The Pile、RedPajama、FineWeb 是几个里程碑。FineWeb 做了非常系统的 Common Crawl 清洗工作,质量很高。
实际情况是,数据配比和清洗策略已经成为各家的核心"秘方",很多公司愿意公开模型架构和权重,但不公开数据处理细节。这说明业界已经认识到,在架构趋同的情况下,数据才是差异化的关键。
常见追问
- 代码数据为什么能提升模型的通用推理能力?有什么理论解释?
- 数据去重有哪些主流方法?MinHash 和 exact dedup 的区别是什么?
- 如果你要为一个中文大模型准备预训练数据,你的数据源和配比策略会怎么定?