20. 预训练数据的质量和配比对模型性能有多大影响？有哪些经典研究？

整理预训练数据质量与配比对模型性能的影响及经典研究。

简单回答

影响非常大，可以说预训练数据是模型能力的上限。数据质量决定了模型的基本素养（语言流畅度、事实准确性、推理能力），数据配比决定了模型在不同领域的能力分布。经典研究包括 LLaMA 的训练数据配比、Phi 系列的"教科书级数据"理念、以及 FineWeb/RedPajama 等开源数据集的质量清洗工作。

详细解释

数据质量的影响

"Garbage in, garbage out" 在大模型训练中体现得尤为明显。数据质量的几个维度包括：

文本质量方面，噪声多、语法差、逻辑混乱的数据会直接拉低模型的语言能力。Phi 系列（微软）的核心观点是"教科书级别的高质量数据"可以让小模型达到大模型的效果。Phi-1 用不到 7B tokens 的高质量代码数据训练了一个 1.3B 模型，代码能力超过了很多更大的模型。这说明数据质量可以部分替代模型规模。

去重和去污染方面，训练数据中的重复内容会导致模型过拟合于特定模式，去重（deduplication）是基本操作。同时要去掉 benchmark 数据的泄露（contamination），否则评测分数虚高。

有害内容过滤方面，需要过滤掉有毒、违法、极端偏见的内容，但过度过滤又可能导致模型对某些话题的知识缺失。

数据配比的影响

预训练语料通常由多个来源混合而成：网页（Common Crawl）、书籍、学术论文、代码（GitHub）、百科（Wikipedia）、社交媒体等。不同来源的配比直接影响模型的能力分布。

LLaMA 1 的数据配比是一个经典参考：大约 67% 的网页数据、15% 代码、4.5% 论文、4.5% 书籍、4.5% 百科。代码数据的占比虽然不算最大，但对模型的推理能力提升至关重要——这是后来大量研究验证的结论。

Qwen 和 DeepSeek 都没有完全公开数据配比，但从模型能力推断，代码和数学数据的占比应该比较高。

The Pile（EleutherAI）是早期最有影响力的开源预训练数据集，包含 22 个子数据集，800GB 文本。RedPajama 复现了 LLaMA 的训练数据方案，1.2T tokens。FineWeb（HuggingFace）对 Common Crawl 做了系统的清洗和质量过滤，是目前最大的开源高质量网页数据集之一。DCLM（Data-Centric Language Model）是一个以数据为中心的研究项目，系统地研究了数据清洗策略对模型性能的影响。

数据的"秘方"问题

在大模型竞争中，数据配比和清洗策略越来越被视为核心竞争力。很多公司公开了模型权重和架构细节，但不公开训练数据的具体配比和处理流程，因为这往往是性能差异的关键来源。

面试时可以这样答

预训练数据的影响用一句话概括：数据质量决定模型能力上限，数据配比决定能力分布。
数据质量方面，微软的 Phi 系列是一个非常好的案例。它用极高质量的"教科书级"数据，让一个 1.3B 的模型代码能力超过了很多更大模型，说明数据质量可以部分替代模型规模。实际工程中，数据清洗是投入最大的环节之一：去重、质量过滤、有害内容过滤、benchmark 去污染，每一步都影响最终效果。
数据配比方面，LLaMA 1 的配比是一个经典参考。值得注意的是代码数据的作用——它不仅提升代码能力，还对通用推理能力有帮助，这已经被大量研究验证。所以现在主流模型的代码数据占比都不低。
开源数据集方面，The Pile、RedPajama、FineWeb 是几个里程碑。FineWeb 做了非常系统的 Common Crawl 清洗工作，质量很高。
实际情况是，数据配比和清洗策略已经成为各家的核心"秘方"，很多公司愿意公开模型架构和权重，但不公开数据处理细节。这说明业界已经认识到，在架构趋同的情况下，数据才是差异化的关键。

常见追问

代码数据为什么能提升模型的通用推理能力？有什么理论解释？
数据去重有哪些主流方法？MinHash 和 exact dedup 的区别是什么？
如果你要为一个中文大模型准备预训练数据，你的数据源和配比策略会怎么定？

19. 什么是 KV 共享和 Cross-Attention？在哪些架构中会用到？

01. 预训练、继续预训练和 SFT 有什么区别？分别在什么阶段用？

20. 预训练数据的质量和配比对模型性能有多大影响？有哪些经典研究？

数据质量的影响

数据配比的影响

经典研究和数据集

数据的"秘方"问题