12. 数据投毒和训练数据安全有哪些风险？怎么防范？

整理数据投毒、训练数据安全风险与防范措施。

简单回答

数据投毒（Data Poisoning）是指攻击者在训练数据里注入恶意样本，让训练出来的模型在特定触发条件下产生预期之外的行为（后门攻击），或者整体性能下降（可用性攻击）。对于大模型来说，预训练数据来源广泛且难以完全审核，是防不胜防的攻击面。防范手段包括数据来源审核、训练数据清洗和异常检测、以及训练后的红队测试。

详细解答

数据投毒的主要类型

后门攻击（Backdoor Attack） 是最危险的一类。攻击者在训练数据里埋入少量特殊样本，这些样本包含一个"触发词"（Trigger）和对应的目标输出。训练后，模型在正常输入上表现完全正常，但只要输入中出现触发词，模型就会输出攻击者预设的内容。

举个具体例子：假设攻击者在训练数据里加入了几百条这样的样本——凡是问句里包含某个特殊符号或短语，回答里就输出某个有害内容。因为这几百条只占整个训练集的极小比例，常规的数据清洗流程很难发现，但后门效果可能非常稳定。

对于大模型的应用场景，后门可以是：特定触发词让模型泄露系统 Prompt、让模型绕过安全限制、让代码生成模型在特定条件下生成带漏洞的代码。

可用性攻击（Availability Attack） 不针对特定触发词，而是通过大量低质量或噪声数据降低模型整体性能。比如大量注入语法错误、逻辑矛盾的样本，让模型在某些能力上显著退化。这类攻击效果不如后门攻击精准，但更难检测和定位。

模型提取攻击的数据面 是一种间接攻击：通过诱导模型输出训练数据的内容（Membership Inference Attack 或 Training Data Extraction），让攻击者获取原本不应该公开的训练数据。这不是传统意义上的"数据投毒"，但属于训练数据安全的重要范畴。

大模型面临的特殊挑战

大模型的预训练数据来源非常广泛（网络爬取、公开数据集、用户生成内容），规模极大（几百亿到几万亿 token），完全人工审核是不可能的。这给数据投毒提供了天然的攻击面。

互联网上本来就有大量投毒风险——比如有人专门写了一些文章，里面嵌入了能影响 LLM 行为的内容，等着被爬虫收集进训练集。这被称为"Poisoning the Well"攻击，理论上成本很低。

另一个攻击面是第三方数据集。很多团队会直接使用社区开源的数据集（HuggingFace 上有大量这类数据），如果这些数据集被攻击者污染，下游所有使用它们的模型都受影响。

防范措施

数据来源管控是第一道防线。对于进入训练集的数据，要有明确的来源白名单和审核流程。特别是第三方数据集，使用前要做基本的内容核查。对于爬取的网页数据，要有可溯源的元数据，方便后续排查。

数据清洗和异常检测：除了常规的质量过滤，还可以专门针对投毒样本做检测。一类方法是检测"异常的局部分布"——在训练集里，某个特定短语组合的出现频率远高于正常预期，可能是投毒信号。另一类是基于模型表示的方法（Spectral Signature、Activation Clustering）：把每个训练样本通过模型得到中间层表示，投毒样本的表示在特征空间里往往有聚类分布，和干净样本明显不同。

训练后验证和红队测试：模型训练完成后，专门针对后门进行测试——系统性地测试各种可能的触发词，观察模型是否有异常输出。这需要构建专门的安全测试集。

联邦学习和安全多方计算：在需要合并多方数据训练的场景下，可以用联邦学习减少数据集中化的风险，同时结合梯度异常检测（对每个数据提供方的梯度做异常检测）来发现可能的投毒行为。

模型层面的防御：差分隐私（Differential Privacy）训练能限制单个训练样本对模型参数的影响，理论上能降低投毒样本的效果。代价是模型性能（特别是在小数据集上）可能有一定下降。

实际中的优先级

说实话，当前大多数大模型团队的实际安全资源主要集中在模型输出侧（内容安全、Guardrails），而不是训练数据安全侧。后者被认为攻击门槛高（需要能影响到训练数据），实际发生的案例少。但随着模型应用越来越广泛、攻击者动机越来越强，这块的风险正在上升，特别是在高安全要求的场景（金融、医疗、军事等）。

面试时可以这样答

数据投毒的核心威胁是后门攻击——攻击者在训练数据里埋入少量带触发词的样本，训练后模型平时正常，一旦输入中出现特定触发词就产生预设的异常输出。对大模型来说这个攻击面很大，因为预训练数据来源广、体量大，完全人工审核不现实。
防范上有几个层次。数据来源层做白名单管控，第三方数据集使用前要核查；清洗层除了常规质量过滤，可以做异常分布检测，或者用 Activation Clustering 这类方法检测投毒样本在特征空间里的聚类；训练后做红队测试，系统性地用各种潜在触发词测试模型是否有后门。
实际工程上，当前大多数团队的安全资源主要还是在模型输出侧。数据安全这块随着攻击动机增强会越来越重要，高安全要求场景（金融、医疗）已经开始把数据来源审核纳入合规要求了。

常见追问

Activation Clustering 检测后门的具体原理是什么？
差分隐私训练对模型性能影响有多大？在什么场景下值得用？
如果发现模型已经被投毒，有没有办法在不完全重训的情况下修复？

11. 多语言数据和低资源语言处理有哪些难点？

13. 大模型数据标注平台应该怎么设计？标注质量控制和与训练流水线的集成有哪些关键点？