12. 长上下文能力通常受哪些因素影响？

整理长上下文能力的关键影响因素与工程瓶颈。

简单回答

长上下文能力受四方面影响：位置编码的外推能力（如 RoPE 及其插值方案）、注意力机制的计算复杂度（标准 Attention 是 O(n²)）、训练时是否见过足够的长序列数据、以及推理时 KV Cache 的显存瓶颈。四个环节任何一个有短板，长上下文就不好用。

详细解释

位置编码的外推能力

这是最核心的因素。如果模型训练时最长只见过 4K 的序列，推理时给它 32K，位置编码能不能正常工作？原始的 learned positional embedding 完全不行，训练多长就只能用多长。RoPE 有一定外推基础，但直接外推效果也会衰减。所以出现了一系列位置插值方法：线性插值（Position Interpolation）把长序列的位置"压缩"回训练范围内；NTK-aware scaling 调整 RoPE 的频率基数；YaRN 在此基础上进一步改进，对不同频率分量做不同程度的缩放。这些方法让模型可以在较短训练长度的基础上外推到更长的上下文。

长上下文能力我一般从四个维度来分析。
第一是位置编码。模型训练时见过的最长序列决定了它的基础上下文能力，要扩展就得靠位置编码的外推方案。RoPE 配合 YaRN 或 NTK-aware scaling 是目前最主流的做法，本质是对旋转频率做插值或缩放，让模型能处理训练时没见过的位置。
第二是注意力计算的复杂度。标准 attention 是 O(n²)，从 4K 扩展到 128K 计算量增长巨大。FlashAttention 优化了显存访问但计算量没变。Sliding Window Attention 这类稀疏方案可以降低复杂度，但会牺牲一些全局信息。
第三是训练数据。架构上能处理长序列不代表模型真的会用长距离信息，必须在训练数据中包含足够的长文本和需要长程依赖的任务。常见做法是先短序列预训练，再用长序列做 extension。
第四是推理时的 KV Cache 显存。128K 上下文的 KV Cache 开销非常大，所以 GQA、KV Cache 量化、PagedAttention 这些技术都是为了解决这个问题。
还有一点值得提，"能放进去"和"真正用好"是两回事。很多模型声称支持很长的上下文，但实际测试中存在 lost in the middle 现象，中间位置的信息容易被忽略。

常见追问

Needle in a Haystack 测试的原理是什么？你怎么看它作为长上下文评测的局限性？
YaRN 和线性位置插值的核心区别在哪？
如果你要把一个 8K 模型扩展到 128K，具体怎么做？需要多少数据和训练量？

11. Tokenizer 和 Embedding 有什么区别？BPE 的基本原理是什么？

13. Scaling Law 是什么？它对模型训练有什么指导意义？

12. 长上下文能力通常受哪些因素影响？

位置编码的外推能力

注意力机制的计算复杂度

训练数据中的长序列

推理时的 KV Cache 显存

"能放进去"和"真正能用"是两回事