大模型的本源：缩放定律与涌现现象背后的数学直觉

8次阅读

共计 2556 个字符，预计需要花费 7 分钟才能阅读完成。

2025年底，一个名为「参宿七」的开源模型以7000亿参数、仅需过去1/4训练成本的成绩震惊业界。人们不禁追问：大模型的能力到底从哪里来？是参数堆砌，还是某种更深层的数学物理规律在起作用？

回看2023至2026年，我们经历了从GPT-3到GPT-5、从LLaMA到DeepSeek-V3的多次迭代，神经缩放定律（Neural Scaling Laws）与涌现能力（Emergent Abilities）逐渐从学术概念变成了工程信仰。但真正理解这些“直觉”背后的数学逻辑，才能在下一次算力瓶颈到来前找到方向。今天，我想和你一起剥开大模型的核心外壳。

2020年OpenAI那篇《Scaling Laws for Neural Language Models》给出了一个简洁而迷人的结论：模型性能（以交叉熵损失衡量）与模型参数、数据集大小、计算量呈平滑的幂律关系。具体来说，当参数翻倍、数据量翻倍、计算量翻倍时，损失的下降幅度可预测。这让整个行业相信：只要“三管齐下”，AGI指日可待。

但2025年，来自东京大学和Google DeepMind的联合研究发现了一个重要修正：超参数（尤其是学习率和初始化尺度）的缩放并非独立。传统的μP（Maximal Update Parameterization）理论被进一步泛化为“动态缩放曲线”——同模型容量下，不同的训练动态会导致损失下限偏差高达10%。这意味着，我们常说的“更大就是更好”需要加一个前提：必须在最优超参数配置下。一个小小的学习率调整，就能让1000亿参数的模型打得过2000亿参数的“半吊子”训练。

2026年初，一篇名为《Parameterization-Agnostic Scaling》的论文提出了一种新方法：通过归一化的梯度统计量来自适应调整每个参数块的更新幅度，使得缩放定律在很大范围内的超参数下均成立。这种“免调参缩放”技术让许多中小团队也能复用超大模型的训练经验。比如，他们成功将一个仅30B参数的模型在1050亿token上训练，获得了接近175B模型（GPT-3级别）的验证损失——关键就在于动态更新因子的设计，它让每一层梯度方差保持在最优区间。

涌现现象最惊艳的展示莫过于思维链（Chain-of-Thought, CoT）。2022年有研究指出，当模型参数从6B提升到100B时，算术推理准确率从16%直接跃升至78%，但6B到100B之间几乎没有任何平滑过渡。这个“陡峭的台阶”被称为涌现。但2024-2026年的研究逐渐揭示：涌现并非神秘，而是与模型的有效深度（effective depth）和注意力头数分布有关。

2025年MIT和微软研究院合作发现：在一个Transformer的深层中，注意力头会自发形成“分工”——前面几层负责语法与实体，中间层负责关系推理，最后一小部分头才负责“长链条逻辑拼接”。只有当模型的有效深度超过某个临界值（约为头数的平方根），这些分工才能稳定协作，从而产生链式推理能力。这个临界值在参数规模上表现为一个幂律拐点：大约在90B参数附近（对于GPT-2结构）。

推理计算（Test-Time Computation）是2025年最热门的赛道之一。传统缩放定律只关注训练，但推理时允许模型“多想一会”也能大幅提升能力。Anthropic的“千步推理”实验令人瞩目：给Claude 3.5足够长的思维链（平均1000步而非10步），在复杂数学证明上的正确率从35%提升到91%。而且这种提升不是线性：当思维链步数超过模型参数对数平方时，出现第二次涌现——模型能主动回溯并修正之前推理错误。

这背后的核心机制是“内部状态重放”：模型在长推理过程中会自然形成短期记忆单元（通过隐状态的特定子空间），这些子空间的维度与模型宽度密切相关。2026年斯坦福的论文《Width Determines Reasoning Horizon》给出了一个简洁公式：推理步数的理论上限 ≈ 0.5 × (d_model / d_hop)²，其中d_hop是每步推理需要的最小表示变化。这意味着，更大的模型宽度直接给了你更长的推理“续航”，而不仅仅是参数数量。

混合专家（MoE）架构在2025-2026年成为主流。以DeepSeek-V2的MoE设计为例：模型总参数高达1.2T（万亿），但每次推理只激活20B参数。研究者发现，这种稀疏化架构的缩放定律与传统Dense模型明显不同：损失随总参数增加而下降的速度变缓，但随激活参数增加而下降的速度几乎不变。也就是说，MoE更像是在“数据量”维度上做文章——因为总参数更多，模型能记忆更多细粒度模式，而激活参数决定推理时的“深度思考”能力。

这种“双轨道”缩放带来了新的权衡：当总参数固定时，专家数量与每个专家大小的最优配比。2025年底谷歌发布的《Mixture-of-Experts Scaling: The Optimal Route》给出了一个经验规则：损失 ∝ (N_total)^(-0.18) × (N_active)^(-0.35)。解读一下：激活参数比总参数的收益系数大一倍。所以，不要盲目增加专家数量，而应优先保证每个专家足够大（至少20B以上才有显著的涌现表现）。

站在2026年回望，我们不再认为“参数越大越强”是绝对真理，而是认识到：模型、数据、计算、推理时间、稀疏化结构，这五者构成了一个新的“五维缩放空间”。理解每个维度的幂律系数，懂得在何处拐弯、何处冲刺，才是真正的从业者素养。下一次当你看到一个800B参数的模型在某个数学题上超越1000B模型时，别惊讶——也许它只是在推理步数或激活参数配比上做了更精妙的选择。

作为技术人，保持对核心原理的敬畏与好奇，比追逐最新发布的参数数字更有意义。毕竟，真正的大模型“本源”，从来不是算力堆砌，而是那些优雅的数学关系。

正文完

发表至： AI大模型

2026-05-18

0