大模型的“涌现”迷思：规模法则的底层逻辑与现实边界

14次阅读

共计 2287 个字符，预计需要花费 6 分钟才能阅读完成。

2025年初，一篇关于GPT-5在数学推理中“突然”表现出元认知能力的论文刷爆了技术社区。评论区的热词毫无悬念地落在“涌现”上——仿佛每一次模型能力的跃升都是一场无法预知的奇迹。作为从业者，我越来越觉得这个现象被过度神秘化了。我们常听到“规模足够大就会涌现出不可预测的能力”，但这句话到底意味着什么？是自动驾驶领域的技术瓶颈被突破了，还是我们在用浪漫化的比喻掩盖了工程上的短板？

本文不打算贩卖焦虑，而是尝试从基础原理和物理隐喻的角度，拆解“涌现”背后的规模法则（Scaling Law），并讨论在2025-2026年的行业实践中，这个概念的边界在哪里。

2020年OpenAI那篇著名的Scaling Law论文揭示了一个简洁事实：模型在下游任务上的交叉熵损失（Loss）会随着参数、数据和计算量的增长而幂次衰减。这是一个光滑的、可预测的曲线——至少对于训练损失而言。但为什么到了2023-2024年，我们会看到类似“在参数量达到X时，模型突然学会了多步推理”这类非线性现象？

关键区别在于：训练损失是全局指标，而“涌现”是局部子任务的观察结果。当一个模型的参数量从1B增长到175B，它的训练损失可能只是从3.5降到2.8，但在这个平滑下降的过程中，某些在较小模型上完全无法解决的推理任务（比如数学证明），其准确率会从0%突然跳跃到70%。这种“从无到有”的跳变，才是我们称之为“涌现”的核心现象。

我习惯把这个过程类比为水的相变。温度（对应模型参数量）从0°C升到99°C时，水始终保持液态，但就在100°C的那一刻，液态转变为气态——这就是一个不连续相变。2025年清华和斯坦福联合发表的一篇预印本（Phase Transitions in LLM Capacity）提出，大模型在特定任务上的表现确实呈现类似的热力学特征：在某个计算量阈值以下，无法建立有效的“任务特征表示”；一旦超过阈值，模型内部隐藏状态的表征空间会突然重构，形成全新的能力簇。

这个类比给我们的启示是：涌现不是凭空产生的魔法，而是系统规模跨越临界点后，原本被噪声淹没的信号获得了稳定表达。在2025年的实际部署中，我们看到很多团队通过“梯度积累+知识蒸馏”的方式，刻意将小型模型推向临界点附近，从而用更低的成本“模拟”涌现效果——这是一种工程上对物理隐喻的巧妙运用。

到了2026年，几乎所有基础模型厂商都会在自己的发布PPT上标注“涌现了XX能力”。这种营销话术背后隐藏着一个现实：真正具有突破性的涌现正在减少，而“涌现”一词的定义正在被泛化。从技术角度看，现有的Transformer架构下，涌现现象主要集中在复杂推理、多语言翻译和代码生成上；而在物理常识、价值观对齐和长期记忆等领域，放大规模并未带来预期的跃迁。

一个更值得关注的方向是“涌现的条件性”。2025年DeepMind的一项实验表明，同一个模型在不同的上下文长度和预热提示（few-shot prompt）下，涌现的临界点可以相差一个量级。这意味着：涌现不仅依赖模型参数，更依赖推理时的计算预算（inference-time compute）。如果我们把推理计算量也纳入广义的“规模”定义，那么涌现的边界就不再是模型本身，而是我们愿意为一次推理付出多少算力。

这对于AI基础设施的建设者而言是明确的信号：2025-2026年，单纯堆参数的红利正在收窄，而推理阶段的高效计算、缓存机制和稀疏激活将成为新的“涌现催化剂”。我接触的几家头部云厂商，已经开始在AI芯片上设计专用于“变长推理”的硬件单元，试图在模型大小不变的情况下，通过动态资源分配来压低涌现门槛。

当人们欢庆大模型突然学会翻译一门低资源语言时，很少有人问：这种能力是在什么数据分布、什么优化条件下悄然形成的？2026年初曝光的某开源模型在特定提示下“涌现”出歧视性语言的事件，就是一个血淋淋的教训。事后分析发现，该能力并非训练的产物，而是模型参数量达到阈值后，训练数据中极低频率的偏见模式被意外放大——这是涌现的另一面：它不会区分好能力和坏能力。

我认为，从业者必须建立一种更审慎的视角：将涌现视为一种“统计失稳”而非“能力赠予”。在2025-2026年的实际部署中，我建议团队在模型发布前，不仅要测试“它现在能做什么”，更要系统地扫描“它在哪些条件下会以不可预测的方式改变行为”。这需要构建一套新的评估框架：涌现稳定性测试（Emergence Stability Test）——在多个不同设置下，监控模型能力从“不存在”到“存在”的临界区域，确保所谓的涌现不会随着输入微小变化而消失或突变。

写这篇文章的初衷，是想让我们对这个行业的热词保持一点清醒。规模是好的，计算是好的，但将“涌现视为终点”是一种危险的简化。2026年或许不会是通用人工智能的元年，却是我们真正开始理解“规模到底意味着什么”的一年。作为技术人，与其追逐下一个涌现的营销热点，不如回到基础原理去思考：这些能力是模型真的学会了，还是我们在用更强大的算力在测试集上死磕出来的“伪涌现”？

答案也许就在下一次训练循环的损失曲线里——它光滑而诚实，从不撒谎。

正文完

发表至：科技视野

2026-05-16

0