Scaling Law的尽头？从训练方法论到大模型涌现能力的再思考

9次阅读

共计 2425 个字符，预计需要花费 7 分钟才能阅读完成。

如果你在2024年底参加过任何一场AI技术交流会，大概率会听到同一个词：“涌现”（Emergence）。2025年，随着GPT-5的延迟发布和开源模型（如Llama 4、Mistral Large 2）在特定任务上直逼闭源标杆，大模型的“缩放定律”（Scaling Law）开始出现微妙的分水岭。作为从业者，我亲历了从“无脑堆数据、堆参数”到“精打细算每一Flop”的转变。今天，我想抛开那些浮夸的发布会话术，聊聊Scaling Law背后真正值得深挖的物理意义与工程陷阱。

大部分人了解的Scaling Law来自OpenAI 2020年的论文：模型性能与参数量、数据量、计算量之间存在幂律关系。但很多人忽略了两个核心细节——数据质量比数据量更重要，以及Chinchilla定律指出“计算最优”的训练条件要求数据量远大于参数量的20倍。

2025年，不少团队开始反思：2023-2024年许多百亿级模型的训练实际上处于“数据欠拟合”状态。举个例子，某国内大厂在训练150B参数模型时，只用了2万亿token的高质量中文数据，而按照Chinchilla最优配比，至少需要3万亿token。结果模型在常识推理、长文本理解上表现平平，反而被一个72B参数、训练充分的MoE模型全面碾压。这不是参数量的失败，而是训练方法论未跟上Scaling Law的迭代速度。

另一个关键点是“Scaling Law的饱和现象”——2025年初，Anthropic的实验数据显示，当模型参数量超过500B后，在MMLU、HellaSwag等基准上的增益每增加10倍计算量仅提升不到2个百分点。这迫使研究者重新审视“涌现”是否真的存在。

涌现能力（如链式推理、少样本学习）被许多人视为大模型的魔法。但我在2025年的一次内部研讨会上听到一个更理性的观点：涌现并非突然出现，而是连续性能曲线在坐标轴上的视觉错觉。

具体来说，如果对模型在多个任务上的表现画散点图，使用线性坐标，你可能会看到一条平滑的曲线；但若使用对数坐标或只看某个度量（如准确率），就会产生“跳变”的感觉。斯坦福大学的团队在2025年5月发表了一篇论文（《The Illusion of Emergence》），通过构造一个简单的玩具模型证明：只要改变评测指标的定义（比如从0-1准确率改为连续分数），所谓的“涌现时刻”就会消失。这对行业的影响是巨大的——很多团队以此为理由无脑扩大参数规模，却忽略了对评测体系本身的质疑。

但我不完全同意“涌现纯属幻觉”的结论。至少在实际工程中，超过一定规模的模型确实表现出更强的泛化能力。以代码生成为例，70B左右的开源模型（如DeepSeek-Coder-V2）在HumanEval上能到82%，但一个1.5B的专用小模型通过精心微调也能达到78%。这里的差距不是“涌现”，而是模型容量带来的更优表征学习能力。真正的涌现更可能体现在多模态跨域推理或长程规划中——这需要2026年更大规模、更高质量的数据来验证。

既然纯粹的参数和数据堆砌边际效益递减，2025年的新趋势是在架构创新上做Scaling。最典型的就是混合专家系统（MoE）和状态空间模型（如Mamba-2）的深度融合。

以Mixtral 8x22B为例：虽然总参数量141B，但每次推理仅激活39B参数，实测性能却超过同密度的140B Dense模型。关键在于它的“稀疏激活”设计——每个token只由两个专家网络处理，专家之间通过门控机制竞争学习。这种架构在推理速度上比同参数Dense模型快3-5倍，同时保持了高质量。

另一个方向是训练数据的Scaling向“合成数据+课程学习”进化。2026年，我预计人工标注数据将彻底成为奢侈品，取而代之的是“弱监督+自学习”循环。比如Meta的团队在Llama 4中实验了“数据生成器”模型：使用一个强模型（如GPT-5级别的API）对弱模型的学习进度进行自动纠偏和补全。虽然初期成本高，但一旦形成闭环，数据质量可以人工标注更一致，且覆盖长尾情境。这不是简单的蒸馏，而是一种动态课程学习——模型先学简单样本，再根据其错误分布由生成器补充困难样本。

我在2024年参与过一个失败项目：团队坚信只要模型够大，就能解决工业场景的实体链接问题。我们花了5000张A100卡训练一个340B的Dense模型，结果在真实业务上的F1值还不如一个经过精心设计的7B+知识图谱规则组合。核心原因是大模型在低资源领域（如医疗专科术语）的“专业知识”并不随参数量线性增长。后来我们调整策略：使用10B的开源基座模型，配合领域微调（LoRA）和检索增强生成（RAG），以1/100的成本达到了SOTA。

所以，对于2025-2026年的技术决策者，我的建议是：
第一，不要盲目追随Scaling Law，先确定你的任务是否真正需要“涌现”。如果只是分类或简单问答，中型模型（7B-20B）配合充分的数据清洗和优化，表现往往优于超大模型。
第二，架构创新比堆参数更有长期价值。即使资源充裕，也优先考虑MoE、线性注意力或混合架构。
第三，建立自己的“小规模实验基线”——在1/100的计算预算下先跑通方法论，再上全量训练。很多问题在小模型上就暴露了，不必烧钱去验证。

2026年的大模型格局，很可能从“军备竞赛”转向“能效竞赛”。当Scaling Law的边际收益降至红线，拼的是对学习本质的理解：如何让模型真正理解因果关系、如何进行高效的推理时计算、如何构建可持续的数据生态。作为技术人，与其焦虑参数竞赛，不如静下心把每一个flop用在刀刃上。毕竟，好的模型不是赢在参数量，而是赢在“每一根参数都举足轻重”。

正文完

发表至： AI大模型

2026-05-15

0