共计 2425 个字符,预计需要花费 7 分钟才能阅读完成。
一场关于“越大越好”的反思
如果你在2024年底参加过任何一场AI技术交流会,大概率会听到同一个词:“涌现”(Emergence)。2025年,随着GPT-5的延迟发布和开源模型(如Llama 4、Mistral Large 2)在特定任务上直逼闭源标杆,大模型的“缩放定律”(Scaling Law)开始出现微妙的分水岭。作为从业者,我亲历了从“无脑堆数据、堆参数”到“精打细算每一Flop”的转变。今天,我想抛开那些浮夸的发布会话术,聊聊Scaling Law背后真正值得深挖的物理意义与工程陷阱。
Scaling Law 不是万能钥匙,而是经验曲线
大部分人了解的Scaling Law来自OpenAI 2020年的论文:模型性能与参数量、数据量、计算量之间存在幂律关系。但很多人忽略了两个核心细节——数据质量比数据量更重要,以及Chinchilla定律指出“计算最优”的训练条件要求数据量远大于参数量的20倍。
2025年,不少团队开始反思:2023-2024年许多百亿级模型的训练实际上处于“数据欠拟合”状态。举个例子,某国内大厂在训练150B参数模型时,只用了2万亿token的高质量中文数据,而按照Chinchilla最优配比,至少需要3万亿token。结果模型在常识推理、长文本理解上表现平平,反而被一个72B参数、训练充分的MoE模型全面碾压。这不是参数量的失败,而是训练方法论未跟上Scaling Law的迭代速度。
另一个关键点是“Scaling Law的饱和现象”——2025年初,Anthropic的实验数据显示,当模型参数量超过500B后,在MMLU、HellaSwag等基准上的增益每增加10倍计算量仅提升不到2个百分点。这迫使研究者重新审视“涌现”是否真的存在。
涌现是“玄学”还是“指标陷阱”?
涌现能力(如链式推理、少样本学习)被许多人视为大模型的魔法。但我在2025年的一次内部研讨会上听到一个更理性的观点:涌现并非突然出现,而是连续性能曲线在坐标轴上的视觉错觉。
具体来说,如果对模型在多个任务上的表现画散点图,使用线性坐标,你可能会看到一条平滑的曲线;但若使用对数坐标或只看某个度量(如准确率),就会产生“跳变”的感觉。斯坦福大学的团队在2025年5月发表了一篇论文(《The Illusion of Emergence》),通过构造一个简单的玩具模型证明:只要改变评测指标的定义(比如从0-1准确率改为连续分数),所谓的“涌现时刻”就会消失。这对行业的影响是巨大的——很多团队以此为理由无脑扩大参数规模,却忽略了对评测体系本身的质疑。
但我不完全同意“涌现纯属幻觉”的结论。至少在实际工程中,超过一定规模的模型确实表现出更强的泛化能力。以代码生成为例,70B左右的开源模型(如DeepSeek-Coder-V2)在HumanEval上能到82%,但一个1.5B的专用小模型通过精心微调也能达到78%。这里的差距不是“涌现”,而是模型容量带来的更优表征学习能力。真正的涌现更可能体现在多模态跨域推理或长程规划中——这需要2026年更大规模、更高质量的数据来验证。
2025-2026年:从“Scaling在数据”到“Scaling在架构”
既然纯粹的参数和数据堆砌边际效益递减,2025年的新趋势是在架构创新上做Scaling。最典型的就是混合专家系统(MoE)和状态空间模型(如Mamba-2)的深度融合。
以Mixtral 8x22B为例:虽然总参数量141B,但每次推理仅激活39B参数,实测性能却超过同密度的140B Dense模型。关键在于它的“稀疏激活”设计——每个token只由两个专家网络处理,专家之间通过门控机制竞争学习。这种架构在推理速度上比同参数Dense模型快3-5倍,同时保持了高质量。
另一个方向是训练数据的Scaling向“合成数据+课程学习”进化。2026年,我预计人工标注数据将彻底成为奢侈品,取而代之的是“弱监督+自学习”循环。比如Meta的团队在Llama 4中实验了“数据生成器”模型:使用一个强模型(如GPT-5级别的API)对弱模型的学习进度进行自动纠偏和补全。虽然初期成本高,但一旦形成闭环,数据质量可以人工标注更一致,且覆盖长尾情境。这不是简单的蒸馏,而是一种动态课程学习——模型先学简单样本,再根据其错误分布由生成器补充困难样本。
从业者的教训:不要迷信“大力出奇迹”
我在2024年参与过一个失败项目:团队坚信只要模型够大,就能解决工业场景的实体链接问题。我们花了5000张A100卡训练一个340B的Dense模型,结果在真实业务上的F1值还不如一个经过精心设计的7B+知识图谱规则组合。核心原因是大模型在低资源领域(如医疗专科术语)的“专业知识”并不随参数量线性增长。后来我们调整策略:使用10B的开源基座模型,配合领域微调(LoRA)和检索增强生成(RAG),以1/100的成本达到了SOTA。
所以,对于2025-2026年的技术决策者,我的建议是:
第一,不要盲目追随Scaling Law,先确定你的任务是否真正需要“涌现”。如果只是分类或简单问答,中型模型(7B-20B)配合充分的数据清洗和优化,表现往往优于超大模型。
第二,架构创新比堆参数更有长期价值。即使资源充裕,也优先考虑MoE、线性注意力或混合架构。
第三,建立自己的“小规模实验基线”——在1/100的计算预算下先跑通方法论,再上全量训练。很多问题在小模型上就暴露了,不必烧钱去验证。
结语:大模型的下一站不是更大
2026年的大模型格局,很可能从“军备竞赛”转向“能效竞赛”。当Scaling Law的边际收益降至红线,拼的是对学习本质的理解:如何让模型真正理解因果关系、如何进行高效的推理时计算、如何构建可持续的数据生态。作为技术人,与其焦虑参数竞赛,不如静下心把每一个flop用在刀刃上。毕竟,好的模型不是赢在参数量,而是赢在“每一根参数都举足轻重”。