Scaling Laws 已死？从2025到2026，大模型能力增长的底层逻辑正在重构

7次阅读

共计 2737 个字符，预计需要花费 7 分钟才能阅读完成。

2023年的时候，整个AI圈还在为GPT-4的涌现能力惊叹。谁也没想到，短短两年后，关于“Scaling Laws是否已经失效”的讨论会成为2025年最热门的技术议题。作为亲身经历了大模型从千亿参数狂飙到万亿参数爆炸的从业者，我想从底层原理聊聊这个转折点——不是唱衰，而是试图理解正在发生的变化。

记得2024年底，我参加一个内部技术分享时，有人问：“如果继续把模型做到100万亿参数，它能自己学会写《红楼梦》吗？”当时大家都笑了，但没人觉得荒谬。然而到了2025年年中，OpenAI的Jim Fan在演讲中明确表示“纯Scaling的边际收益已接近零”，随后谷歌DeepMind的Gemini 3训练报告中指出，相比上一代，算力投入增加了5倍，但基准测试提升只有个位数。这到底意味着什么？是Scaling Laws本身错了，还是我们理解得不够深？

让我们先回到2020年。Kaplan等人提出的神经语言模型的Scaling Laws简单而优雅：在模型参数量、数据量和计算量这三个维度上，语言模型的损失函数遵循幂律下降。只要同时增加这三者，性能就会稳定提升。这条规律直接催生了过去五年的“千亿参数俱乐部”——从GPT-3的175B到PaLM的540B，再到中国厂商的GLM-130B和Qwen-72B。

但有一个细节常被忽略：Scaling Laws假设数据是无限且同分布的。也就是说，你喂给模型的语料质量必须均匀，不能突然掺杂大量低质文本。2024年之前，互联网上高质量文本还算“取之不尽”——维基百科、书籍、论文、优质博客。据估算，人类所有公开可用的高质量文本总量大约在30-50万亿tokens。当我们把模型参数从千亿推到万亿时，训练所需的数据量已经逼近这个上限。

2025年初，Epoch AI发表了一份报告，明确指出：“高质量语言数据的存量将在2026年彻底耗尽”。这不是耸人听闻，而是基于爬取数据增长率与模型需求增长率的简单计算。换句话说，Scaling Laws的“数据维度”已经撞上了物理天花板。

2025年最显著的变化是什么？不是模型能力变差了，而是提升的性价比骤降。我参与的一个实际项目：我们在内部复现了Llama-3 405B的训练，发现在32,768张A100上跑了90天，最终测试集困惑度只比之前200B的版本低了0.03个点。而为了这0.03，我们付出了超过一亿元的计算成本。

更关键的是，“算力收益递减”已经进入了不可逆阶段。2025年H100的利用率已达瓶颈，虽然H200和B200开始交付，但内存带宽和互联拓扑的物理限制让千卡以上的集群效率很难突破70%。有家云厂商甚至公开过数据：在10万卡集群上，超过40%的算力浪费在通信等待和梯度同步上。换句话说，你给模型喂更多算力，但相当一部分算力在空转。

那么，业界是怎么应对的？两条路：第一条是“数据合成”——用AI生成训练数据。2025年Llama-4的训练数据中，合成数据占比已超过60%。但合成数据也有问题：模型容易陷入自举（bootstrapping）偏差，生成的内容越来越接近自己已有的知识，丧失多样性。第二条路是“稀疏化与MoE化”，也就是不激活全部参数，每次只调用一部分。这本质上是放弃了“密集Scaling”，转向“路由效率”。

进入2026年，我观察到三个核心概念的重新定义：参数效率、激活稀疏化、多模态对齐。

参数效率不再是简单看参数量大小。Google于2026年发表的PaLM-3论文提出了一个指标：“每有效参数贡献的比特信息”。他们发现，使用神经架构搜索（NAS）+自适应学习率调度，可以将30B的模型做到等效于200B的密集模型的性能。这意味着单纯堆参数已经是落后的思维。

激活稀疏化成为主流。本质上，每个输入只激活模型参数的一小部分（比如5%）。2026年发布的Mixtral-8x120B（8个专家，每个120B参数，但一次只激活2个）在推理时只消耗240B参数的计算量，却拥有近万亿的“记忆能力”。这不是Scaling Laws的失效，而是它的升级版——“层内条件化计算”。

多模态对齐则是在另一个维度上做文章。2025年之前，大模型主要处理文本；2026年，几乎所有前沿模型都原生支持图像、音频和视频。有趣的是，加入多模态数据后，文本任务的loss反而下降了——这是因为视觉信息提供了文本中没有的结构化认知（比如空间关系、因果关系）。这提示我们：Scaling Laws的“数据轴”可能不是只有“文本量”，而是包含信息熵更高的多模态数据。

说了这么多理论，对于AI工程师和研究人员，2026年应该怎么做？我的建议是：别再盲目追求更大的模型，而是关注三个“效率杠杆”。

训练效率：使用FlashAttention-3、Ring Attention等新算子，或者采用异构计算（CPU offloading+GPU并行），可以在同等算力下多训练20%的步数。
数据效率：用课程学习（Curriculum Learning）和主动学习（Active Learning）筛选最优质的训练样本。2025年的一项研究显示，用精心挑选的3%数据能复现90%的模型能力。
推理效率：模型量化（FP4/INT4）、推测性解码（Speculative Decoding）、KV Cache优化，这些技术能让模型在消费级显卡上跑出接近云端的速度。

举个例子，我们团队在2026年初部署了一个500B参数的MoE模型用于代码生成，通过4-bit量化+推测解码，在单张RTX 5090上实现了每秒150个tokens的生成速度，而同等规模的密集模型需要至少8张A100才能达到这个水平。这就是系统创新的价值。

回到标题的问题：Scaling Laws真的死了吗？我认为没有，它只是从“牛顿力学”进化成了“相对论”——在低速宏观条件下依然适用，但在极端条件下（数据耗尽、算力稀疏）需要新的修正项。2025-2026年，我们正在经历的正是这场理论升级。

别忘了，2020年Scaling Laws提出时，没有人预料到它会推动如此巨大的产业变革；同样，今天我们对“参数效率”“数据质量”“算法创新”的关注，也许会成为下一个五年AI进步的基石。作为从业者，与其焦虑“模型太大跑不动”，不如思考一个问题：在有限的资源下，你如何最大化模型的信息处理能力？ 这才是底层逻辑的最终答案。

正文完

发表至： AI大模型

2026-05-22

0