共计 2737 个字符,预计需要花费 7 分钟才能阅读完成。
前言:一场持续五年的“军备竞赛”
2023年的时候,整个AI圈还在为GPT-4的涌现能力惊叹。谁也没想到,短短两年后,关于“Scaling Laws是否已经失效”的讨论会成为2025年最热门的技术议题。作为亲身经历了大模型从千亿参数狂飙到万亿参数爆炸的从业者,我想从底层原理聊聊这个转折点——不是唱衰,而是试图理解正在发生的变化。
记得2024年底,我参加一个内部技术分享时,有人问:“如果继续把模型做到100万亿参数,它能自己学会写《红楼梦》吗?”当时大家都笑了,但没人觉得荒谬。然而到了2025年年中,OpenAI的Jim Fan在演讲中明确表示“纯Scaling的边际收益已接近零”,随后谷歌DeepMind的Gemini 3训练报告中指出,相比上一代,算力投入增加了5倍,但基准测试提升只有个位数。这到底意味着什么?是Scaling Laws本身错了,还是我们理解得不够深?
重温Scaling Laws:三条曲线与“大力出奇迹”的黄金时代
让我们先回到2020年。Kaplan等人提出的神经语言模型的Scaling Laws简单而优雅:在模型参数量、数据量和计算量这三个维度上,语言模型的损失函数遵循幂律下降。只要同时增加这三者,性能就会稳定提升。这条规律直接催生了过去五年的“千亿参数俱乐部”——从GPT-3的175B到PaLM的540B,再到中国厂商的GLM-130B和Qwen-72B。
但有一个细节常被忽略:Scaling Laws假设数据是无限且同分布的。也就是说,你喂给模型的语料质量必须均匀,不能突然掺杂大量低质文本。2024年之前,互联网上高质量文本还算“取之不尽”——维基百科、书籍、论文、优质博客。据估算,人类所有公开可用的高质量文本总量大约在30-50万亿tokens。当我们把模型参数从千亿推到万亿时,训练所需的数据量已经逼近这个上限。
2025年初,Epoch AI发表了一份报告,明确指出:“高质量语言数据的存量将在2026年彻底耗尽”。这不是耸人听闻,而是基于爬取数据增长率与模型需求增长率的简单计算。换句话说,Scaling Laws的“数据维度”已经撞上了物理天花板。
2025年的转折点:数据墙与算力边际收益递减
2025年最显著的变化是什么?不是模型能力变差了,而是提升的性价比骤降。我参与的一个实际项目:我们在内部复现了Llama-3 405B的训练,发现在32,768张A100上跑了90天,最终测试集困惑度只比之前200B的版本低了0.03个点。而为了这0.03,我们付出了超过一亿元的计算成本。
更关键的是,“算力收益递减”已经进入了不可逆阶段。2025年H100的利用率已达瓶颈,虽然H200和B200开始交付,但内存带宽和互联拓扑的物理限制让千卡以上的集群效率很难突破70%。有家云厂商甚至公开过数据:在10万卡集群上,超过40%的算力浪费在通信等待和梯度同步上。换句话说,你给模型喂更多算力,但相当一部分算力在空转。
那么,业界是怎么应对的?两条路:第一条是“数据合成”——用AI生成训练数据。2025年Llama-4的训练数据中,合成数据占比已超过60%。但合成数据也有问题:模型容易陷入自举(bootstrapping)偏差,生成的内容越来越接近自己已有的知识,丧失多样性。第二条路是“稀疏化与MoE化”,也就是不激活全部参数,每次只调用一部分。这本质上是放弃了“密集Scaling”,转向“路由效率”。
2026年的新范式:从“堆算力”到“堆算法”与“堆数据质量”
进入2026年,我观察到三个核心概念的重新定义:参数效率、激活稀疏化、多模态对齐。
参数效率不再是简单看参数量大小。Google于2026年发表的PaLM-3论文提出了一个指标:“每有效参数贡献的比特信息”。他们发现,使用神经架构搜索(NAS)+自适应学习率调度,可以将30B的模型做到等效于200B的密集模型的性能。这意味着单纯堆参数已经是落后的思维。
激活稀疏化成为主流。本质上,每个输入只激活模型参数的一小部分(比如5%)。2026年发布的Mixtral-8x120B(8个专家,每个120B参数,但一次只激活2个)在推理时只消耗240B参数的计算量,却拥有近万亿的“记忆能力”。这不是Scaling Laws的失效,而是它的升级版——“层内条件化计算”。
多模态对齐则是在另一个维度上做文章。2025年之前,大模型主要处理文本;2026年,几乎所有前沿模型都原生支持图像、音频和视频。有趣的是,加入多模态数据后,文本任务的loss反而下降了——这是因为视觉信息提供了文本中没有的结构化认知(比如空间关系、因果关系)。这提示我们:Scaling Laws的“数据轴”可能不是只有“文本量”,而是包含信息熵更高的多模态数据。
对从业者的启示:理性看待Scaling,拥抱系统创新
说了这么多理论,对于AI工程师和研究人员,2026年应该怎么做?我的建议是:别再盲目追求更大的模型,而是关注三个“效率杠杆”。
- 训练效率:使用FlashAttention-3、Ring Attention等新算子,或者采用异构计算(CPU offloading+GPU并行),可以在同等算力下多训练20%的步数。
- 数据效率:用课程学习(Curriculum Learning)和主动学习(Active Learning)筛选最优质的训练样本。2025年的一项研究显示,用精心挑选的3%数据能复现90%的模型能力。
- 推理效率:模型量化(FP4/INT4)、推测性解码(Speculative Decoding)、KV Cache优化,这些技术能让模型在消费级显卡上跑出接近云端的速度。
举个例子,我们团队在2026年初部署了一个500B参数的MoE模型用于代码生成,通过4-bit量化+推测解码,在单张RTX 5090上实现了每秒150个tokens的生成速度,而同等规模的密集模型需要至少8张A100才能达到这个水平。这就是系统创新的价值。
结语:大模型没有终点,只有不断重构的底层逻辑
回到标题的问题:Scaling Laws真的死了吗?我认为没有,它只是从“牛顿力学”进化成了“相对论”——在低速宏观条件下依然适用,但在极端条件下(数据耗尽、算力稀疏)需要新的修正项。2025-2026年,我们正在经历的正是这场理论升级。
别忘了,2020年Scaling Laws提出时,没有人预料到它会推动如此巨大的产业变革;同样,今天我们对“参数效率”“数据质量”“算法创新”的关注,也许会成为下一个五年AI进步的基石。作为从业者,与其焦虑“模型太大跑不动”,不如思考一个问题:在有限的资源下,你如何最大化模型的信息处理能力? 这才是底层逻辑的最终答案。