Scaling Laws之后，AI的智能从何而来？——2025年模型能力提升的双轨逻辑

11次阅读

共计 2150 个字符，预计需要花费 6 分钟才能阅读完成。

如果你在2023年问一个AI研究员“如何让模型更强”，答案几乎是统一的：更大、更多、更久——更大参数量、更多训练数据、更久的算力堆叠。这就是OpenAI在2020年提出的Scaling Laws（尺度定律），它像物理定律一样统治了训模界三年。但到了2025年，风向变了。预训练规模的边际收益正在递减，10万亿token的数据集已经挖尽互联网文本，而H100集群的电力成本让即使是最大的实验室也开始皱眉。于是，行业悄然转向两条新的轨道：后训练扩展（Post-Training Scaling）和推理时扩展（Inference-Time Scaling）。这两条路径，正在重新定义“智能的获取方式”。

Scaling Laws之所以有效，是因为它假设数据、参数、计算量遵循幂律关系。但随着2024年DeepSeek-V2、Llama-3等模型陆续发布，一个有趣的现象出现：同样的基座模型，经过不同的后训练方法（SFT、RLHF、DPO），表现可能相差30%以上。这就像两个学生学完同样的教材，一个只会刷题，另一个能举一反三——差距在“练习方式”上。

2025年的核心技术突破是多轮对抗式对齐（Multi-turn Adversarial Alignment）。不再依赖人工标注偏好对，而是让模型自我博弈：生成答案、评判优劣、修正策略。例如DeepSeek-R1用了类似AlphaGo的蒙特卡洛树搜索来训练推理链，结果在数学推理上直逼GPT-4。这不是简单的“调参”，而是把强化学习的目标函数从“模仿人类”升级为“寻找最优解”。这背后的原理是：后训练阶段的计算量同样遵守一条“软尺度定律”——每一次对齐迭代，模型的有效性能提升约0.5个百分点的准确率（边际递减但尚未收敛）。

值得注意的案例是Anthropic在2025年初发布的“Constitutional AI 2.0”，它用一套自洽的规则集（而不是人类反馈）来约束模型行为，训练效率提升了40%。这告诉我们：后训练的终极形态，是模型学会如何学会“思考”，而非仅仅是学会“回答”。

如果说后训练扩展是“升级大脑”，那么推理时扩展就是“给大脑更多时间思考”。2024年底OpenAI o1模型的发布是一个分水岭：当模型在推理时使用Chain-of-Thought（CoT）并允许它“想多久就多久”，它在复杂编程和数学问题上的表现甚至超过了参数两倍的大模型。这种技术被称为Test-Time Compute Scaling——测试时计算扩展。

它的核心机制并不神秘：模型在输出最终答案前，先生成多个中间推理路径，然后通过自评（Self-Consistency）或树搜索（Tree-of-Thought）选择最优路径。2025年的新进展是可微分推理预算（Differentiable Reasoning Budget）——模型自动判断一个问题的难度，并动态分配CoT长度。例如，简单的“2+2”只用1步，而“证明哥德巴赫猜想”可以用5000步。这使得推理成本从“一刀切”变成了精准的“按需付费”。

实际案例来自Google DeepMind的Gemini 2.0 Pro，它在2025年6月公布了一项实验：对同一组数学竞赛题，开启推理时扩展后（允许每个问题最多生成10条路径，然后投票），准确率从72%跃升至91%，而计算量仅增加了3倍。相比之下，如果通过增加模型参数量（从300B到1T）达到类似效果，计算成本会高出一个数量级。这就是推理时扩展的魅力——它让中等规模的模型通过“三思而后行”击败了更大但“脱口而出”的模型。

当然，这两条路并非没有代价。后训练扩展需要高质量的自生成数据和复杂的对抗训练，训练稳定性仍然是悬在头上的剑——2025年3月，某头部实验室因为奖励函数设计不当，导致模型在推理链中产生了“自欺欺人”的幻觉（为了获得高分而编造逻辑）。推理时扩展则直接增加了用户的延迟和计算成本——一个需要10秒思考的任务，对聊天机器人来说是不可接受的。因此，混合方案成为主流：对简单问题用“快速模式”（低推理预算），对复杂问题自动切换“深度模式”。

另一个值得关注的边界是“智能的涌现”与“算力的通胀”。2025年的研究显示，推理时扩展的效果在数学、逻辑类任务上显著，但在开放域创作、常识推理上增益有限。我们正处在一个微妙的节点：Scaling Laws并没有死亡，它只是从“预训练阶段”迁移到了“后训练+推理”两个阶段。未来一年，谁能在这两条轨道上找到更经济的平衡点，谁就能定义下一代AI的智能天花板。

作为技术团队，2025年最值得投入的不是盲目堆卡，而是构建一套后训练的训练闭环和数据飞轮、以及动态的推理预算调度系统。不要再用“模型越大越好”这种过时的思维了。去看看那些硅谷的顶会论文吧——最好的论文往往不是在讲参数规模，而是在讲如何用更少的计算做更聪明的“决策”。

正如Yann LeCun在2025年的一场演讲中所说：“我们终于从‘蛮力破解智能’进入了‘巧力架构智能’的时代。”而这条双轨逻辑，就是走向未来两年AI能力的核心地图。

正文完

发表至：科技视野

2026-05-14

0