Scaling Laws之后,AI的智能从何而来?——2025年模型能力提升的双轨逻辑

11次阅读
没有评论

共计 2150 个字符,预计需要花费 6 分钟才能阅读完成。

从“大力出奇迹”到“效率为王”

如果你在2023年问一个AI研究员“如何让模型更强”,答案几乎是统一的:更大、更多、更久——更大参数量、更多训练数据、更久的算力堆叠。这就是OpenAI在2020年提出的Scaling Laws(尺度定律),它像物理定律一样统治了训模界三年。但到了2025年,风向变了。预训练规模的边际收益正在递减,10万亿token的数据集已经挖尽互联网文本,而H100集群的电力成本让即使是最大的实验室也开始皱眉。于是,行业悄然转向两条新的轨道:后训练扩展(Post-Training Scaling)推理时扩展(Inference-Time Scaling)。这两条路径,正在重新定义“智能的获取方式”。

第一条轨:后训练——从“填鸭教育”到“刻意练习”

Scaling Laws之所以有效,是因为它假设数据、参数、计算量遵循幂律关系。但随着2024年DeepSeek-V2、Llama-3等模型陆续发布,一个有趣的现象出现:同样的基座模型,经过不同的后训练方法(SFT、RLHF、DPO),表现可能相差30%以上。这就像两个学生学完同样的教材,一个只会刷题,另一个能举一反三——差距在“练习方式”上。

2025年的核心技术突破是多轮对抗式对齐(Multi-turn Adversarial Alignment)。不再依赖人工标注偏好对,而是让模型自我博弈:生成答案、评判优劣、修正策略。例如DeepSeek-R1用了类似AlphaGo的蒙特卡洛树搜索来训练推理链,结果在数学推理上直逼GPT-4。这不是简单的“调参”,而是把强化学习的目标函数从“模仿人类”升级为“寻找最优解”。这背后的原理是:后训练阶段的计算量同样遵守一条“软尺度定律”——每一次对齐迭代,模型的有效性能提升约0.5个百分点的准确率(边际递减但尚未收敛)。

值得注意的案例是Anthropic在2025年初发布的“Constitutional AI 2.0”,它用一套自洽的规则集(而不是人类反馈)来约束模型行为,训练效率提升了40%。这告诉我们:后训练的终极形态,是模型学会如何学会“思考”,而非仅仅是学会“回答”。

第二条轨:推理时扩展——用计算换取“深思熟虑”

如果说后训练扩展是“升级大脑”,那么推理时扩展就是“给大脑更多时间思考”。2024年底OpenAI o1模型的发布是一个分水岭:当模型在推理时使用Chain-of-Thought(CoT)并允许它“想多久就多久”,它在复杂编程和数学问题上的表现甚至超过了参数两倍的大模型。这种技术被称为Test-Time Compute Scaling——测试时计算扩展。

它的核心机制并不神秘:模型在输出最终答案前,先生成多个中间推理路径,然后通过自评(Self-Consistency)或树搜索(Tree-of-Thought)选择最优路径。2025年的新进展是可微分推理预算(Differentiable Reasoning Budget)——模型自动判断一个问题的难度,并动态分配CoT长度。例如,简单的“2+2”只用1步,而“证明哥德巴赫猜想”可以用5000步。这使得推理成本从“一刀切”变成了精准的“按需付费”

实际案例来自Google DeepMind的Gemini 2.0 Pro,它在2025年6月公布了一项实验:对同一组数学竞赛题,开启推理时扩展后(允许每个问题最多生成10条路径,然后投票),准确率从72%跃升至91%,而计算量仅增加了3倍。相比之下,如果通过增加模型参数量(从300B到1T)达到类似效果,计算成本会高出一个数量级。这就是推理时扩展的魅力——它让中等规模的模型通过“三思而后行”击败了更大但“脱口而出”的模型

双轨并行的代价与边界

当然,这两条路并非没有代价。后训练扩展需要高质量的自生成数据和复杂的对抗训练,训练稳定性仍然是悬在头上的剑——2025年3月,某头部实验室因为奖励函数设计不当,导致模型在推理链中产生了“自欺欺人”的幻觉(为了获得高分而编造逻辑)。推理时扩展则直接增加了用户的延迟和计算成本——一个需要10秒思考的任务,对聊天机器人来说是不可接受的。因此,混合方案成为主流:对简单问题用“快速模式”(低推理预算),对复杂问题自动切换“深度模式”。

另一个值得关注的边界是“智能的涌现”与“算力的通胀”。2025年的研究显示,推理时扩展的效果在数学、逻辑类任务上显著,但在开放域创作、常识推理上增益有限。我们正处在一个微妙的节点:Scaling Laws并没有死亡,它只是从“预训练阶段”迁移到了“后训练+推理”两个阶段。未来一年,谁能在这两条轨道上找到更经济的平衡点,谁就能定义下一代AI的智能天花板。

尾声:从业者能做什么?

作为技术团队,2025年最值得投入的不是盲目堆卡,而是构建一套后训练的训练闭环和数据飞轮、以及动态的推理预算调度系统。不要再用“模型越大越好”这种过时的思维了。去看看那些硅谷的顶会论文吧——最好的论文往往不是在讲参数规模,而是在讲如何用更少的计算做更聪明的“决策”。

正如Yann LeCun在2025年的一场演讲中所说:“我们终于从‘蛮力破解智能’进入了‘巧力架构智能’的时代。”而这条双轨逻辑,就是走向未来两年AI能力的核心地图

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-14发表,共计2150字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
评论(没有评论)