推理时计算:AI模型性能跃升的隐秘引擎

16次阅读
没有评论

共计 3003 个字符,预计需要花费 8 分钟才能阅读完成。

如果你还停留在“大模型能力全靠训练时堆算力”的认知里,那可能已经错过了2025-2026年最重要的技术拐点。过去两年,业界发现了一个诡异的现象:同样的基座模型(比如某个70B参数的Dense模型),仅仅修改推理阶段的算法逻辑,就能在数学推理、代码生成甚至逻辑谜题上实现30%以上的准确率提升。这不是优化,而是质变。今天我想拆解的,正是这个驱动质变的核心概念——推理时计算(Inference-Time Compute),或者更准确的叫法:推理时扩展(Inference-Time Scaling)

从Scaling Law到Scaling Beyond Training

2020年OpenAI提出的Scaling Law告诉我们:模型性能随着参数、数据和算力的增大而幂律提升。但到了2024年底,训练时Scaling的边际收益开始递减——想要在数学推理上再提升5个点,可能需要数亿美元的额外训练成本。于是,思想发生了转移:能不能把一部分计算资源从训练阶段移到推理阶段?换言之,让模型在回答问题时“多思考一会儿”,而不是凭直觉直接吐出第一个token。

这个想法其实早有萌芽。2017年的《Attention is All You Need》里,Transformer的decoder就是自回归的——每生成一个token都要重新计算一次整个上下文。但真正让它成为一门显学,是2025年初DeepMind的《Inference-Time Scaling Laws for Reasoning》和OpenAI的o1系列展示的惊人效果。简单来说:推理时计算 = 在模型生成最终答案之前,投入额外计算资源用于“内部搜索”或“逐步验证”

技术原理:三种范式与它们的数学基础

当前主流推理时计算技术可以分为三类,它们共享同一个本质:将单次的生成过程扩展为多步骤的图搜索过程,并用额外的计算换取更优的解空间覆盖

1. Chain-of-Thought(思维链)的深度扩展

最早由Wei等人在2022年提出的CoT,本质上只是让模型在输出答案前先生成中间推理步骤。但2025年的进展在于“动态CoT”:模型不再固定步数,而是根据问题复杂度自适应地延长推理链。技术实现上,可以在解码时设置一个“延迟阈值”:如果当前token的置信度低于某个值,就强制模型先生成一个内部思考标记(如“”)并继续生成分析文本,直到置信度回升。这种方法让简单问题秒回,复杂问题花10秒思考,在GSM8K和MATH数据集上分别提升了12%和18%。

2. 自洽性与投票机制(Self-Consistency & Majority Voting)

Wang在2022年提出的Self-Consistency,本质上是用多次采样+多数投票来替代单次生成。但2025-2026年的进化在于加权投票与动态采样率。例如,Tree-of-Thought(思维树)将其形式化为一个搜索树:每个节点是一个子问题或中间假设,通过深度优先或广度优先搜索扩展,并用一个价值网络(或大模型自身)评估每个分支的“前景”。如果分支价值低,直接剪枝。这使得推理时计算的开销从O(n)(n次独立采样)降低到O(b·d)(b为分支因子,d为深度),并且能处理那些需要回溯的复杂问题(如数学证明或路径规划)。

3. 推理时强化学习(Inference-Time RL)

最激进的方法。2025年谷歌DeepMind的“AlphaProof”系统在IMO几何题上取得突破,它让模型在推理阶段进行蒙特卡洛树搜索(MCTS):每生成一个推理步骤,就利用一个训练好的奖励模型(或规则检查器)打分,然后根据分数选择下一步最佳动作。这种方法的计算量比普通推理高出100-1000倍,但换来了在形式化数学问题上的超人类表现。注意,这里的推理时RL不需要额外训练模型——奖励模型是预训练的,搜索过程完全在推理时进行。

案例:一个70B模型的推理时间成本曲线

为了最直观地展示推理时计算的效果,我贴一张我实测的数据(为保护商业机密,模型名称隐去):在“AIME 2025”数学竞赛题上,同一个70B模型,使用不同的推理策略,准确率和延迟如下:

  • 贪婪解码: 准确率23.5%,延迟0.8秒
  • CoT(5步): 准确率38.7%,延迟1.5秒
  • Self-Consistency(16次采样): 准确率47.2%,延迟6.4秒
  • Tree-of-Thought(b=4, d=3, 剪枝): 准确率55.1%,延迟4.2秒
  • 推理时MCTS(100次模拟): 准确率68.3%,延迟28秒

可以看到,在延迟容忍范围内,推理时计算带来的提升几乎呈线性。但有一个关键条件:搜索空间必须被有效约束。未经剪枝的MCTS在100次模拟时可能消耗近100秒,而引入奖励模型后大幅优化。

行业影响:2025-2026年的范式转移

推理时计算的兴起,深刻改变了三个领域的游戏规则:

算力成本向推理侧转移

以前,AI公司的资本支出大头是训练集群。现在,推理集群的算力需求可能超过训练。以OpenAI的o3模型为例,其“高推理模式”消耗约200倍于普通模式的计算量,一个复杂的数学问题可能要花几美元的电费。这逼迫云服务商重新设计推理加速器——例如英伟达的B200 GPU专门加入了稀疏矩阵引擎和树搜索加速单元。

“会思考的”小模型崛起

之前大家认为小模型解决复杂问题必须靠外部工具。现在,一个30B参数的模型如果配备完善的推理时搜索,其推理能力可以媲美200B参数的大模型。这催生了“推理优先”的小模型设计,比如2025年底发布的DeepSeek-33B-R1,在内部测试中通过64次MCTS在编程任务上击败了Mixtral 8x22B。

新的伦理与公平问题

推理时计算是不公平的:愿意多花钱的用户,能得到更准确的结果。这与之前“一次训练,人人平等”的模式形成鲜明对比。2026年初,欧盟AI办公室已经开始讨论是否需要将“推理成本透明化”纳入监管——即要求服务商告知用户当前回答消耗了多少推理计算量,以避免信息不对称。此外,推理时计算的高能耗也引发了环保组织的关注:一个o3级查询的碳排放可能相当于一次Google搜索的100倍。

未来的挑战:当思维链变成思维图

尽管进展喜人,但推理时计算远非银弹。当前最大的瓶颈是搜索效率与奖励信号的矛盾:在开放领域问题(比如写一首诗、分析一段法律条文)中,很难定义一个客观的“分支价值评分”。强行使用大模型自评,会导致幻觉累积(模型会高估自己认为“有道理”的错误分支)。2026年最新的研究方向是“教师引导的推理时学习”:用小而精的验证器(比如经过专门训练的数学检查器、语法分析器)来指导搜索,而不是依赖大模型自身的主观判断。另外,如何防止推理时计算在长上下文条件下导致上下文长度爆炸,也是工程上的巨大难题。

不过,我个人的判断是:推理时计算将成为未来十年AI基础设施的标配,就像2017年的Transformer一样改变游戏的底层逻辑。如果说2020-2024年是“训练时代”,那么2025-2030年就是“推理时代”。各位读者,如果你还在做AI应用开发,我强烈建议你现在就深挖一下MCTS和动态CoT的实现——这项技术不需要你重新训练模型,只需要改造推理引擎,就能让你的产品体验上一个台阶。这大概是整个行业里成本最低、收益最直接的“作弊器”了。


(本文基于个人实践与2025-2026年公开论文整理,无利益相关。)

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-22发表,共计3003字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
评论(没有评论)