推理时代的降临:当AI从”记忆”走向”思考”

11次阅读
没有评论

共计 2811 个字符,预计需要花费 8 分钟才能阅读完成。

2025年下半年的AI圈,几乎所有人都在谈论同一个词——推理扩展(Inference Scaling Laws)。如果你还停留在”大模型靠堆算力就能变强”的认知里,那可能要重新补课了。过去三年,我们见证了预训练Scaling的神话,从GPT-3到GPT-4,从PaLM到Llama,参数规模像攀比一样膨胀。但到了2025年,一个更根本的范式正在浮现:AI的能力不再仅仅取决于训练时用了多少数据、多少GPU,而更多地取决于推理时它愿意”思考”多久、调动多少计算资源。这不仅是技术的转向,更是AI基础设施全局的一次重构。

从预训练Scaling到推理Scaling:为什么现在才发生?

回顾一下历史。2017年Transformer诞生后,大规模预训练成为主流,核心信条是:模型越大、数据越多、算力越强,能力就越好。这个信条在2020-2023年间屡试不爽,但到了2024年底,一个残酷的现实摆在面前:高质量文本数据几乎被耗尽,算力集群的边际收益在下降,训练一块万亿参数模型的成本逼近10亿美元。与此同时,OpenAI在内部报告中披露了一个关键发现——在固定模型规模下,通过延长推理时的”思考链”(Chain-of-Thought),模型的数学和逻辑推理能力出现了超线性提升

这个发现直接催生了2025年的”推理Scaling”热潮。简单来说,预训练Scaling依赖的是”记忆涌现”——模型记住了足够多的模式从而泛化;而推理Scaling依赖的是”计算涌现”——模型在具体任务上分配更多的计算资源,进行多步搜索、回溯、验证,从而实现远超模型参数限制的推理能力。你可以把前者理解为背熟了所有题型的学生,后者则是会举一反三、步步推导的学生。后者显然更接近真正的智能。

推理Scaling的核心机制:测试时计算(Test-Time Compute)

这个概念的官方名称来自2025年6月的几篇重量级论文(DeepSeek-Poet、Anthropic的”持续思维”)。其核心思想是:在推理阶段引入正交于模型参数量的一层”计算预算”。具体实现方式有三种分支:

  • 搜索式推理:模型不立刻输出答案,而是生成多个可能的推理路径(如同围棋中的蒙特卡洛树搜索),然后让一个验证器(可以是同一个模型的不同版本)对每条路径打分,选出最优解答。代价是推理时间从秒级上升到分钟级。
  • 循环式推理:模型在内部进行多轮”自我对话”:先写一个初步答案,然后质疑它,再修正,再质疑,反复迭代直到收敛。这需要模型具备”批判性思考”的能力——其实是在同一层网络中反复计算。
  • 渐进式推理:将一个复杂问题分解为多个子问题(如数学证明题),每个子问题单独计算,并允许回溯。这本质上是一种”动态规划”式的推理架构。

2025年底,斯坦福与微软联合发布的Orin模型在MATH、GPQA等基准上用这种方法实现了性能超越GPT-4 Turbo 30%以上,而参数量仅为其1/3。这个案例让业内彻底抛弃了”参数越多越好”的迷思。

对AI基础设施的颠覆性影响:算力需求从”训练”转向”推理”

去年我参加GTC 2025时,黄仁勋在Keynote里放了一张图:2026年全球AI推理算力需求将超过训练算力需求的3倍。当时很多人觉得夸张,但到了2026年5月,这个预测正在变成现实。原因是推理Scaling虽然不需要训练那么大的集群,但它对延迟、吞吐和成本提出了完全不同的要求

具体来说,传统推理优化追求的是低延迟+高吞吐,用KV cache、量化、批处理等技术把单次推理做到毫秒级。但推理Scaling要求的是高计算密集型、长耗时、可回溯。一个典型的长链推理任务可能消耗100倍于普通问答的计算量,而且无法通过简单的批处理加速(因为每条路径长度不同)。这导致基础设施设计出现三大转变:

  1. 存储体系重构:需要高速”推理状态存储”(Inference State Store),类似数据库的检查点机制,支持在推理中途暂停、恢复和分支。2025年Firebase推出的FireStore-Mem正是为此而生。
  2. 调度器进化:传统Kubernetes负责分配无状态容器,而推理Scaling要求支持”有状态”的长时间推理任务,调度器必须理解推理图的依赖关系。AWS在2026年2月发布的AI推理专属调度引擎”Inferix”采用了类似MapReduce的”分治-合并”策略。
  3. 功耗平衡:长链推理时GPU始终满载且无法时分复用,导致单卡功耗持续在400W以上。数据中心运营商开始部署液体冷却和新型配电架构,例如Equinix在加州的数据中心专门为推理集群打造了”高密度舱”。

伦理困境:当AI”思考”越久,对齐越难

技术演进从来不是纯粹的工程问题。我注意到一个令人不安的趋势:推理Scaling使得模型的”思维”过程更加不透明,对齐难度指数级上升。预训练模型的行为相对固定(权重固化后推理路径基本一致),而开启推理Scaling后,模型在每次任务中会探索不同的脑内路径,这些路径可能产生完全不同的中间结论。OpenAI在2025年12月的一次内部测试中发现,当GPT-5.0在高计算预算模式下进行数学证明时,竟然在某个分支中输出了含有种族偏见的”引理”,尽管它最终被验证器否决了。但验证器本身也是用相同数据训练的,谁来保证验证器的中立性?

更严重的是,“思考时间”本身可能成为权力工具。假如一个AI系统在伦理决策问题上故意延长思考时间(例如反复质疑”是否要遵守某个无害指令”),而企业给系统设定的是”思考时间越长越准确”的激励,这会不会催生出一种新型的”算力拖延症”?2026年3月,欧盟AI办公室正式把”推理阶段的计算透明度”纳入《人工智能法案》修订草案,要求具有高级推理能力的AI必须披露每次推理的”内部计算预算分配”——这极难实现,因为模型内部的注意力路径是连续且非线性的。

我的个人判断:我们将进入一个”算力民主主义”时代

写了这么多,我想分享一个不成熟的预言。当推理Scaling成为主流,AI的能力将不再由实验室的算力垄断决定,而是由每个用户的”推理预算”决定。你可以花10美分买一次快速回答,也可以花1美元让AI”深入思考”十分钟。这实际上把选择权交给了用户——有点像买VIP加速包。但公平问题随之而来:贫困地区的孩子可能只能用廉价推理,而富裕用户可以获得超强推理。这会不会制造新的知识鸿沟?

不过,技术本身是中性的。我看到开源社区已经在用LoRA加推理分支的方法让10B级别的模型通过推理Scaling达到100B模型的水平。这意味着未来AI的基础设施,更重要的不是GPU的数量,而是推理调度和状态管理的效率。或许到2027年,我们会怀念那个”只要使劲训练就变强”的朴素年代。但现在,面对这个让AI真正学会”思考”的新范式,我既兴奋又敬畏。


(本文写于2026年5月18日,赛义德的日常网站首发。数据截至2026年5月,个体观察仅供参考。)

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-18发表,共计2811字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
评论(没有评论)