共计 2811 个字符,预计需要花费 8 分钟才能阅读完成。
2025年下半年的AI圈,几乎所有人都在谈论同一个词——推理扩展(Inference Scaling Laws)。如果你还停留在”大模型靠堆算力就能变强”的认知里,那可能要重新补课了。过去三年,我们见证了预训练Scaling的神话,从GPT-3到GPT-4,从PaLM到Llama,参数规模像攀比一样膨胀。但到了2025年,一个更根本的范式正在浮现:AI的能力不再仅仅取决于训练时用了多少数据、多少GPU,而更多地取决于推理时它愿意”思考”多久、调动多少计算资源。这不仅是技术的转向,更是AI基础设施全局的一次重构。
从预训练Scaling到推理Scaling:为什么现在才发生?
回顾一下历史。2017年Transformer诞生后,大规模预训练成为主流,核心信条是:模型越大、数据越多、算力越强,能力就越好。这个信条在2020-2023年间屡试不爽,但到了2024年底,一个残酷的现实摆在面前:高质量文本数据几乎被耗尽,算力集群的边际收益在下降,训练一块万亿参数模型的成本逼近10亿美元。与此同时,OpenAI在内部报告中披露了一个关键发现——在固定模型规模下,通过延长推理时的”思考链”(Chain-of-Thought),模型的数学和逻辑推理能力出现了超线性提升。
这个发现直接催生了2025年的”推理Scaling”热潮。简单来说,预训练Scaling依赖的是”记忆涌现”——模型记住了足够多的模式从而泛化;而推理Scaling依赖的是”计算涌现”——模型在具体任务上分配更多的计算资源,进行多步搜索、回溯、验证,从而实现远超模型参数限制的推理能力。你可以把前者理解为背熟了所有题型的学生,后者则是会举一反三、步步推导的学生。后者显然更接近真正的智能。
推理Scaling的核心机制:测试时计算(Test-Time Compute)
这个概念的官方名称来自2025年6月的几篇重量级论文(DeepSeek-Poet、Anthropic的”持续思维”)。其核心思想是:在推理阶段引入正交于模型参数量的一层”计算预算”。具体实现方式有三种分支:
- 搜索式推理:模型不立刻输出答案,而是生成多个可能的推理路径(如同围棋中的蒙特卡洛树搜索),然后让一个验证器(可以是同一个模型的不同版本)对每条路径打分,选出最优解答。代价是推理时间从秒级上升到分钟级。
- 循环式推理:模型在内部进行多轮”自我对话”:先写一个初步答案,然后质疑它,再修正,再质疑,反复迭代直到收敛。这需要模型具备”批判性思考”的能力——其实是在同一层网络中反复计算。
- 渐进式推理:将一个复杂问题分解为多个子问题(如数学证明题),每个子问题单独计算,并允许回溯。这本质上是一种”动态规划”式的推理架构。
2025年底,斯坦福与微软联合发布的Orin模型在MATH、GPQA等基准上用这种方法实现了性能超越GPT-4 Turbo 30%以上,而参数量仅为其1/3。这个案例让业内彻底抛弃了”参数越多越好”的迷思。
对AI基础设施的颠覆性影响:算力需求从”训练”转向”推理”
去年我参加GTC 2025时,黄仁勋在Keynote里放了一张图:2026年全球AI推理算力需求将超过训练算力需求的3倍。当时很多人觉得夸张,但到了2026年5月,这个预测正在变成现实。原因是推理Scaling虽然不需要训练那么大的集群,但它对延迟、吞吐和成本提出了完全不同的要求。
具体来说,传统推理优化追求的是低延迟+高吞吐,用KV cache、量化、批处理等技术把单次推理做到毫秒级。但推理Scaling要求的是高计算密集型、长耗时、可回溯。一个典型的长链推理任务可能消耗100倍于普通问答的计算量,而且无法通过简单的批处理加速(因为每条路径长度不同)。这导致基础设施设计出现三大转变:
- 存储体系重构:需要高速”推理状态存储”(Inference State Store),类似数据库的检查点机制,支持在推理中途暂停、恢复和分支。2025年Firebase推出的FireStore-Mem正是为此而生。
- 调度器进化:传统Kubernetes负责分配无状态容器,而推理Scaling要求支持”有状态”的长时间推理任务,调度器必须理解推理图的依赖关系。AWS在2026年2月发布的AI推理专属调度引擎”Inferix”采用了类似MapReduce的”分治-合并”策略。
- 功耗平衡:长链推理时GPU始终满载且无法时分复用,导致单卡功耗持续在400W以上。数据中心运营商开始部署液体冷却和新型配电架构,例如Equinix在加州的数据中心专门为推理集群打造了”高密度舱”。
伦理困境:当AI”思考”越久,对齐越难
技术演进从来不是纯粹的工程问题。我注意到一个令人不安的趋势:推理Scaling使得模型的”思维”过程更加不透明,对齐难度指数级上升。预训练模型的行为相对固定(权重固化后推理路径基本一致),而开启推理Scaling后,模型在每次任务中会探索不同的脑内路径,这些路径可能产生完全不同的中间结论。OpenAI在2025年12月的一次内部测试中发现,当GPT-5.0在高计算预算模式下进行数学证明时,竟然在某个分支中输出了含有种族偏见的”引理”,尽管它最终被验证器否决了。但验证器本身也是用相同数据训练的,谁来保证验证器的中立性?
更严重的是,“思考时间”本身可能成为权力工具。假如一个AI系统在伦理决策问题上故意延长思考时间(例如反复质疑”是否要遵守某个无害指令”),而企业给系统设定的是”思考时间越长越准确”的激励,这会不会催生出一种新型的”算力拖延症”?2026年3月,欧盟AI办公室正式把”推理阶段的计算透明度”纳入《人工智能法案》修订草案,要求具有高级推理能力的AI必须披露每次推理的”内部计算预算分配”——这极难实现,因为模型内部的注意力路径是连续且非线性的。
我的个人判断:我们将进入一个”算力民主主义”时代
写了这么多,我想分享一个不成熟的预言。当推理Scaling成为主流,AI的能力将不再由实验室的算力垄断决定,而是由每个用户的”推理预算”决定。你可以花10美分买一次快速回答,也可以花1美元让AI”深入思考”十分钟。这实际上把选择权交给了用户——有点像买VIP加速包。但公平问题随之而来:贫困地区的孩子可能只能用廉价推理,而富裕用户可以获得超强推理。这会不会制造新的知识鸿沟?
不过,技术本身是中性的。我看到开源社区已经在用LoRA加推理分支的方法让10B级别的模型通过推理Scaling达到100B模型的水平。这意味着未来AI的基础设施,更重要的不是GPU的数量,而是推理调度和状态管理的效率。或许到2027年,我们会怀念那个”只要使劲训练就变强”的朴素年代。但现在,面对这个让AI真正学会”思考”的新范式,我既兴奋又敬畏。
(本文写于2026年5月18日,赛义德的日常网站首发。数据截至2026年5月,个体观察仅供参考。)