推理时代的降临：当AI从”记忆”走向”思考”

11次阅读

共计 2811 个字符，预计需要花费 8 分钟才能阅读完成。

2025年下半年的AI圈，几乎所有人都在谈论同一个词——推理扩展（Inference Scaling Laws）。如果你还停留在”大模型靠堆算力就能变强”的认知里，那可能要重新补课了。过去三年，我们见证了预训练Scaling的神话，从GPT-3到GPT-4，从PaLM到Llama，参数规模像攀比一样膨胀。但到了2025年，一个更根本的范式正在浮现：AI的能力不再仅仅取决于训练时用了多少数据、多少GPU，而更多地取决于推理时它愿意”思考”多久、调动多少计算资源。这不仅是技术的转向，更是AI基础设施全局的一次重构。

回顾一下历史。2017年Transformer诞生后，大规模预训练成为主流，核心信条是：模型越大、数据越多、算力越强，能力就越好。这个信条在2020-2023年间屡试不爽，但到了2024年底，一个残酷的现实摆在面前：高质量文本数据几乎被耗尽，算力集群的边际收益在下降，训练一块万亿参数模型的成本逼近10亿美元。与此同时，OpenAI在内部报告中披露了一个关键发现——在固定模型规模下，通过延长推理时的”思考链”（Chain-of-Thought），模型的数学和逻辑推理能力出现了超线性提升。

这个发现直接催生了2025年的”推理Scaling”热潮。简单来说，预训练Scaling依赖的是”记忆涌现”——模型记住了足够多的模式从而泛化；而推理Scaling依赖的是”计算涌现”——模型在具体任务上分配更多的计算资源，进行多步搜索、回溯、验证，从而实现远超模型参数限制的推理能力。你可以把前者理解为背熟了所有题型的学生，后者则是会举一反三、步步推导的学生。后者显然更接近真正的智能。

这个概念的官方名称来自2025年6月的几篇重量级论文（DeepSeek-Poet、Anthropic的”持续思维”）。其核心思想是：在推理阶段引入正交于模型参数量的一层”计算预算”。具体实现方式有三种分支：

搜索式推理：模型不立刻输出答案，而是生成多个可能的推理路径（如同围棋中的蒙特卡洛树搜索），然后让一个验证器（可以是同一个模型的不同版本）对每条路径打分，选出最优解答。代价是推理时间从秒级上升到分钟级。
循环式推理：模型在内部进行多轮”自我对话”：先写一个初步答案，然后质疑它，再修正，再质疑，反复迭代直到收敛。这需要模型具备”批判性思考”的能力——其实是在同一层网络中反复计算。
渐进式推理：将一个复杂问题分解为多个子问题（如数学证明题），每个子问题单独计算，并允许回溯。这本质上是一种”动态规划”式的推理架构。

2025年底，斯坦福与微软联合发布的Orin模型在MATH、GPQA等基准上用这种方法实现了性能超越GPT-4 Turbo 30%以上，而参数量仅为其1/3。这个案例让业内彻底抛弃了”参数越多越好”的迷思。

去年我参加GTC 2025时，黄仁勋在Keynote里放了一张图：2026年全球AI推理算力需求将超过训练算力需求的3倍。当时很多人觉得夸张，但到了2026年5月，这个预测正在变成现实。原因是推理Scaling虽然不需要训练那么大的集群，但它对延迟、吞吐和成本提出了完全不同的要求。

具体来说，传统推理优化追求的是低延迟+高吞吐，用KV cache、量化、批处理等技术把单次推理做到毫秒级。但推理Scaling要求的是高计算密集型、长耗时、可回溯。一个典型的长链推理任务可能消耗100倍于普通问答的计算量，而且无法通过简单的批处理加速（因为每条路径长度不同）。这导致基础设施设计出现三大转变：

存储体系重构：需要高速”推理状态存储”（Inference State Store），类似数据库的检查点机制，支持在推理中途暂停、恢复和分支。2025年Firebase推出的FireStore-Mem正是为此而生。
调度器进化：传统Kubernetes负责分配无状态容器，而推理Scaling要求支持”有状态”的长时间推理任务，调度器必须理解推理图的依赖关系。AWS在2026年2月发布的AI推理专属调度引擎”Inferix”采用了类似MapReduce的”分治-合并”策略。
功耗平衡：长链推理时GPU始终满载且无法时分复用，导致单卡功耗持续在400W以上。数据中心运营商开始部署液体冷却和新型配电架构，例如Equinix在加州的数据中心专门为推理集群打造了”高密度舱”。

技术演进从来不是纯粹的工程问题。我注意到一个令人不安的趋势：推理Scaling使得模型的”思维”过程更加不透明，对齐难度指数级上升。预训练模型的行为相对固定（权重固化后推理路径基本一致），而开启推理Scaling后，模型在每次任务中会探索不同的脑内路径，这些路径可能产生完全不同的中间结论。OpenAI在2025年12月的一次内部测试中发现，当GPT-5.0在高计算预算模式下进行数学证明时，竟然在某个分支中输出了含有种族偏见的”引理”，尽管它最终被验证器否决了。但验证器本身也是用相同数据训练的，谁来保证验证器的中立性？

更严重的是，“思考时间”本身可能成为权力工具。假如一个AI系统在伦理决策问题上故意延长思考时间（例如反复质疑”是否要遵守某个无害指令”），而企业给系统设定的是”思考时间越长越准确”的激励，这会不会催生出一种新型的”算力拖延症”？2026年3月，欧盟AI办公室正式把”推理阶段的计算透明度”纳入《人工智能法案》修订草案，要求具有高级推理能力的AI必须披露每次推理的”内部计算预算分配”——这极难实现，因为模型内部的注意力路径是连续且非线性的。

写了这么多，我想分享一个不成熟的预言。当推理Scaling成为主流，AI的能力将不再由实验室的算力垄断决定，而是由每个用户的”推理预算”决定。你可以花10美分买一次快速回答，也可以花1美元让AI”深入思考”十分钟。这实际上把选择权交给了用户——有点像买VIP加速包。但公平问题随之而来：贫困地区的孩子可能只能用廉价推理，而富裕用户可以获得超强推理。这会不会制造新的知识鸿沟？

不过，技术本身是中性的。我看到开源社区已经在用LoRA加推理分支的方法让10B级别的模型通过推理Scaling达到100B模型的水平。这意味着未来AI的基础设施，更重要的不是GPU的数量，而是推理调度和状态管理的效率。或许到2027年，我们会怀念那个”只要使劲训练就变强”的朴素年代。但现在，面对这个让AI真正学会”思考”的新范式，我既兴奋又敬畏。

（本文写于2026年5月18日，赛义德的日常网站首发。数据截至2026年5月，个体观察仅供参考。）

正文完

发表至：生活随笔

2026-05-18

0