从“暴力计算”到“精准推理”：AI基础设施的范式转移（2025-2026）

13次阅读

共计 2642 个字符，预计需要花费 7 分钟才能阅读完成。

2025年深秋，某大模型团队在内部复盘会上公布了一组数据：他们最新一代万亿参数模型的训练成本，是2024年同类模型的3.2倍，但推理效率仅提升了17%。这个数字像一盆冷水，浇在了曾经信奉“算力即正义”的行业头上。从2018年BERT横空出世到2024年大模型军备竞赛白热化，业界习惯了一条简单粗暴的路径——用更庞大的计算集群、更密集的芯片堆叠、更长的训练时间，换取模型能力的线性增长。但2025-2026年之交，这条路径的边际效益正在急剧下滑。

这不是技术的倒退，而是一次深刻的范式转移。我把它称为从“暴力计算”到“精准推理”的跃迁。当MOE（混合专家模型）稀疏化、动态推理蒸馏、异构计算调度等概念从论文走向工程实践，AI基础设施的核心矛盾已经不再是“如何算得更快”，而是“如何算得更对、更省”。

2025年，全球前十大AI公司用于单一旗舰模型训练的平均预算已突破8亿美元，而2026年这一数字预计将超过12亿。但一个残酷的事实是：绝大多数训练投入无法直接转化为商业价值。真正产生收益的是推理——每一次用户对话、每一张生成图片、每一段代码补全。据行业估算，2026年全球AI推理算力需求将首次超过训练算力需求，达到训练需求的1.4倍左右。这意味着基础设施的设计重心必须从“支持一次几万张GPU跑三个月”转向“每天支持数十亿次毫秒级响应”。

过去，GPU似乎是万能的——既能训练也能推理。但2025年下半年，我们观察到明显的硬件架构分叉：英伟达B200系列仍主打训练，但专门用于推理的L40S和定制ASIC（如谷歌TPU v6的推理优化版）出货量猛增。更值得关注的是国内厂商，一批基于RISC-V架构的推理加速芯片在2026年第一季度实现量产，主打能效比（每瓦特完成的推理操作数）。训练和推理不再是同一张GPU上的两个模式，而是各自专属物理集群的独立生态。

传统密集模型（Dense Model）在推理时，所有参数都会被激活，无论用户问的是“1+1等于几”还是“写一篇关于量子力学的论文”。这就像用一台超级计算机去运行一个计算器程序，极其浪费。而混合专家模型（Mixture of Experts）通过稀疏激活，每次只调用少量“专家”子网络。2025年发布的MoE模型（如DeepSeek V4、Qwen3-MoE）将推理成本降低到同等性能密集模型的1/5到1/10。但MoE也给基础设施带来了新挑战：如何动态路由用户请求到正确的专家？如何避免专家负载不均导致某些GPU空闲、某些过载？

我曾在2025年11月参与某公司的MoE推理集群优化，一个核心发现是：静态路由策略完全失效。他们最初按照20%的专家容量设计，结果前三个小时只有两个专家在干活，剩下六个专家闲着。后来改用基于请求embedding相似度的动态哈希路由，配合在线专家迁移调度，总算把利用率从45%提到82%。这个案例说明，精准推理不只是算法问题，更是系统工程问题。

除了架构变化，推理侧的工程优化也在2025-2026年迎来爆发。其中最关键的两项是低精度量化（INT4/FP8）和投机解码（Speculative Decoding）。前者将模型权重从16位浮点数压缩到4位整数，推理速度提升3-4倍，代价是精度损失可控在1%以内；后者通过一个轻量小模型先快速生成多个候选token，再由大模型进行校验，一次性输出多个正确token，在保持质量前提下延迟降低50%。2026年，大部分云厂商的推理实例默认开启这两项技术，用户甚至感知不到——他们只知道“AI变快了”，而背后是基础设施层对每一比特的极致压榨。

2025年6月，微软公布其最新一代AI数据中心单日峰值功耗达到120兆瓦，相当于一个小型城市的居民用电。全年碳排放估算超过30万吨二氧化碳当量。更值得深思的是，其中有相当比例的算力用于“无效训练”——比如大量重复试错实验，或者为了发论文而进行的对比基准测试。作为一个从业者，我常在开源社区看到有人抱怨“为什么不能少训一些无意义的模型？”2026年，全球AI算力年增速预计为40%，而可再生能源发电增速仅8%。如果不改变，AI行业将在2030年消耗全球10%的电力。

我认为，“精准推理”不仅是效率问题，更是一个事实上的伦理立场。当每个请求都能被更高效地服务，就不需要额外部署3倍冗余算力来应对峰值；当模型可以通过投机解码一次完成多个步骤，就不需要反复来回调用API。2025年底，欧盟AI法案修订版明确要求：AI服务提供商必须披露其单次推理的能量消耗，超过一定阈值须进行能效优化。这不是道德绑架，而是用法律倒逼产业走向更可持续的“精准范式”。

基于过去两年的一线观察，我对未来AI基础设施有几点判断：
– 推理芯片将百花齐放：2026年，除了英伟达、AMD、谷歌，至少还有5家中国芯片厂商将推出专为MoE和稀疏架构优化的推理CPU/ASIC，能效比每年提升50%。
– 冷却技术从“炫技”回归实用：液冷不再是数据中心标配，而是按需选择。2026年大量中等规模训练集群采用低成本浸没式液冷，而推理集群回归风冷+高效热管，因为推理平均功耗远低于训练。
– 基础设施编排软件成为最值钱的能力：HashiCorp的Nomad、Kubernetes定制调度器、以及多家创业公司的“AI原生调度平台”将抢夺风口。能动态平衡训练任务与推理任务对GPU占用的系统，将直接决定一家公司的算力成本。

2025年是分水岭。我身边越来越多的工程师朋友开始不再单纯比较“我们有多少张卡”，而是讨论“一个问题最优雅的算力解法”。从堆算力到挖算力，AI基础设施的下半场已经开启。这是一场关于智慧而非蛮力的竞赛，而每个从业者都有机会成为那个提出“为什么不换个方式思考”的人。

当然，路还很长。2026年秋天，当你在深夜调试MoE路由策略时，看着GPU利用率从75%升到78%，那3个百分点的提升或许比100张新卡更令你开心。这才是真正的成就感。

正文完

发表至：产品思考

2026-05-15

0