共计 2642 个字符,预计需要花费 7 分钟才能阅读完成。
一、当“堆算力”不再是万能药
2025年深秋,某大模型团队在内部复盘会上公布了一组数据:他们最新一代万亿参数模型的训练成本,是2024年同类模型的3.2倍,但推理效率仅提升了17%。这个数字像一盆冷水,浇在了曾经信奉“算力即正义”的行业头上。从2018年BERT横空出世到2024年大模型军备竞赛白热化,业界习惯了一条简单粗暴的路径——用更庞大的计算集群、更密集的芯片堆叠、更长的训练时间,换取模型能力的线性增长。但2025-2026年之交,这条路径的边际效益正在急剧下滑。
这不是技术的倒退,而是一次深刻的范式转移。我把它称为从“暴力计算”到“精准推理”的跃迁。当MOE(混合专家模型)稀疏化、动态推理蒸馏、异构计算调度等概念从论文走向工程实践,AI基础设施的核心矛盾已经不再是“如何算得更快”,而是“如何算得更对、更省”。
二、训练与推理的“权力倒置”
2.1 训练成本触顶,推理成为新主战场
2025年,全球前十大AI公司用于单一旗舰模型训练的平均预算已突破8亿美元,而2026年这一数字预计将超过12亿。但一个残酷的事实是:绝大多数训练投入无法直接转化为商业价值。真正产生收益的是推理——每一次用户对话、每一张生成图片、每一段代码补全。据行业估算,2026年全球AI推理算力需求将首次超过训练算力需求,达到训练需求的1.4倍左右。这意味着基础设施的设计重心必须从“支持一次几万张GPU跑三个月”转向“每天支持数十亿次毫秒级响应”。
2.2 训练和推理的硬件分离趋势
过去,GPU似乎是万能的——既能训练也能推理。但2025年下半年,我们观察到明显的硬件架构分叉:英伟达B200系列仍主打训练,但专门用于推理的L40S和定制ASIC(如谷歌TPU v6的推理优化版)出货量猛增。更值得关注的是国内厂商,一批基于RISC-V架构的推理加速芯片在2026年第一季度实现量产,主打能效比(每瓦特完成的推理操作数)。训练和推理不再是同一张GPU上的两个模式,而是各自专属物理集群的独立生态。
三、精准推理的核心:从“一层通吃”到“动态剪枝”
3.1 为何MoE架构成为基础设施变革的催化剂
传统密集模型(Dense Model)在推理时,所有参数都会被激活,无论用户问的是“1+1等于几”还是“写一篇关于量子力学的论文”。这就像用一台超级计算机去运行一个计算器程序,极其浪费。而混合专家模型(Mixture of Experts)通过稀疏激活,每次只调用少量“专家”子网络。2025年发布的MoE模型(如DeepSeek V4、Qwen3-MoE)将推理成本降低到同等性能密集模型的1/5到1/10。但MoE也给基础设施带来了新挑战:如何动态路由用户请求到正确的专家?如何避免专家负载不均导致某些GPU空闲、某些过载?
我曾在2025年11月参与某公司的MoE推理集群优化,一个核心发现是:静态路由策略完全失效。他们最初按照20%的专家容量设计,结果前三个小时只有两个专家在干活,剩下六个专家闲着。后来改用基于请求embedding相似度的动态哈希路由,配合在线专家迁移调度,总算把利用率从45%提到82%。这个案例说明,精准推理不只是算法问题,更是系统工程问题。
2. 量化与投机解码:为推理速度“上枷锁”
除了架构变化,推理侧的工程优化也在2025-2026年迎来爆发。其中最关键的两项是低精度量化(INT4/FP8)和投机解码(Speculative Decoding)。前者将模型权重从16位浮点数压缩到4位整数,推理速度提升3-4倍,代价是精度损失可控在1%以内;后者通过一个轻量小模型先快速生成多个候选token,再由大模型进行校验,一次性输出多个正确token,在保持质量前提下延迟降低50%。2026年,大部分云厂商的推理实例默认开启这两项技术,用户甚至感知不到——他们只知道“AI变快了”,而背后是基础设施层对每一比特的极致压榨。
四、基础设施的“伦理账”:算力消耗与气候代价
4.1 一座训练集群的碳排放有多惊人?
2025年6月,微软公布其最新一代AI数据中心单日峰值功耗达到120兆瓦,相当于一个小型城市的居民用电。全年碳排放估算超过30万吨二氧化碳当量。更值得深思的是,其中有相当比例的算力用于“无效训练”——比如大量重复试错实验,或者为了发论文而进行的对比基准测试。作为一个从业者,我常在开源社区看到有人抱怨“为什么不能少训一些无意义的模型?”2026年,全球AI算力年增速预计为40%,而可再生能源发电增速仅8%。如果不改变,AI行业将在2030年消耗全球10%的电力。
4.2 精准推理也是一种伦理选择
我认为,“精准推理”不仅是效率问题,更是一个事实上的伦理立场。当每个请求都能被更高效地服务,就不需要额外部署3倍冗余算力来应对峰值;当模型可以通过投机解码一次完成多个步骤,就不需要反复来回调用API。2025年底,欧盟AI法案修订版明确要求:AI服务提供商必须披露其单次推理的能量消耗,超过一定阈值须进行能效优化。这不是道德绑架,而是用法律倒逼产业走向更可持续的“精准范式”。
五、2026年展望:基础设施的三个确定性趋势
基于过去两年的一线观察,我对未来AI基础设施有几点判断:
– 推理芯片将百花齐放:2026年,除了英伟达、AMD、谷歌,至少还有5家中国芯片厂商将推出专为MoE和稀疏架构优化的推理CPU/ASIC,能效比每年提升50%。
– 冷却技术从“炫技”回归实用:液冷不再是数据中心标配,而是按需选择。2026年大量中等规模训练集群采用低成本浸没式液冷,而推理集群回归风冷+高效热管,因为推理平均功耗远低于训练。
– 基础设施编排软件成为最值钱的能力:HashiCorp的Nomad、Kubernetes定制调度器、以及多家创业公司的“AI原生调度平台”将抢夺风口。能动态平衡训练任务与推理任务对GPU占用的系统,将直接决定一家公司的算力成本。
六、写在最后:算力是一种语言,不是数量
2025年是分水岭。我身边越来越多的工程师朋友开始不再单纯比较“我们有多少张卡”,而是讨论“一个问题最优雅的算力解法”。从堆算力到挖算力,AI基础设施的下半场已经开启。这是一场关于智慧而非蛮力的竞赛,而每个从业者都有机会成为那个提出“为什么不换个方式思考”的人。
当然,路还很长。2026年秋天,当你在深夜调试MoE路由策略时,看着GPU利用率从75%升到78%,那3个百分点的提升或许比100张新卡更令你开心。这才是真正的成就感。