推理之墙：2025-2026 AI基础设施从训练向推理的范式转移

11次阅读

共计 2438 个字符，预计需要花费 7 分钟才能阅读完成。

过去两年，整个AI圈都在盯着训练算力——万亿参数模型、万卡集群、千亿美金烧出来的大模型竞赛。但进入2025年之后，风向变了。我去年参加一个小型技术沙龙时，一位做AI推理加速的朋友说了句话让我印象深刻：“现在谁还炫耀训练了多少PFLOPS，就像当年炫耀自己电脑能跑多少分一样——重要的是你最后那台电脑能跑什么软件。”这背后其实是一个结构性的转变：AI基础设施的重心正在从“造模型”转向“用模型”。2025-2026年，推理部署已经取代训练，成为算力市场最汹涌的浪潮。

很多人依然用训练的思路去思考基础设施——追求单卡算力、扩大显存、堆高带宽。但推理场景完全不同：推理需要的是低延迟、高吞吐、低成本，而不是纯粹的峰值算力。举个例子，2025年中期某头部云厂商公开的数据显示，其大模型API调用量的日均峰值已经超过训练任务消耗算力的4倍，且预测到2026年底这个比例会接近10:1。训练集群往往跑满几周甚至几个月，而推理集群必须应对每秒数万次的请求波动。这种差异直接重塑了硬件设计、网络架构和能源策略。

2025年最显著的变化是推理芯片开始“反内卷”。NVIDIA虽然依然是王者，但它的B200和后续的GB200 Grace Hopper超级芯片在设计上明显增加了对推理的支持——引入了专用的Transformer引擎、增强的稀疏计算单元。更有意思的是Groq的LPU（语言处理单元）在2025年实现了首次商用突破，每秒生成2000个token的延迟仅需几毫秒，远低于H100的典型延迟。我还关注到一家叫d-Matrix的初创公司，推出了采用“计算存内”架构的芯片，专门处理Transformer的自注意力机制，在2026年初的某次基准测试中，以更低的功耗达到了同等精度下2.3倍的吞吐提升。这些案例都说明：当推理成为主流，通用GPU的“性能浪费”开始暴露，专用化是必然。

硬件层面再强，软件搬不动也是白搭。2025-2026年，推理框架的竞争进入白热化。vLLM从早期的PagedAttention方案进化为支持多模态模型的高效调度器；TensorRT-LLM在2025年底加入了FP4推理支持，让显存占用进一步降低；而MLC-LLM则把战场拉到了终端设备，实现了在手机和边缘设备上运行14B量级模型。我自己在实际部署中体会最深的是——模型量化不再是可选优化，而是必选项。

举个例子，我们用Qwen2.5-72B模型做API服务时，采用INT4量化配合AWQ算法，在保持准确率下降不到0.5%的前提下，单卡吞吐提升了整整4倍。更激进的是，一些团队开始使用结构化剪枝+蒸馏的组合拳，将一个7B模型压缩到3B参数，精度几乎无损，这在2024年还是很难做到的。软件层面的进步正在让“硬件不够用”变成“硬件用不完”。

2026年最让我兴奋的领域是边缘推理。过去AI落地难在推理必须在云端完成，要么成本高要么延迟大。但现在，端侧芯片（如高通Snapdragon X Elite、联发科天玑9300以及苹果的M4系列）的NPU算力已经普遍超过30 TOPS，可以流畅运行3B-7B模型。我去年12月试用了一款基于端侧大模型做实时会议纪要的设备，它离线状态下能准确识别多人对话、自动提取要点，延迟不到500ms。更典型的案例是工业视觉检测：某汽车工厂用华为昇腾310芯片的智能摄像头，在产线上实时进行缺陷检测，模型为量化后的YOLOv9，单次推理仅需15ms，完全不需要回传云端。边缘推理正在把AI从“云上的魔法”变成“手中的工具”。

训练集群往往采用高密度GPU、InfiniBand网络、大功率冷却。而推理集群的设计哲学截然不同：更注重网络带宽和内存带宽，而非互联拓扑。2025年越来越多数据中心开始采用“推理专用舱”——使用较少的GPU但搭配更快的NVMe存储和更大的CPU内存，以支持模型的热加载和动态批次调度。例如CoreWeave在2025年推出的“推理优化套餐”，将GPU与高速SSD通过NVIDIA BlueField DPU直连，实现模型权重在1秒内从存储加载到显存。

另外，能源效率成为2026年竞争的新高地。训练集群可以接受高功耗换取性能，但推理集群需要应对24×7持续运行，PUE和每token能耗成为核心指标。谷歌DeepMind在2025年底发表的论文展示了一种动态电压频率调整（DVFS）与推理负载预测相结合的方法，将推理集群的总体能耗降低了28%，而在峰值时性能几乎不受影响。这种“精细化运营”的思路，正在让AI基础设施从“堆钱”走向“算账”。

除了传统云厂商，一批新型AI基础设施公司正在崛起。比如Together.ai以“推理即服务”为核心，整合了多种优化后的开源模型，提供比官方API便宜一半的推理价格；Fireworks AI则主打“微调-部署一体化，让用户在一张卡上完成从LoRA微调到上线推理的流程。在国内，百川智能、MiniMax等大模型团队也在自建推理集群，并采用PD分离架构（Prefill与Decode独立部署）来提升并发率。正如一位同行半开玩笑说的：“2024年大家比训练，2025年比推理，2026年可能就要比谁能把1块钱的算力花出2块钱的效果。”

回看2025年到2026年这个时间节点，AI基础设施的范式转移其实才刚刚开始。训练让人激动，但推理让AI真正有用。这个转变带来的技术挑战和商业机会远超想象：模型压缩将与硬件设计深度耦合，边缘与云端的边界将日益模糊，碳中和压力会倒逼整个行业重新思考算力的每一瓦特。如果你现在在规划自己的AI项目，我的建议是：别再只盯着训练框架和千卡集群，花些时间研究推理部署、量化工具和边缘硬件——那才是未来两年AI落地的真实战场。

正文完

发表至：读书笔记

2026-05-19

0