大模型推理成本骤降90%？2025年AI基础设施的务实革命

10次阅读

共计 2082 个字符，预计需要花费 6 分钟才能阅读完成。

过去三年，整个AI行业几乎被“训练竞赛”统治——各家大厂比拼的是谁能更早发布千亿参数模型、谁能在更短时间内完成万亿tokens的训练。但进入2025年后，风向变了。行业共识正在形成：大模型的真正价值不在于参数规模，而在于推理的效率和易用性。 我身边很多做AI Infra的朋友，已经从“抢H100集群”转向了“优化一次推理的能耗和成本”。据某云厂商内部数据，2025年Q1其大模型推理业务量同比暴增400%，但营收只增长了120%——这组数据赤裸裸地揭示了推理成本依然是规模化落地的最大阻碍。

令人振奋的是，2025-2026年这一形势正在被颠覆。一系列从芯片、算法到系统架构的组合创新，让推理成本有望在两年内再降一个数量级。这不是空喊口号，而是已经有落地案例的数据支撑。

两年前，常见的实践是FP16推理，少数激进者尝试INT8。而到了2025年，INT4推理已经在多个主流模型上实现了无损或几乎无损的部署。例如，Meta的Llama 4系列模型在采用混合精度量化（部分敏感层保留FP8，其余压到INT4）后，推理延迟下降了65%，显存占用减少了70%。国内的智谱、百川等厂商也纷纷推出自家的量化工具链，甚至支持动态量化——根据输入内容自动调整精度。更值得关注的是，硬件层面AMD的MI400系列和Intel的Gaudi 3都原生支持INT4运算单元，这使得量化不再是“软件补丁”，而是系统级设计。

大模型本质上是一个巨大的矩阵乘法机器，但很多神经元在特定输入下是“休眠”的。2025年，基于结构化剪枝的稀疏推理终于从论文走向了生产环境。我上个月参观某自动驾驶公司，他们利用NVIDIA的Ampere架构下的稀疏张量核心，将视觉大模型的推理吞吐量提升了3倍，而精度损失不到0.5%。更酷的是，Google在TPU v5p上引入了动态稀疏调度器，可以实时感知计算负载并跳过无关权重块。这种技术已经开始在Gemini的轻量级版本中应用，据说单次推理成本比前代降低了80%。

传统的“GPU包打天下”正在被打破。2025-2026年最有趣的趋势是专用AI推理芯片（NPU）与通用GPU的协同工作。苹果的M5 Ultra芯片内置了一个32核的Neural Engine，专门处理注意力机制中的非矩阵运算部分（如Softmax、LayerNorm），从而解放GPU主核。在实际测试中，Mac Studio M5 Ultra运行70B模型时，首token延迟比M2 Ultra降低了45%，而且功耗只有后者的60%。这个案例说明，异构计算不是简单的“堆核”，而是基于模型结构的任务智能分配。

2025年9月，字节跳动联合某初创公司发布了一款基于存算一体架构的推理加速卡。与传统方案不同，它将权重存储在片上SRAM中，并在存储单元内直接完成矩阵运算，彻底消除了“冯·诺依曼瓶颈”。在运行自家豆包大模型（约130B参数）的推理任务时，这款加速卡的能效比（TOPS/W）是H100的4.5倍，且单卡即可承载20个并发请求，而H100需要4张卡才能达到类似吞吐。更让人惊讶的是价格——批量采购价仅为H100的三分之一。这意味着一个中等规模的SaaS公司，现在能用10万元左右的硬件成本，支撑日均百万次的大模型API调用。 这不再是实验室的豪华配置，而是触手可及的商业现实。

当推理成本降低90%以后，整个AI应用生态会迎来一次类似“移动互联网”级的爆发。2026年我预测将出现三个明显趋势：
1. 端侧大模型全面铺开：手机、PC、IoT设备将原生支持10B-30B参数的模型，无需联网即可实现高质量的语音助手、实时翻译和图像生成。高通骁龙8 Gen 5已经为此预留了专用NPU核心。
2. AI Agent的货币化加速：之前的AI Agent为何叫好不叫座？核心是每次交互都要付出高昂的推理成本。当成本降至“千次调用一毛钱”时，企业级Agent（客服、编程、数据分析）才能真正产生利润。
3. 开源模型竞争力反超闭源：闭源模型的优势在于统一优化推理效率，但开源社区可以针对特定硬件（如RISC-V、FPGA）做极致定制。2025年底，已有几个开源小模型（如Mistral 7B的变种）通过混合量化+稀疏化，在特定任务上跑出了比GPT-4o低一个数量级的成本。这种“田忌赛马”式竞争，会倒逼全行业创新。

站在2026年中的节点回看，我们正经历着AI基础设施从“奢侈品”到“日用品”的关键转折。技术人有义务让这些变革不只是一串数字，而是变成每个人都能直接或间接感知到的便利。 比如我楼下便利店刚用上了一套基于端侧模型的智能收银系统，90%的语音点单无需网络即可完成，店员说系统响应速度比上一代云端方案快了两倍——这就是基础设施进化最朴素的证明。

正文完

发表至：技术杂谈

2026-05-18

0