AI基础设施的下半场：推理才是真正的算力考卷

11次阅读

共计 2839 个字符，预计需要花费 8 分钟才能阅读完成。

过去两年，AI行业的叙事几乎被”训练”垄断。从GPT-4到Llama-3，从万亿参数模型到混合专家架构（MoE），每一轮算力竞赛都围绕着如何填满GPU集群、缩短训练时间展开。但到了2025年下半年，风向已经明显转变。越来越多的从业者意识到：训练只是入场券，推理才是真正的持久战。

一个直观的数据：据行业估算，2026年全球AI推理算力需求将首次超过训练算力需求，而且这个差距会以每年2-3倍的速度拉大。原因很简单——模型可以训一次，但推理要跑无数次。无论是ChatGPT的日活用户、Copilot的代码补全，还是自动驾驶的实时决策，每一次调用都在消耗宝贵的算力资源。

然而，我们当前的硬件和软件栈，大部分还是为”训练”设计的。这种错位导致了惊人的浪费。多数数据中心的GPU利用率在推理场景下不足30%，而训练场景可以做到70%以上。那么，推理到底难在哪里？又有什么技术正在破局？

很多人以为训练和推理的区别只是”一次性”和”反复调用”，但深入底层就会发现，它们的计算特征截然不同。

训练需要同时执行前向传播和反向传播，Batch Size通常很大（64、128甚至更大），以充分利用GPU的并行能力。而推理只需要前向传播，Batch Size往往很小，甚至只有1（比如在线对话场景）。小Batch Size意味着GPU的SIMT计算单元无法被充分填满，内存带宽成了瓶颈。

训练更关心吞吐量——每小时能处理多少token。推理则需要在延迟和吞吐之间做精巧的平衡。用户无法忍受一个回答等待3秒，但你可以同时服务1000个用户。这意味着推理优化必须同时降低首token延迟（TTFT）和提升解码速度（TPOT），而这两个目标的优化方向往往是冲突的。

推理时，模型权重需要常驻显存，而KV Cache（键值缓存）成了新的显存杀手。以Llama-3-70B为例，一次推理的KV Cache可能占用超过2GB显存。如果并行处理1024个请求，单是KV Cache就需要2TB显存，远超一张H100的80GB。这也是为什么很多推理部署方案不得不使用多节点、跨卡通信，进一步加剧了延迟。

要突破推理的算力瓶颈，2025-2026年出现了几项真正落地的关键技术，它们正在重新定义AI基础设施的架构。

传统的推理服务使用静态Batching——等攒够N个请求才一起推理。这样会导致碎片化闲置，GPU利用率低。而Continuous Batching（也叫动态Batching）允许GPU在解码过程中动态插入或移除请求，每当一个请求完成解码，立刻用新的请求填补。这个算法最早由NVIDIA的Triton Inference Server和Orca论文提出，现在已经成为vLLM、TensorRT-LLM等主流推理框架的标配。实际部署中，Continuous Batching可以将GPU利用率从30%提升到60%以上，吞吐量翻倍。

大语言模型的逐token自回归解码非常慢，因为每次只能生成一个token，需要反复读取模型权重。Speculative Decoding的思路是：用一个轻量级的”草稿模型”先快速生成一串候选token，再用原模型批量验证。由于验证可以并行化，整体解码速度可以提升2-3倍，而且数学上保证输出分布和原始模型完全一致（没有质量损失）。2026年，Google的Medusa和Stability AI的Eagle等改进版本已经在实际服务中广泛使用，延迟降低40%以上。

训练时我们通常使用BF16/FP16，但推理时可以容忍更低精度。INT8、FP8甚至INT4量化已经相当成熟。INT8推理的吞吐量可以达到FP16的2倍，而精度损失通常小于0.5%。更激进的是，一些框架开始支持2:4结构化稀疏——在训练时让一半权重变为零，推理时跳过这些计算，利用NVIDIA Ampere架构的稀疏张量核心，理论上可以达到2倍加速。不过稀疏化的部署仍较复杂，2026年预计才会在关键场景（如自动驾驶）大规模落地。

当模型能力趋同，用户的决策将从”哪个模型更好”转向”哪个更便宜、更快”。推理效率直接决定了公司的毛利率。

以API调用为例，2025年初GPT-4o的推理成本大约是每百万token 2.5美元，而经过半年优化，一些第三方服务商已经将成本压到0.8美元。这种降低主要来自三个方面：硬件的进步（H100→B200，HBM带宽提升）、推理框架的优化（更高效的调度）以及模型架构本身的改进（如MoE的专家路由减少计算量）。

但一个被忽视的问题是能耗。推理场景下虽然单次功耗低于训练，但总调用量巨大。2026年，全球AI推理的年耗电量可能达到30TWh以上（相当于一个小国的用电量）。这已经不仅仅是成本问题，更是环境伦理问题。那些声称”绿色AI”的公司，需要拿出实实在在的能耗优化方案，比如利用碳感知调度——在风力发电多的时段多跑推理任务，否则所谓的”负责任AI”只是一句空话。

2025-2026年，一个明显的趋势是推理从云端向边缘迁移。Apple Intelligence、高通AI引擎、甚至树莓派的NPU都在证明：很多推理任务不需要依赖数据中心。尤其是对于延迟敏感的场景（自动驾驶、AR眼镜、实时语音交互），端侧推理的响应时间可以做到10ms以内，而云端至少100ms。

但边缘推理面临三大挑战：模型参数量受限（通常7B以下）、内存带宽不足（LPDDR5远不及HBM）、功耗墙（手机SoC最多10W）。为此，2026年出现了大量混合部署方案：将小模型（如Phi-3-mini）放在端侧处理简单请求，复杂请求则通过低延迟通道回传云端。这种”云边协同”架构正在成为主流，也意味着AI基础设施的定义正在从单一数据中心扩展到雾计算+边缘计算+云端的三层架构。

回顾2025-2026年的技术演进，最让我感慨的不是参数规模的军备竞赛，而是工程优化带来的”免费午餐”。同样的H100集群，通过Continuous Batching、Speculative Decoding和量化，吞吐量可以提升4-5倍，而硬件成本分文未增。这才是AI基础设施真正的竞争力——不是比谁买的卡多，而是比谁能把每张卡的潜能榨得更干净。

对于从业者而言，现在正是深入研究推理优化的最好时机。不要只盯着模型架构，去了解一下显存带宽、CUDA kernel fusion、计算通信重叠这些底层细节。未来的AI公司，要么是推理优化做得最好的，要么是能够以最低成本提供推理服务的。没有第三条路。

正文完

发表至：产品思考

2026-05-14

0