AI推理基础设施：从模型到服务的最后一公里

9次阅读

共计 2815 个字符，预计需要花费 8 分钟才能阅读完成。

2025年，当GPT-5、Claude 4和Gemini Ultra相继发布后，行业里一个被反复提及的现象是：训练一个千亿参数模型已经不再是技术瓶颈，真正让企业头疼的，是如何让这个模型在用户面前流畅地跑起来。作为一名在AI基础设施领域摸爬滚打多年的从业者，我想和你聊聊这个经常被忽视、但正在重新定义行业规则的环节——推理基础设施。

大多数人把目光聚焦在训练算力上——“千卡集群”、“万卡训练”这些词让人肾上腺素飙升。但2025年下半年以来，推理算力的需求曲线已经呈现出超越训练的趋势。原因很简单：一个模型再强，如果用户每次对话都要等上十几秒，体验就大打折扣。更关键的是，模型的推理成本正在成为企业能否盈利的生死线。

我参与过一个项目：某金融科技公司部署了70B参数的对话模型用于智能客服。训练只用了三天、花费约12万人民币，但上线后每天推理调用量超过200万次，月度GPU租赁费用飙升至80万。后来我们通过推理优化技术（如KV缓存量化、连续批处理等），把单次推理成本压低了约65%。这个故事背后的核心就是：推理体系的工程效率，直接决定了AI产品能否从“技术demo”走向“商业闭环”。

2024-2025年，推理引擎领域经历过一场“军备竞赛”。早期大家用Hugging Face的Transformers库直接做推理，单个请求还好，但并发一高就崩溃。后来vLLM凭借PagedAttention算法解决了KV缓存碎片问题，让GPU显存利用率提升了3-5倍。2025年下半年，SGLang开始崭露头角，它引入了“结构化生成”的概念——不是简单地一个token一个token生成，而是把输出中可预计算的部分（比如JSON Schema、固定模板）提前编译，从而减少重复计算。

这在实践中效果惊人。我们在一个电商导购场景中做过对比：同样的LLaMA 3.1-70B模型，SGLang的首次token延迟（TTFT）只有vLLM的60%，而整体吞吐量提升了40%。但这背后也有代价——SGLang对动态输入（如自由对话）的支持还不够成熟，而且部署复杂度更高。所以，选型没有银弹，必须结合业务场景做权衡。

量化是推理优化的常规手段。2025年之前的常见做法是INT8量化，但效果参差不齐。2026年，FP8甚至FP4量化开始大规模落地。关键突破在于：NVIDIA H100/B200等硬件原生支持FP8运算，精度损失可控制在1%以内，但显存占用直接减半，推理速度提升近一倍。

但不要盲目量化。我见过一个失败的案例：某创业公司把Stable Diffusion 3的权重全部量化为INT4，结果生成的人像出现大量伪影，用户投诉率飙升。后来发现，对于多模态模型中视觉token的处理，量化粒度需要更精细——不是整个张量统一量化，而是分通道、分位置动态调整缩放系数。这就是2025年开始流行的“混合精度推理”：关键层保持FP16，非关键层用INT8或FP8，在成本和效果之间找到平衡。

2026年，随着多模态模型和Agent应用的普及，推理负载不再只是单纯的文本生成。一个典型的场景是：用户上传一张图片，模型先通过视觉编码器处理（计算密集型），然后生成JSON格式的元数据（存储密集型），最后根据元数据检索数据库并生成回答（推理密集型）。这几种操作对GPU资源的需求截然不同：视觉编码需要大量计算核心，而JSON生成更需要内存带宽。

传统的Kubernetes + NVIDIA GPU Operator在这种场景下力不从心，因为GPU是整体分配的——一个pod拿到一整张A100，但只用了其中20%的计算资源。2025年下半年，微GPU虚拟化技术开始成熟，比如NVIDIA MIG（多实例GPU）的改进版允许更细粒度的切分，甚至可以动态调整：当用户上传大量图片时，临时给视觉编码Pod分配更多计算单元；当进入文本生成阶段时，再把计算单元回收给推理引擎。这种机制下，GPU的平均利用率可以从40%提升到75%以上。

2025年之前，大多数推理服务使用“预热池”来避免冷启动延迟——预先加载几个模型副本在GPU上，用户请求直接命中。但2026年，随着上下文长度从4K扩展到1M甚至更长（如Gemini 2.0的10M token），每个请求占用的显存变得不可预测。一个请求可能只需要4K上下文，另一个可能需要100K。如果用固定预热池，要么浪费大量显存预留给长上下文请求，要么频繁触发OOM。

业界的一个解法是“动态KV缓存卸载”：将不常用的KV缓存数据从显存换到CPU内存甚至NVMe SSD，需要时再快速加载回来。这听起来像操作系统的虚拟内存，但难点在于延迟——如果每次换入换出都要几百毫秒，用户能明显感觉到卡顿。2025-2026年的突破在于利用PCIe 5.0的高带宽和CPU侧的CXL内存池，将卸载延迟降低到5ms以内。我参与的开源项目“FlashCache”就是基于这个思路，目前已经在多家云厂商测试，效果不错。

虽然NVIDIA占据主导，但推理场景下没有万能的芯片。2026年，华为昇腾910B在推理吞吐量上已经接近A100，但在某些算子（如FlashAttention）上仍有差距。AMD MI300X的显存大（192GB）是优势，但软件生态（ROCm）的成熟度仍需提升。最有趣的可能是苹果M4 Ultra——统一内存架构让CPU/GPU之间不需要显式拷贝数据，这对于小模型（7B以下）的端侧推理简直是降维打击。

一个真实的对比：在延迟敏感场景（如语音助手实时对话）中，我们测试过用Mixtral 8x7B在Apple M4 Ultra上的推理，端到端延迟仅为GPU方案（A10）的70%，而且功耗只有后者的三分之一。对于无需大规模并发的场景，异构推理正在成为主流：GPU处理大的batch请求，CPU/加速卡处理时延敏感的小负载。

回看2025-2026年，AI行业从“模型大跃进”逐步走向“工程精细化”。推理基础设施不再是藏在训练光环背后的配角，而是决定AI产品能否规模化的关键。对我而言，每天和KV缓存、量化、动态调度打交道，感觉就像在为每个token铺设最后一公里的“高速公路”。这条路还很长——比如多模态模型的跨模态推理加速、agent执行过程中的状态管理、以及推理过程中的可解释性监控，这些都需要基建者继续深耕。

最后分享一点个人体会：不要被参数和算力数字迷惑，真正衡量一个推理系统的好坏的，是用户从点击“发送”到看到第一个字符的那段等待时间。把这一点做到极致，比堆叠任何花哨技术都更接近AI普惠的本质。

正文完

发表至：科技视野

2026-05-21

0