共计 3093 个字符,预计需要花费 8 分钟才能阅读完成。
当模型能力不再是瓶颈,成本成了新G点
2025年下半年,我参加了一场AI基础设施的内部讨论会,主题是“推理成本失控”。会场里,CTO指着账单上的数字说:“我们训练一次模型花了五百万美元,但每个月推理账单是两千万,而且还在涨。”这不是个别现象。随着DeepSeek、Qwen、Llama 4等基座模型纷纷追上GPT-4水平,行业关注的焦点正从“谁能做出更强的模型”转向“谁能更低成本地运行模型”。如果你在做AI产品,迟早会撞上这个墙:用户的交互频次与推理成本之间,存在一条陡峭的曲线。
这篇文章不聊玄学,只拆解2025-2026年AI推理成本的核心原理与优化手段。适合那些已经熟悉Transformer基础、但想从“产品决策者”视角理解技术的人。
推理成本的微观结构:两段式瓶颈
一次完整的LLM推理,本质上是两个阶段的交替:预填充(Prefill)和解码(Decode)。预填充阶段处理用户输入的prompt(比如“写一篇关于…的文章”),一次性计算所有token的注意力并生成KV Cache。解码阶段则一个一个地生成token,每一步都依赖之前所有token的KV Cache来更新注意力权重。
这两个阶段的瓶颈完全不同:预填充是计算密集型,受限于GPU的FLOPS(浮点运算能力);解码是访存密集型,受限于HBM带宽(显存带宽)。尤其是解码,当sequence长度增加时,KV Cache占用显存线性增长,注意力计算量平方增长——这就是为什么长上下文(比如32K、128K)的推理成本会爆炸式上升。
一个具体的数字:在H100上推理Llama 3.1 70B模型,输入prompt 4K tokens,输出2K tokens,解码阶段消耗的算力约占总推理算力的75%以上。大部分时间GPU都在等待数据从显存搬到片上SRAM,而不是在真正做矩阵乘法。
KV Cache:最容易被忽视的显存杀手
KV Cache是Transformer推理的“缓存”:每生成一个token,我们需要把该层的Key和Value向量存下来,给后续token用。对于70B模型,每层有128个注意力头,每个头的维度128,那么每个token的KV Cache大小约为:
2(K和V)× 128头 × 128维 × 4字节(FP16)= 128 KB(每层)
× 80层 ≈ 10 MB per token
如果上下文长度为32K,整个KV Cache需要 32K × 10 MB ≈ 320 GB。一块H100的显存才80GB,所以必须把KV Cache切成多个GPU分担(张量并行+序列并行)。这直接推高了集群成本和网络带宽需求。
2025年末,业界出现了几种聪明的方法:Multi-Query Attention(MQA)和Grouped-Query Attention(GQA)被大规模采用。GQA通过让多个查询头共享同一对Key/Value头,将KV Cache大小压缩到原来的1/4甚至1/8,而精度损失几乎可忽略。现在几乎所有新模型(如Llama 4)都默认使用GQA。
降本三件套:量化、稀疏化、投机解码
量化:从FP16到INT4的跃进
2025年,INT4量化成了推理标配。将模型参数从FP16压缩到INT4,显存占用直接降到1/4,同时利用NVIDIA的H100/Blackwell GPU对INT4矩阵运算的原生支持,吞吐量可以提升2-3倍。但需要注意,Activation(激活值)通常比权重更难量化。主流做法是先用对激活值做平滑,再做per-tensor或per-token量化。我在团队里实验过,将Qwen2.5-72B量化到INT4后,MMLU精度从72.3%降到71.8%,损耗0.5%,但推理成本下降约60%。对于大多数对话场景,用户完全感受不到差异。
稀疏化:让注意力不再全连接
另一种思路来自“Attention is all you need”的反面:注意力大部分计算是冗余的。2025年ICLR上多篇论文证实,在解码阶段,最新的few tokens对当前token的注意力权重占据了90%以上,而早期token的注意力几乎可忽略。StreamingLLM和InfiniteBench等方法被产品化:只保留最近的2K token和少数“注意力尖峰”的早期token,其余直接丢弃。这可以让有效上下文窗口扩展到128K+,而显存占用仍然可控。
实际部署中,阿里去年公开的PAI-RAG系统采用了一种“注意力剪枝”策略:对每个注意力头,保留top-k的注意力分数对应的Key/Value,其余置零。在长文档问答场景里,这一优化让吞吐量提升了1.5倍,而F1分数只下降了0.8%。
投机解码:用“小模型”给“大模型”提速
2025年最让我兴奋的推理优化是投机解码(Speculative Decoding)。其思想非常简单:用一个小的draft model(比如1.5B)快速生成一批候选token,然后让大模型并行验证,只保留通过检查的token。由于大模型一次能验证多个token,解码阶段的串行瓶颈被打破。Google的2024年论文显示,投机解码在有缓存命中的情况下可以达到2-4倍加速。2025年各大推理框架(vLLM、TGI、SGLang)都原生支持了投机解码。我在生产环境中实测,LLaMA 3.1 70B用小模型draft +投机解码,生成速度从15 tokens/s提升到42 tokens/s,而模型输出质量完全一致(因为验证是严格的)。
产品视角:Token经济学的多维博弈
理解了技术原理,回到产品侧。2025年的AI应用定价已经从“按API调用次数”转向“按token计费 + 服务质量分级”。例如,我的团队做了个文档助手,用户输入一篇10页PDF,系统先用小模型做全文摘要(预填充阶段成本高,但解码少),再用大模型做问题精答(解码阶段占比高)。对于高频但短问答的用户,使用投机解码+INT4量化,单轮对话成本降到0.003元;对于需要长上下文(比如律师合同审查)的用户,则启用KV Cache压缩和稀疏注意力,成本即使贵10倍用户也愿意接受。
更关键的是推理成本的用户感知:用户不知道也不关心你用了多少FLOPS,他们只关心延迟和非幻觉率。因此,产品经理需要学会在首token延迟(由预填充决定)和后续token速度(由解码决定)之间做权衡。对于聊天机器人,首token延迟300ms以内是关键指标,此时可以牺牲一些解码速度换取更小的显存占用。对于写作助手,用户更在意流畅性,则可以偏向解码速度。
2026年展望:推理将成为AI的主流开销
2026年,随着Blackwell Ultra和Gaudi 3等新硬件的普及,推理成本大概率会继续下降一个数量级。但增长的用户量级可能更快:截至2025年Q1,全球AI日均推理token数已超100万亿(来源:SemiAnalysis估算),2026年可能突破1000万亿。届时,推理基础设施的能效比会是新的战场——台积电3nm/2nm工艺、Chiplet互连、以及内存近计算(HBM4)都会在推理场景中找到自己的位置。
对于AI产品团队,我建议尽早做三件事:
- 建立推理成本仪表盘,精细到模型、用户群体、上下文长度三个维度
- 在推理链路上混搭不同规模的模型,小的做粗筛,大的做精调
- 拥抱开源推理框架(vLLM、SGLang),它们对量化、投机解码的支持已相当成熟,不要自己造轮子
最后我想说,AI推理成本的优化,本质上是把理论计算效率转化为产品体验。每一个FLOPS的节省,都可能让一个原本觉得贵的用户留下来。做AI产品,懂一点底层原理,比懂一百个爆款prompt公式更重要。