从Scaling Law到推理效率革命：读《AI基础设施沉思录》

11次阅读

共计 2122 个字符，预计需要花费 6 分钟才能阅读完成。

2025年下半年，我花了整整三周时间断断续续读完了一本在圈内流传但未正式出版的白皮书——《AI基础设施沉思录》（作者是某大厂基础设施团队的一位资深架构师，匿名发布）。读完之后，我发现自己过去两年对AI基础设施的很多判断需要重新校准。这篇文章算是一份带点个人思考的读书笔记，分享给同样关注这个领域的朋友。

书中第一个给我冲击的观点是：Scaling Law并没有失效，只是它在商业层面的数学期望变了。2025年初，许多团队发现继续扩大模型参数带来的收益开始边际递减——不是技术上的不可能，而是经济上不可持续。以一次千亿参数模型的完整训练为例，2025年单次训练的电费和GPU折旧成本已经接近800万美元，而同等投入带来的能力提升却远不如2024年。

作者用了一个很形象的比喻：过去我们是在沙漠里挖金矿，随便一铲子就有收获；现在金矿的深度已经到了几百米，每一铲都要付出巨大的土方量。但这不是说金矿没了，而是说我们需要更高效的挖掘方式。于是，2025-2026年整个行业的焦点开始从前向缩放转向推理效率革命，这直接导致了一个全新的基础设施层——推理加速栈的爆发。

书中详细拆解了当前先进推理系统的架构，我提炼出三个最核心的层次：

这不再是简单的量化或剪枝。2025年出现的深度稀疏MoE自适应路由策略让我印象深刻——它能够在推理时动态决定激活哪些专家模块，相比传统的Top-K路由，推理吞吐提升了2.4倍，而精度损失控制在0.3%以内。作者举了一个实际案例：某国内云厂商在2025年Q2部署了该策略后，其70B模型的单token推理成本从0.32元降到了0.14元，这在生产环境中是质变。

书中花了大量篇幅讨论NVLink和AMD Infinity Fabric的对比，但最让我受益的是关于算子融合的代价模型。过去我们总说“算子融合好”，但作者指出：过度融合会降低硬件利用率，因为大算子会导致计算单元的空闲等待。他给出了一个基于GPU occupancy预测的自动融合框架，在H100上实测比手动最优融合方案还快7%。这个细节让我意识到，基础设施优化的天花板远未到来。

如果说前两层是技术问题，这一层就是工程与商业的交叉。书中提到2025年最成功的推理系统都采用了混合优先级动态水印调度：把请求分为延迟敏感（如实时对话）和批量容忍（如离线内容生成），并为后者设置价格折扣。这种设计不仅将集群利用率从65%提升到了89%，还让推理成本模型从线性变成了凹函数——意味着用户越多，单个请求的边际成本越低。这个洞察直接解释了为什么2025年底多家厂商敢于推出“推理无限套餐”。

这本书的另一个亮眼之处在于不回避伦理问题，而且是从基础设施视角切入。作者提出了一个我从未思考过的概念：伦理对齐的算力成本。2026年初，欧洲某监管机构要求所有商用AI系统必须做毒性检测和偏好对齐，但很多团队低估了这部分的资源消耗。书中计算了一个具体场景：对一个每周处理1亿次对话的Agent系统，仅RLHF的二次推理开销就占了总推理成本的22%。

更值得深思的是，作者认为我们不应该把伦理当作一个“附加模块”，而应该将安全对齐嵌入到基础设施的运行时治理中。比如在推理调度器的准入控制层，就加入轻量级的审核模型级联，而不是在应用层事后过滤。这样虽然增加了一些延迟，但整体的算力浪费反而减少了——因为错误的请求在早期就被阻止，不需要浪费后续的生成步骤。这个观点让我对“负责任的AI”有了更工程化的理解。

基于书中的分析框架，我试着总结出几个在2026年已经显化的趋势：

推理芯片的百花齐放：2025年之前几乎只有NVIDIA，但2026年我们看到Groq的LPU、Google的TPU v6、以及国产算力的快速追赶。作者预测，推理基准的性价比今年将迎来年均40%的改善，这对中小团队是重大利好。
边缘推理的爆发前提是电量瓶颈：书中用数据分析指出，当前手机SoC的AI算力提升很快，但电池容量5年只增长了15%，因此边缘推理的真正突破口不是算力，而是能效比。2026年的创新点可能出现在存内计算和异构卸载。
“大模型即基础设施”的定价战接近尾声：2025年疯狂的价格战导致许多厂商亏损，2026年开始出现分化——要么做极致低价（如通过广告补贴），要么做垂直领域的高价高价值服务。中间地带的玩家会很难受。

说实话，读这本书的过程并不轻松，有些章节我看了两遍才完全理解那些数学推导。但正是这些硬核内容，让我对AI基础设施的底层逻辑有了质的提升。如果用一句话总结我的收获，那就是：AI的竞争已经从模型能力的军备竞赛，进入了基础设施效率的暗战阶段。那些在推理成本、能效比和伦理治理上提前布局的团队，很可能在2026下半年收获巨大的复利。

如果你也在做相关方向，强烈建议找机会读一读，哪怕只是书中关于算子代价模型的那一章，就足以值回三个晚上的咖啡钱。

正文完

发表至：读书笔记

2026-05-19

0