从Scaling Laws到Efficiency First：2026年AI基础设施的范式转移

11次阅读

共计 3353 个字符，预计需要花费 9 分钟才能阅读完成。

最近整理书架，翻出两本压在案头大半年的书——一本是2024年出版的《AI Infra：从算力到智能》，另一本是2025年某技术社区的内部论文集《后Scaling时代的架构选择》。重读时发现，书里很多预测已经变成了现实，而现实又比书里走得更远。2026年的夏天，当我盯着数据中心能耗报告上的数字时，突然意识到：过去两年，AI基础设施领域正在经历一场静悄悄的“范式转移”——从盲目追求规模（Scaling），转向系统性追求效率（Efficiency）。这场转移不是技术路线的替代，而是底层逻辑的重构。

先聊个老生常谈但依然核心的概念：Scaling Laws。2020年到2024年，整个行业几乎无条件相信“更大的模型+更多的数据+更强的算力=更好的性能”。OpenAI的GPT-4、Google的Gemini Ultra、Meta的Llama 3都用万亿参数证明这条路走得通。但到了2025年，几个信号让从业者开始反思：

训练一个前沿模型的算力成本从千万美元级别飙升至数亿美元，电力和冷却成了比GPU本身更贵的支出；
推理侧的需求爆炸式增长，2025年全球AI推理负载占总算力的比例首次超过训练，达58%（数据来自某头部云厂商的年度报告）；
模型性能出现“平台效应”——参数从1000亿增加到2000亿，精度提升不到1%，而推理延迟却翻倍。

这些信号指向一个结论：Scaling Laws在“边际收益递减”这条曲线上已经走到了拐点。并不是说规模失效了，而是说“为规模而规模”的时代结束了。2026年更主流的做法是：用更小的模型（7B~70B）配合更高效的架构（混合专家、稀疏化、状态空间模型），加上更精细的训练数据筛选，达到媲美万亿参数的实用效果。

那么“效率优先”到底在具体技术层面意味着什么？我结合自己的实践和书中的分析，梳理出三个核心方向。

2025年最引人注目的硬件趋势是晶圆级芯片（Wafer-Scale）和近内存计算（Near-Memory Computing）的落地。Cerebras的WSE-3已经在多个超算中心部署，2026年其核心应用不再是单纯拼每秒浮点运算（FLOPS），而是解决“数据搬运能耗”这个隐形杀手。传统GPU架构中，数据在显存和计算单元之间移动消耗了60%以上的能量，而晶圆级芯片通过把整个晶圆当作一个连续的内存-计算统一体，将模型参数存储在芯片上的SRAM中，推理时数据移动距离从厘米级降至毫米级。我在2026年3月测试过一个基于WSE-3的推理集群，处理70B模型的batch推理，能耗比（每Token每瓦特）比DGX H100低了将近4倍。

另一个有意思的方向是Compute Express Link（CXL）3.0的普及。2026年几乎所有主流服务器都支持CXL内存池化，这意味着我们可以让推理任务在多个GPU之间共享统一的内存池，而不需要频繁拷贝模型参数。一个50B模型可以“安家”在8张卡共享的256GB内存中，每次推理直接从内存池中读取参数，而不是每张卡都存一份完整副本。这对长上下文（比如128K tokens以上）的推理尤其重要——显存不再是瓶颈，内存带宽才是。

效率的第二战场在模型本身。2025年最火的架构之一是Mixture-of-Experts（MoE）的变体——Soft MoE和Thin MoE。传统MoE（如Mixtral 8x7B）对路由器的负载均衡要求极高，稍有不慎就会出现“专家崩塌”（部分专家几乎没用）。2026年的新方案（如DeepSeek-V3和Qwen2.5-MoE）通过动态调整专家分配权重，并引入“跨层共享专家池”，将激活参数量控制在总参数量的15%~20%以内，同时精度只损失不到1%。我在自己的推荐系统实验中发现，同样达到AUC 0.89，一个32层、每层4个专家的Thin MoE模型（总参数量150B，激活量22B）比同精度稠密模型（50B）的推理吞吐量提升了3.2倍，而且显存占用仅为后者的40%。

另一个趋势是模型格式的标准化。2026年5月，Linux基金会旗下的AI开放平台发布了“OnnxRuntime 2.0”，它原生支持FP8（8位浮点）和MX格式（微缩浮点），并统一了不同硬件的算子库。以前我们跑一个Llama模型，要手动调NVIDIA的TensorRT、AMD的ROCm、Intel的OneDNN，每个平台的优化路径都不同。现在只要导出ONNX格式，OnnxRuntime 2.0会自动选择最优的混合精度策略——这直接降低了基础设施的适配成本，让“多芯片异构混部”成为可能。2026年很多中小企业不再绑定单一GPU厂商，而是用“NVIDIA+AMD+Intel”混合集群跑同一个模型，算力利用率提升了20%~30%。

效率不止体现在训练和推理的计算效率，还包括部署效率。2025~2026年，边缘AI的爆发催生了一个新概念：“推理分形”——把一个模型的推理任务拆解成高频轻量、中频均衡、低频复杂三部分，分别部署在端侧（手机/物联网）、边缘服务器、云端。例如，一个智能客服Agent，用户问“天气怎么样”直接由手机端小模型（0.5B）回答；“帮我订机票”由边缘服务器上的7B模型处理；而“分析过去三个月的财务数据并给出建议”则交给云上的70B模型。书里提到一个案例：某电商公司在2026年Q1部署了这种分形架构后，总推理成本下降了42%，而用户满意度反而因为端侧响应更快提升了5个百分点。

这里的关键技术是模型压缩与蒸馏的自动化。2026年出现了很多“一次性蒸馏”工具，比如Google的“LLM-Compress”和开源的“DistillKit”。它们可以基于一个教师模型（比如70B），自动生成多个不同大小的学生模型（1B、3B、7B），并针对特定任务进行知识迁移。过去做模型蒸馏需要手动调参和迭代，现在只需几个命令行参数就能生成一套“模型家族”，部署时根据设备算力动态选择合适的版本。

技术永远不是孤立的。当我们在谈效率时，必须面对两个伦理问题：能源正义和数字鸿沟。2025年全球AI数据中心的耗电量已经占到总发电量的3%（约3000亿千瓦时），而且大部分集中在少数几个国家（美国、中国、爱尔兰、冰岛）。效率提升虽然能降低单次推理的能耗，但总能耗却因为使用量的指数级增长而持续攀升。2026年4月，欧洲议会的《AI能源透明度法案》正式生效，要求所有部署超过1000张GPU的数据中心必须公开每吨CO₂对应的推理量。这迫使基础设施供应商开始采用“绿色调度”——在风能发电高峰时段优先处理非实时任务，在电网负荷低谷时做预训练。

另一个值得关注的是“效率陷阱”：当推理成本足够低时，会不会导致AI被过度滥用？比如，一些公司用大模型批量生成垃圾内容、刷流量、甚至训练Deepfake? 书的最后一章引用了哲学家Nick Bostrom的观点：技术进步本身不会带来安全，只有配套的治理机制才能。 2026年IEEE正在推动的“AI推理认证标准”要求每个推理请求携带一个不可伪造的“目的标签”，以区分是科学研究还是商业营销，这或许是个开始。

回到最开头的问题：AI基础设施的未来在哪？我读完这两本书，再结合过去一年的工作体验，得出三个判断：

2027年之前，大部分企业的重心会从“训练更大的模型”转向“把现有模型跑得更高效”。这不会是一个短期趋势，而是因为Scaling Laws的经济效益边界已经到来。
软件生态的统一将比硬件性能的提升更重要。ONNX、Triton、vLLM这类中间件的成熟，才是降低AI基础设施门槛的关键。
效率不等于伦理，但效率是伦理的基础。一个能耗过高、成本过高的AI系统，注定无法普惠，也无法避免被更高效的系统取代。

技术的尽头从来不是技术本身，而是我们如何用它来减少而不是增加世界的不平等。希望十年后回看2026年，我们不会只记得“算力更便宜了”，而是记得“我们终于开始认真思考：效率为了谁”。

正文完

发表至：读书笔记

2026-05-18

0