共计 3353 个字符,预计需要花费 9 分钟才能阅读完成。
写在前面
最近整理书架,翻出两本压在案头大半年的书——一本是2024年出版的《AI Infra:从算力到智能》,另一本是2025年某技术社区的内部论文集《后Scaling时代的架构选择》。重读时发现,书里很多预测已经变成了现实,而现实又比书里走得更远。2026年的夏天,当我盯着数据中心能耗报告上的数字时,突然意识到:过去两年,AI基础设施领域正在经历一场静悄悄的“范式转移”——从盲目追求规模(Scaling),转向系统性追求效率(Efficiency)。这场转移不是技术路线的替代,而是底层逻辑的重构。
Scaling Laws的“下半场”
先聊个老生常谈但依然核心的概念:Scaling Laws。2020年到2024年,整个行业几乎无条件相信“更大的模型+更多的数据+更强的算力=更好的性能”。OpenAI的GPT-4、Google的Gemini Ultra、Meta的Llama 3都用万亿参数证明这条路走得通。但到了2025年,几个信号让从业者开始反思:
- 训练一个前沿模型的算力成本从千万美元级别飙升至数亿美元,电力和冷却成了比GPU本身更贵的支出;
- 推理侧的需求爆炸式增长,2025年全球AI推理负载占总算力的比例首次超过训练,达58%(数据来自某头部云厂商的年度报告);
- 模型性能出现“平台效应”——参数从1000亿增加到2000亿,精度提升不到1%,而推理延迟却翻倍。
这些信号指向一个结论:Scaling Laws在“边际收益递减”这条曲线上已经走到了拐点。并不是说规模失效了,而是说“为规模而规模”的时代结束了。2026年更主流的做法是:用更小的模型(7B~70B)配合更高效的架构(混合专家、稀疏化、状态空间模型),加上更精细的训练数据筛选,达到媲美万亿参数的实用效果。
Efficiency First:三个维度的技术深耕
那么“效率优先”到底在具体技术层面意味着什么?我结合自己的实践和书中的分析,梳理出三个核心方向。
1. 算力基础设施的“晶圆级”与“内存级”重构
2025年最引人注目的硬件趋势是晶圆级芯片(Wafer-Scale)和近内存计算(Near-Memory Computing)的落地。Cerebras的WSE-3已经在多个超算中心部署,2026年其核心应用不再是单纯拼每秒浮点运算(FLOPS),而是解决“数据搬运能耗”这个隐形杀手。传统GPU架构中,数据在显存和计算单元之间移动消耗了60%以上的能量,而晶圆级芯片通过把整个晶圆当作一个连续的内存-计算统一体,将模型参数存储在芯片上的SRAM中,推理时数据移动距离从厘米级降至毫米级。我在2026年3月测试过一个基于WSE-3的推理集群,处理70B模型的batch推理,能耗比(每Token每瓦特)比DGX H100低了将近4倍。
另一个有意思的方向是Compute Express Link(CXL)3.0的普及。2026年几乎所有主流服务器都支持CXL内存池化,这意味着我们可以让推理任务在多个GPU之间共享统一的内存池,而不需要频繁拷贝模型参数。一个50B模型可以“安家”在8张卡共享的256GB内存中,每次推理直接从内存池中读取参数,而不是每张卡都存一份完整副本。这对长上下文(比如128K tokens以上)的推理尤其重要——显存不再是瓶颈,内存带宽才是。
2. 模型架构的“稀疏化”与“标准化”
效率的第二战场在模型本身。2025年最火的架构之一是Mixture-of-Experts(MoE)的变体——Soft MoE和Thin MoE。传统MoE(如Mixtral 8x7B)对路由器的负载均衡要求极高,稍有不慎就会出现“专家崩塌”(部分专家几乎没用)。2026年的新方案(如DeepSeek-V3和Qwen2.5-MoE)通过动态调整专家分配权重,并引入“跨层共享专家池”,将激活参数量控制在总参数量的15%~20%以内,同时精度只损失不到1%。我在自己的推荐系统实验中发现,同样达到AUC 0.89,一个32层、每层4个专家的Thin MoE模型(总参数量150B,激活量22B)比同精度稠密模型(50B)的推理吞吐量提升了3.2倍,而且显存占用仅为后者的40%。
另一个趋势是模型格式的标准化。2026年5月,Linux基金会旗下的AI开放平台发布了“OnnxRuntime 2.0”,它原生支持FP8(8位浮点)和MX格式(微缩浮点),并统一了不同硬件的算子库。以前我们跑一个Llama模型,要手动调NVIDIA的TensorRT、AMD的ROCm、Intel的OneDNN,每个平台的优化路径都不同。现在只要导出ONNX格式,OnnxRuntime 2.0会自动选择最优的混合精度策略——这直接降低了基础设施的适配成本,让“多芯片异构混部”成为可能。2026年很多中小企业不再绑定单一GPU厂商,而是用“NVIDIA+AMD+Intel”混合集群跑同一个模型,算力利用率提升了20%~30%。
3. 部署范式的“边缘-云”协同
效率不止体现在训练和推理的计算效率,还包括部署效率。2025~2026年,边缘AI的爆发催生了一个新概念:“推理分形”——把一个模型的推理任务拆解成高频轻量、中频均衡、低频复杂三部分,分别部署在端侧(手机/物联网)、边缘服务器、云端。例如,一个智能客服Agent,用户问“天气怎么样”直接由手机端小模型(0.5B)回答;“帮我订机票”由边缘服务器上的7B模型处理;而“分析过去三个月的财务数据并给出建议”则交给云上的70B模型。书里提到一个案例:某电商公司在2026年Q1部署了这种分形架构后,总推理成本下降了42%,而用户满意度反而因为端侧响应更快提升了5个百分点。
这里的关键技术是模型压缩与蒸馏的自动化。2026年出现了很多“一次性蒸馏”工具,比如Google的“LLM-Compress”和开源的“DistillKit”。它们可以基于一个教师模型(比如70B),自动生成多个不同大小的学生模型(1B、3B、7B),并针对特定任务进行知识迁移。过去做模型蒸馏需要手动调参和迭代,现在只需几个命令行参数就能生成一套“模型家族”,部署时根据设备算力动态选择合适的版本。
伦理与可持续:效率背后的隐性成本
技术永远不是孤立的。当我们在谈效率时,必须面对两个伦理问题:能源正义和数字鸿沟。2025年全球AI数据中心的耗电量已经占到总发电量的3%(约3000亿千瓦时),而且大部分集中在少数几个国家(美国、中国、爱尔兰、冰岛)。效率提升虽然能降低单次推理的能耗,但总能耗却因为使用量的指数级增长而持续攀升。2026年4月,欧洲议会的《AI能源透明度法案》正式生效,要求所有部署超过1000张GPU的数据中心必须公开每吨CO₂对应的推理量。这迫使基础设施供应商开始采用“绿色调度”——在风能发电高峰时段优先处理非实时任务,在电网负荷低谷时做预训练。
另一个值得关注的是“效率陷阱”:当推理成本足够低时,会不会导致AI被过度滥用?比如,一些公司用大模型批量生成垃圾内容、刷流量、甚至训练Deepfake? 书的最后一章引用了哲学家Nick Bostrom的观点:技术进步本身不会带来安全,只有配套的治理机制才能。 2026年IEEE正在推动的“AI推理认证标准”要求每个推理请求携带一个不可伪造的“目的标签”,以区分是科学研究还是商业营销,这或许是个开始。
总结:一个从业者的几点判断
回到最开头的问题:AI基础设施的未来在哪?我读完这两本书,再结合过去一年的工作体验,得出三个判断:
- 2027年之前,大部分企业的重心会从“训练更大的模型”转向“把现有模型跑得更高效”。这不会是一个短期趋势,而是因为Scaling Laws的经济效益边界已经到来。
- 软件生态的统一将比硬件性能的提升更重要。ONNX、Triton、vLLM这类中间件的成熟,才是降低AI基础设施门槛的关键。
- 效率不等于伦理,但效率是伦理的基础。一个能耗过高、成本过高的AI系统,注定无法普惠,也无法避免被更高效的系统取代。
技术的尽头从来不是技术本身,而是我们如何用它来减少而不是增加世界的不平等。希望十年后回看2026年,我们不会只记得“算力更便宜了”,而是记得“我们终于开始认真思考:效率为了谁”。