《AI基础设施的2025-2026：从算力狂热到理性演进》——读书笔记

10次阅读

共计 2380 个字符，预计需要花费 6 分钟才能阅读完成。

最近整理书桌，翻出几本2023年买的AI基础设施相关书籍——《大规模分布式训练》《AI芯片设计实战》，以及几份2025年上半年的技术白皮书。眨眼已是2026年5月，再读这些内容，发现很多章节已经需要重写。过去两年，AI基础设施领域经历了从“堆卡就是正义”到“效率优先、架构重构”的剧烈转弯，我想借着这篇读书笔记，记录下我眼中的几个关键变化和深层思考。

2023-2024年，业界还沉浸在“大力出奇迹”的叙事里——模型参数从千亿奔向万亿，训练集群从数千卡扩展到数万卡。但2025年几篇重磅论文（比如Google的《Beyond Compute》和Meta的《Efficiency is the New Scale》）清晰地指出：当集群规模超过5000块H100（或B200）时，线性加速比开始显著下滑。我亲眼见过一个团队花了三个月调优通信拓扑，才把万卡集群的有效利用率从38%拉到62%——而这已经是行业顶尖水平。

这让人不得不反思：我们真的需要更大的“黑箱”吗？

2025-2026年，一个明显趋势是“存算网一体化”。不再是GPU孤岛，而是把HBM内存池、CXL互联、GPU RDMA网络视为一个整体系统。比如某头部云厂商在2025年底推出的“DCSv2”架构，通过将参数驻留在近存计算节点，结合稀疏MoE的动态路由，使得千亿模型训练中数据搬运成本降低了40%。我读了一篇技术专栏，里面详细拆解了他们的“三级缓存一致性协议”，恍然意识到：AI基础设施的瓶颈早已不是单卡算力，而是数据搬移的能耗与延迟。

如果说2024年是推理卡（如H100 NVL）的爆发年，那么2025-2026年则是“推理效率经济学”的元年。我翻到一本2023年出版的《边缘AI实战》，当时还觉得“边缘”只适合语音唤醒等简单任务。但现在，基于混合专家（MoE）和结构化剪枝的“小模型”已经在多个场景中追平了2024年的大模型。

一个典型案例是苹果在2025年秋季发布的“Apple Intelligence v2”，其端侧模型仅3B参数，但通过4-bit量化+专家间的条件计算，在Siri理解、文档摘要等任务上达到了接近GPT-4o-mini的效果，而推理时延从2秒降到200毫秒。这背后是高通、三星、联发科在2025年推出的“AI推理专用NPU”，它们放弃了统一的SIMD设计，转而采用可重构的张量处理器，专门为动态稀疏计算优化。读了相关芯片架构论文后，我发现一个有趣现象：硬件与算法的协同进化正从“模型适配硬件”转为“硬件原生支持稀疏性”。

这对AI基础设施的启示是：未来数百万节点的推理集群，可能不需要最顶级的GPU，而是由大量低功耗、高稀疏计算效率的ASIC构成。2026年初，亚马逊AWS推出了基于自家Inferentia3的“无服务器推理+群”实例，价格仅为同等精度GPU推理实例的1/5，而延迟只增加了15%。我在读书笔记里写下：算力不再是稀缺资源，高效算力才是。

阅读到一本2025年出版的《AI伦理学》（第三版）时，其中一个章节让我停住：“全球AI训练用电量在2025年达到160 TWh，相当于瑞典全国的用电量。”但更令人不安的是，这160 TWh中，超过60%被前五大科技公司消耗。这种“算力集中化”带来了两个伦理困境：

第一，环境不公。大部分数据中心建在电网便宜、气候凉爽的地区（如北欧、美国西北部），但这些地区并不直接享受AI带来的收益——比如冰岛的数据中心消耗了大量清洁能源，而冰岛本地小企业依然用不上先进的AI服务。

第二，创新门槛。2025-2026年，训练一次前沿模型（如GPT-5级别）的成本已经突破5亿美元。这意味着中小团队和学术机构几乎被排除在基础模型研发之外。我读到一篇MIT学者的博客，他们尝试用“联邦计算+社区众包算力”的方式训练一个10B模型，虽然最终模型效果不错，但耗时一年半，中间节点故障处理超过200次。这种“算力不平等”正在固化AI领域的寡头格局。

解决方案不是没有。业界和学术界在2025年提出了一些“补丁”，比如开源模型蒸馏协议、公共算力银行（如EU的EuroHPC项目扩至AI专用）。但我认为，更根本的是要警惕“算力拜物教”——不要把模型参数和训练算力视作唯一评价标准。我在这本书的空白处批注：“最好的基础设施不是最快的集群，而是每个人都能借以解决自己问题的工具。”

合上这些书和报告，我坐在电脑前发呆半小时。2025-2026年的AI基础设施，正在经历从“野蛮生长”到“精耕细作”的蜕变。作为从业者，我们很容易陷入对SOTA模型的追逐，但读完这几本书我更确信：真正推动行业进步的不是更大的模型，而是更聪明的系统设计、更公平的算力分配，以及更清醒的伦理意识。

比如，一家欧洲初创公司2025年推出的“百分百绿色推理平台”，通过利用太阳能和风能的不确定性调度推理任务，虽然不适合聊天机器人这种实时交互，但对批量处理（如图像解析、文档OCR）却实现了零碳且成本降低30%。这让我想起书里的一句话：“基础设施的灵魂不在于它能跑多快的模型，而在于它如何被善意地使用。”

最后，我想用这个月新读的一本小册子《The End of the Hype Cycle》中的一段话收尾：“2026年，我们不再需要证明AI能做什么，而是需要证明AI应该做什么。基础设施的进化如果只追随算力，那它只是技术的奴隶；如果它开始回应人类社会的真实需求，那它才是文明的阶梯。”

这篇读书笔记写给自己，也写给正在为AI基础设施添砖加瓦的你。希望下一个两年，我们能一起见证从“算力军备竞赛”到“算力共同富裕”的转变。

正文完

发表至：读书笔记

2026-05-14

0