共计 2380 个字符,预计需要花费 6 分钟才能阅读完成。
最近整理书桌,翻出几本2023年买的AI基础设施相关书籍——《大规模分布式训练》《AI芯片设计实战》,以及几份2025年上半年的技术白皮书。眨眼已是2026年5月,再读这些内容,发现很多章节已经需要重写。过去两年,AI基础设施领域经历了从“堆卡就是正义”到“效率优先、架构重构”的剧烈转弯,我想借着这篇读书笔记,记录下我眼中的几个关键变化和深层思考。
一、规模定律(Scaling Law)的首次‘失灵’:从单纯堆GPU到存算网协同
2023-2024年,业界还沉浸在“大力出奇迹”的叙事里——模型参数从千亿奔向万亿,训练集群从数千卡扩展到数万卡。但2025年几篇重磅论文(比如Google的《Beyond Compute》和Meta的《Efficiency is the New Scale》)清晰地指出:当集群规模超过5000块H100(或B200)时,线性加速比开始显著下滑。我亲眼见过一个团队花了三个月调优通信拓扑,才把万卡集群的有效利用率从38%拉到62%——而这已经是行业顶尖水平。
这让人不得不反思:我们真的需要更大的“黑箱”吗?
2025-2026年,一个明显趋势是“存算网一体化”。不再是GPU孤岛,而是把HBM内存池、CXL互联、GPU RDMA网络视为一个整体系统。比如某头部云厂商在2025年底推出的“DCSv2”架构,通过将参数驻留在近存计算节点,结合稀疏MoE的动态路由,使得千亿模型训练中数据搬运成本降低了40%。我读了一篇技术专栏,里面详细拆解了他们的“三级缓存一致性协议”,恍然意识到:AI基础设施的瓶颈早已不是单卡算力,而是数据搬移的能耗与延迟。
二、推理侧的‘反向革命’:小模型+动态稀疏推理重塑成本结构
如果说2024年是推理卡(如H100 NVL)的爆发年,那么2025-2026年则是“推理效率经济学”的元年。我翻到一本2023年出版的《边缘AI实战》,当时还觉得“边缘”只适合语音唤醒等简单任务。但现在,基于混合专家(MoE)和结构化剪枝的“小模型”已经在多个场景中追平了2024年的大模型。
一个典型案例是苹果在2025年秋季发布的“Apple Intelligence v2”,其端侧模型仅3B参数,但通过4-bit量化+专家间的条件计算,在Siri理解、文档摘要等任务上达到了接近GPT-4o-mini的效果,而推理时延从2秒降到200毫秒。这背后是高通、三星、联发科在2025年推出的“AI推理专用NPU”,它们放弃了统一的SIMD设计,转而采用可重构的张量处理器,专门为动态稀疏计算优化。读了相关芯片架构论文后,我发现一个有趣现象:硬件与算法的协同进化正从“模型适配硬件”转为“硬件原生支持稀疏性”。
这对AI基础设施的启示是:未来数百万节点的推理集群,可能不需要最顶级的GPU,而是由大量低功耗、高稀疏计算效率的ASIC构成。2026年初,亚马逊AWS推出了基于自家Inferentia3的“无服务器推理+群”实例,价格仅为同等精度GPU推理实例的1/5,而延迟只增加了15%。我在读书笔记里写下:算力不再是稀缺资源,高效算力才是。
三、暗流涌动的‘伦理账单’:算力补贴与数字鸿沟
阅读到一本2025年出版的《AI伦理学》(第三版)时,其中一个章节让我停住:“全球AI训练用电量在2025年达到160 TWh,相当于瑞典全国的用电量。”但更令人不安的是,这160 TWh中,超过60%被前五大科技公司消耗。这种“算力集中化”带来了两个伦理困境:
第一,环境不公。大部分数据中心建在电网便宜、气候凉爽的地区(如北欧、美国西北部),但这些地区并不直接享受AI带来的收益——比如冰岛的数据中心消耗了大量清洁能源,而冰岛本地小企业依然用不上先进的AI服务。
第二,创新门槛。2025-2026年,训练一次前沿模型(如GPT-5级别)的成本已经突破5亿美元。这意味着中小团队和学术机构几乎被排除在基础模型研发之外。我读到一篇MIT学者的博客,他们尝试用“联邦计算+社区众包算力”的方式训练一个10B模型,虽然最终模型效果不错,但耗时一年半,中间节点故障处理超过200次。这种“算力不平等”正在固化AI领域的寡头格局。
解决方案不是没有。业界和学术界在2025年提出了一些“补丁”,比如开源模型蒸馏协议、公共算力银行(如EU的EuroHPC项目扩至AI专用)。但我认为,更根本的是要警惕“算力拜物教”——不要把模型参数和训练算力视作唯一评价标准。我在这本书的空白处批注:“最好的基础设施不是最快的集群,而是每个人都能借以解决自己问题的工具。”
四、读书感想:技术人的选择
合上这些书和报告,我坐在电脑前发呆半小时。2025-2026年的AI基础设施,正在经历从“野蛮生长”到“精耕细作”的蜕变。作为从业者,我们很容易陷入对SOTA模型的追逐,但读完这几本书我更确信:真正推动行业进步的不是更大的模型,而是更聪明的系统设计、更公平的算力分配,以及更清醒的伦理意识。
比如,一家欧洲初创公司2025年推出的“百分百绿色推理平台”,通过利用太阳能和风能的不确定性调度推理任务,虽然不适合聊天机器人这种实时交互,但对批量处理(如图像解析、文档OCR)却实现了零碳且成本降低30%。这让我想起书里的一句话:“基础设施的灵魂不在于它能跑多快的模型,而在于它如何被善意地使用。”
最后,我想用这个月新读的一本小册子《The End of the Hype Cycle》中的一段话收尾:“2026年,我们不再需要证明AI能做什么,而是需要证明AI应该做什么。基础设施的进化如果只追随算力,那它只是技术的奴隶;如果它开始回应人类社会的真实需求,那它才是文明的阶梯。”
这篇读书笔记写给自己,也写给正在为AI基础设施添砖加瓦的你。希望下一个两年,我们能一起见证从“算力军备竞赛”到“算力共同富裕”的转变。