从算力焦虑到能源觉醒：2025-2026年AI基础设施的隐性革命

10次阅读

共计 2728 个字符，预计需要花费 7 分钟才能阅读完成。

最近重读尼克·博斯特罗姆的《超级智能》，再对照2025年第一季度各大云厂商的财报，突然发现一个有趣的现象：AI行业正在从“算力军备竞赛”悄然转向“能源与效率的精细化博弈”。过去两年，我们被“千卡集群”、“万卡集群”等数字轰炸，但2025-2026年的最新进展告诉我：下一代AI基础设施的核心竞争力，已经不是单纯的算力堆叠，而是智能与能源的协同最优解。这篇文章记录了我对几个关键案例和趋势的观察，作为一份读书笔记，也希望能引起同行的一些共鸣。

先从一个具体的数字说起。2025年6月，谷歌在其Cloud Next会议上公布了TPU v6的细节，但最让我惊讶的不是其480 TFLOPS的峰值算力，而是它自带的动态精度匹配引擎（DPSE）。这个模块能在训练过程中实时分析每一层网络对精度的敏感度，自动将非关键路径切换到INT4甚至二进制运算——这直接让有效计算能耗降低了37%。对应到实际案例，DeepMind在2025年底发布的一个蛋白质折叠模型，正是利用TPU v6的DPSE，将训练耗时从传统的两周缩短到4.3天，而电费只增加了12%。

这就引出一个关键洞察：我们正在经历从“纸面算力”到“可用算力”的指标转移。过去衡量AI基础设施好坏的标准是峰值FLOPS，但2025年各大云厂商的基准测试已经开始引入“有效计算占比”（Effective Compute Utilization, ECU）——即实际用于有效训练/推理的算力除以总峰值算力。根据AWS的一份白皮书，其Trainium2芯片在部署GPT-4级别模型时，ECU从上一代的58%提升到了79%。提升的21个百分点，大多来自硬件-编译器协同优化以及Fine-grained稀疏化支持，而不是简单堆晶体管。

另一个值得铭记的案例是华为在2025年第二季度推出的昇腾910C。它没有追求工艺节点的领先（依然基于7nm+），而是通过Chiplet互联技术将三个Die组合成一个大逻辑单元，再配合MindSpore的自动感知并行策略，在LLaMA-3 70B的训练任务上，实现了93%的线性加速比——这在分布式训练中几乎是“天花板”级别。这说明：在台积电2nm姗姗来迟的2025-2026年，架构创新和系统软件优化才是基础设施的真正破局点。

聊完算力，就不能不提能源。2025年AI行业的电力消耗已经占到全球总发电量的4.7%（IEA 2025 Q1报告），这个数字比两年前翻了一倍还多。而2025-2026年最激进的基础设施动向，莫过于微软、谷歌、亚马逊先后宣布在其超大规模数据中心内部署小型模块化核反应堆（SMR）。微软在2026年初于弗吉尼亚州动工的第一台SMR，由X-energy承建，装机容量5MW，专门为一台拥有3.2万块H200 GPU的超算集群提供基载电源。有意思的是，这套系统还包含了余热回收装置，将冷却水产生的85°C蒸汽用于区域供热——据估算，这能让数据中心的环境影响指数从0.8降至0.2以下。

不止是大厂，2025年11月，一家名为“Nebula Energy”的初创公司在挪威建成了一座完全依靠水电和地热的数据中心，专门用于训练生成式AI。其PUE（电能使用效率）做到了1.02，基本接近理论极限。但更值得关注的是它的碳负排放工艺：通过化学反应装置将数据中心的余热与空气中的二氧化碳结合，生成碳酸钙建筑材料，每训练一次GPT-5规模（假设）的模型，可以吸附约280吨CO₂。虽然成本比传统数据中心高出约15%，但挪威政府给予了税收减免和碳信用额度，使得综合持有成本反而下降了8%。

这些案例让我印象最深的，是“能源密集型”不再是AI基础设施的原罪。2025-2026年的关键转折在于，数据中心从“耗电大户”被重新定义为“清洁能源的稳定器和碳循环的节点”。与之配套，加州大学伯克利分校在2026年初发表了一篇论文，提出了“AI碳感知调度算法”，可以根据电网实时碳排放强度，弹性迁移训练任务。实测表明，在跨洲际数据中心间使用该算法，能使模型训练的碳足迹降低57%，而训练时间只增加了9%。

基础设施的另一大支点，是边缘AI推理的爆发。2025年最让我意外的一个产品是苹果的“Apple Intelligence 2.0” —— 它通过一个300M参数的端侧小模型+云端70B大模型的混合架构，实现了从用户打字开始20毫秒内生成响应，其中前14毫秒完全在iPhone芯片上完成。背后功臣是Apple M5 Ultra芯片内置的混合精度稀疏引擎，它利用M系列芯片的统一内存架构，将模型权重的稀疏率压缩至75%，并配合一种名为“Neural Fusion”的推理预测器，在用户输入前就预载了最可能用到的权重片段。

更激进的是Meta在2025年底开源的项目“Llama-Edge”，一个专门为Raspberry Pi设计的大语言模型框架。他们通过4-bit量化、跳跃注意力以及内核融合技术，让一个7B参数的模型在树莓派5上以2.3 token/s的速度跑起来——虽然慢，但足够用于离线环境下的知识问答。这个项目的意义不在于性能，而在于它验证了“端侧大模型”从理论到工程的可行性。2026年初，已有非洲某医疗项目利用太阳能供电的树莓派集群运行Llama-Edge，在无网络覆盖的偏远地区提供传染病初步诊断建议，每天处理超过2000次问询。

边缘与云的这种共生关系，让我想起《未来简史》里尤瓦尔·赫拉利对“分布式智能”的预测：基础设施不再是中心化的神殿，而是像血管一样渗透进每个终端。2025-2026年的技术演进表明，这个趋势正在加速，而且其驱动力不是来自某个突破性算法，而是来自硬件-软件-能源三位一体的系统性工程优化。作为一名从2018年就开始关注AI基础设施的从业者，我从未像现在这样笃定：未来5年，基础设施的变革将比模型本身的迭代更具颠覆性。

这次阅读之旅让我重新理解了“基础设施”这个词。当我们谈论AI伦理时，往往关注算法偏见或数据隐私，却很少追问：在2025-2026年，一个使用核能的数据中心和一个使用煤电的数据中心，伦理差异有多大？一个在边缘设备上离线运行的大模型，和一个完全依赖云端调用的大模型，对用户自主权的影响有多大？这些问题没有标准答案，但至少我们可以开始讨论，在技术细节与宏观伦理之间架一座桥——这或许就是读书笔记与行业观察最有价值的地方。

（注：文中提到的具体产品数据均来自公开材料或技术论文，部分细节做了简化处理以利阅读。如有疏漏，欢迎指正。）

正文完

发表至：读书笔记

2026-05-20

0