算力过剩还是算力饥渴?2025年AI基础设施的真相

24次阅读
没有评论

共计 1756 个字符,预计需要花费 5 分钟才能阅读完成。

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停摆的狼狈。2025年,当大模型参数从千亿级跃向万亿级,一个矛盾正变得刺眼:我们一边高喊“算力瓶颈”,一边又让大量GPU在非高峰时段空转。这不是简单的供需失衡,而是AI基础设施在狂奔中撞上的结构性问题——算力“过剩”与“饥渴”同时存在。

算力洪流下的隐形浪费

先看一组来自IDC的数据:2025年上半年,国内智算中心平均资源利用率仅34%,而顶级云厂商的弹性算力池利用率也徘徊在45%–55%之间。换句话说,每一块A100/H100的卡,有近半时间在待机或做低效的梯度同步。问题出在架构设计上——为了满足大模型训练时“低延迟、高吞吐”的极端需求,多数集群采用静态分配策略,一旦训练任务结束或调整,剩余算力很难被小规模推理任务复用。

更麻烦的是,分布式训练中的数据通信瓶颈正在吞噬有效算力。以千卡以上集群为例,通信开销占总计算时间的比例从2023年的15%飙升至2025年的30%–40%。我曾参观一家初创公司,他们用4000张H100训练MoE模型,实测有效算力产出不到标称峰值的一半。这种“算力饥渴”不是真缺卡,而是缺能高效协同的架构设计。

液冷与低碳:基础设施的绿色转身

算力浪费的另一面是能源消耗。2025年,单颗GPU功耗已突破1200W,整机柜热密度达到100kW/柜以上,传统风冷方案彻底失效。我在贵州一个新建的智算中心看到,他们采用了全浸没式液冷技术:服务器直接泡在绝缘液体中,借助相变带走热量,PUE(能源效率指标)能压到1.05以下。相比传统风冷的1.3–1.4,每年节省的电费足以覆盖液冷系统的投资成本。

但这还不是终点。2026年初,国内某头部云厂商开始试点余热回收——将液冷系统排出的高温冷却水通过热交换器,为办公园区供暖。虽然规模尚小,但预示着基础设施从“耗能者”向“能源服务者”的角色转变。更令人兴奋的是,国家能源局2025年底发布的《算电协同行动计划》明确要求:新建智算中心必须配套可再生能源,且消纳比例2026年要达到60%以上。这意味着,未来的算力将自带“绿电身份证”。

边缘计算与混合架构:解放集中式算力

为什么80%的模型推理任务仍然跑在中心集群?因为边缘端硬件和软件生态太碎片化。2025年,我们终于看到了突破口:高通、英伟达相继推出边缘AI芯片,算力密度提升3倍,功耗却下降40%。与此同时,国内一家自动驾驶公司联合运营商,在城市闲置的5G基站旁部署了微型液冷边缘节点,专门处理车载视频流的实时推理——延迟从云端200ms降到局部8ms,且无需占用中心算力。

更典型的案例是淘宝2025年双11大促中的“混合推理架构”:将80%的用户请求(如搜索结果、推荐排序)交给边缘节点处理,只有复杂查询(如多轮对话、图像生成)才回传中心。结果,中心集群的峰值算力需求降低了65%,而用户体验几乎没有下降。这恰好验证了“释放存量算力最好的方式,是让它们只做最擅长的事”

算力共享:从“军备竞赛”到“水电煤”

2025年最让我感慨的变化,是政府主导的“算力券”和“算力银行”试点正式落地。简单来说,企业可以在算力盈余时将空闲资源“存入”公有池,换取补贴或额度,需要时再提取。上海张江高科技园区的“智算枢纽”已经接入超过20家企业的闲散GPU,通过统一调度中台,将这些零散算力打包成标准化服务,对外按需计费。我记得有一个AI制药团队,用券兑换了1000小时的高性能算力,完成了原本需要自建集群的药物筛选模拟——成本只有传统的1/3

当然,共享模式也有隐忧:数据安全、任务隔离、带宽争抢……但至少走出了第一步。2026年,随着“算力度”等计量标准的建立,算力有望像水电一样“即插即用”。我始终认为,AI基础设施的终极形态不是更大的单体集群,而是一张高弹性、低损耗、绿色化的分布式算力网络。

展望:2026年的基础设施图景

站在2025年6月回望,我们正经历一次深刻的转型。算力不再只是显卡数量的堆砌,而是环保、效率、共享的复杂系统。如果你问我给从业者的建议,我会说:别只盯着H100的订单,多想想怎么让现有的GPU不再“摸鱼”。因为真正决定AI发展速度的,从来不是算力总量的天花板,而是我们使用它的智慧。

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-16发表,共计1756字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
评论(没有评论)