从InfiniBand到超以太网:AI基础设施的网络底层逻辑重构

12次阅读
没有评论

共计 2505 个字符,预计需要花费 7 分钟才能阅读完成。

2026年的今天,如果你走进任何一个大模型训练集群的机房,会发现地板下布满的不仅是光纤,更是整个行业对计算效率近乎偏执的追求。过去五年,AI基础设施的炒作热点从GPU数量转向了网络吞吐——当单卡算力逼近物理极限,分布式训练中“卡间通信”的延迟与丢包,反而成了最隐蔽的瓶颈。作为一名参与过多个万卡集群建设的从业者,我想分享这两年最核心的一个认知转变:网络,正在从“传输管道”变成“计算资源”。

传统数据中心网络的盲区

2024年之前,大多数数据中心网络设计还是“尽力而为”的TCP/IP模型。对于普通互联网服务,丢包重传的代价可以接受。但AI训练中,一个典型的AllReduce操作(梯度同步)要求所有GPU在毫秒级完成数据聚合。如果网络丢包率高达0.1%,那么一次500G参数的模型训练中,通信开销可能膨胀到总时间的60%以上。我在2025年初复盘某个千卡集群时发现,即便使用了RoCEv2(RDMA over Converged Ethernet),在突发流量下仍会出现微小的PFC死锁,导致训练任务反复中断——那段时间运维团队的“心流”几乎被完全打碎。

这背后是协议设计的根本矛盾:传统以太网追求公平性与鲁棒性,而AI网络需要确定性(bounded latency)和零丢包。于是我们不得不面对两条路:要么走InfiniBand这种专有硬件驱动的高成本路径,要么在标准以太网上“打补丁”。

RDMA与无损网络的“甜蜜陷阱”

RDMA(Remote Direct Memory Access)让GPU能直接读写远端内存,绕过了操作系统内核。但为了达成“零丢包”,网络必须开启PFC(Priority Flow Control)——一个简单的“反压”机制。我记得2025年某次测试中,因为一个交换机端口的PFC配置错误,导致整条链路的优先级队列发生“风车效应”(PFC死锁),训练集群直接冻结了8分钟。这类问题的根本原因在于:PFC本质上是让上游设备“暂停发送”,一旦多个上游同时被反压,就会形成递归阻塞。更令人头疼的是,RDMA的流控与拥塞控制算法(如DCQCN)对参数极其敏感,一个错误的水印阈值就可能让吞吐量腰斩。

这种“无损网络”其实是一个精巧的脆弱系统。 2025年底,我开始反思:是否必须用这么复杂的机制来换取那一点点的性能提升?答案在超以太网(Ultra Ethernet)联盟的出现中逐渐清晰。

超以太网:重新定义拥塞控制与负载均衡

2025年下半年,由多家云厂商和芯片公司发起的超以太网规范开始落地。它抛弃了传统PFC的“暂停/恢复”机制,转而采用基于信用的端到端流控(Credit-based flow control)。每个发送端提前申请接收端的缓存信用,只有信用足够才能发送数据。这就天然避免了PFC的死锁循环。同时,它的负载均衡不再假设所有路径长度相同,而是引入了自适应路由:每个数据包根据实时网络拥塞状态动态选择下一跳,而非传统的哈希链路。我在实验室里用一个模拟的64节点RoCE网络与超以太网对比:在50%背景流量下,超以太网的训练完成时间(JCT)下降了37%,且最大延迟抖动从2.3毫秒降到了0.4毫秒。

值得关注的细节:超以太网提出了“流体模型”的拥塞信号——通过将每个数据包的时延和带宽利用率编码进2比特的ECN标记中,控制域可以更精细地调节发送速率。这比传统二进制ECN(仅“拥塞/不拥塞”)提升了至少一个数量级的控制粒度。当然,这一切需要新型交换芯片的支持,比如博通在2026年初发布的Tomahawk 6已经集成了超以太网适配层。

光电混合互联与Chiplet网络的趋势

更底层的变革发生在物理层。传统数据中心依赖可插拔光模块(如QSFP、OSFP),连接密度受限于面板空间。2026年,共封装光学(CPO)开始从实验室走向小规模商用。把光引擎直接封装到交换芯片的基板上,不仅减少了功耗(省掉了光模块的激光驱动),更让单端口速率突破1.6Tbps。我参观过一家初创公司的原型机:一颗7nm交换芯片集成了16个CPO光引擎,总共512个200Gbps的通道,整机功耗仅120W——这相当于用一台服务器的功耗驱动了25.6Tbps的交换容量。

同时,随着Chiplet(小芯片)架构在GPU和CPU中普及,Die-to-Die互联网络(如UCIe、BoW)正在模糊“片内”与“片间”的界限。未来的AI基础设施可能不再是“服务器+交换机”的两层模型,而是通过光背板将数千个Chiplet直接互联成一个逻辑上的超级计算池。2026年初发布的某款WSE(晶圆级处理器)已经展示了这种雏形:它通过嵌入式光纤总线连接了144个计算单元,训练ResNet-152时通信延迟仅为2微秒。

隐忧:能效红线与生态锁定

尽管网络技术突飞猛进,但所有进步都面临同一个天花板:能耗。每增加1Gbps的网络带宽,对应的光电转换和信号处理功耗约增加50-100mW。一个1万张GPU的集群,内部网络的总功耗可能占整体功率的15%-20%。2025年全球AI数据中心电力消耗已占全社会的2.3%(国际能源署数据),网络设备的能效提升远不如计算芯片。更令人担忧的是,超以太网联盟虽然声称开放,但核心专利仍被少数厂商把控——如果未来网络标准变成另一种“事实上的封闭生态”,中小企业的议价权将荡然无存。这也牵涉到AI伦理的一个侧面:算力的集中化会加剧技术霸权。

写在2026年的展望

回顾过去两年,我最大的感受是:AI基础设施正在从“堆硬件”转向“做系统”。网络不再是辅助角色,而是与计算、存储平起平坐的孪生要素。下一个突破口很可能在于光学计算与网络的一体化——比如在光纤信道中直接完成简单的“加法”和“乘法”操作(All-Optical Matrix Multiply),从而省掉光电转换的延迟。这不是科幻,2026年3月的一篇Nature Photonics论文已经展示了一个8×8光计算单元在100Gbps网络下的可编程性。如果说2025年是“网络觉醒”之年,那么2026年或许就是“光与电交融”的起点。作为从业者,保持对底层技术原理的敬畏,才是应对一切变化的定力。

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-15发表,共计2505字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
评论(没有评论)