从InfiniBand到超以太网：AI基础设施的网络底层逻辑重构

12次阅读

共计 2505 个字符，预计需要花费 7 分钟才能阅读完成。

2026年的今天，如果你走进任何一个大模型训练集群的机房，会发现地板下布满的不仅是光纤，更是整个行业对计算效率近乎偏执的追求。过去五年，AI基础设施的炒作热点从GPU数量转向了网络吞吐——当单卡算力逼近物理极限，分布式训练中“卡间通信”的延迟与丢包，反而成了最隐蔽的瓶颈。作为一名参与过多个万卡集群建设的从业者，我想分享这两年最核心的一个认知转变：网络，正在从“传输管道”变成“计算资源”。

2024年之前，大多数数据中心网络设计还是“尽力而为”的TCP/IP模型。对于普通互联网服务，丢包重传的代价可以接受。但AI训练中，一个典型的AllReduce操作（梯度同步）要求所有GPU在毫秒级完成数据聚合。如果网络丢包率高达0.1%，那么一次500G参数的模型训练中，通信开销可能膨胀到总时间的60%以上。我在2025年初复盘某个千卡集群时发现，即便使用了RoCEv2（RDMA over Converged Ethernet），在突发流量下仍会出现微小的PFC死锁，导致训练任务反复中断——那段时间运维团队的“心流”几乎被完全打碎。

这背后是协议设计的根本矛盾：传统以太网追求公平性与鲁棒性，而AI网络需要确定性（bounded latency）和零丢包。于是我们不得不面对两条路：要么走InfiniBand这种专有硬件驱动的高成本路径，要么在标准以太网上“打补丁”。

RDMA（Remote Direct Memory Access）让GPU能直接读写远端内存，绕过了操作系统内核。但为了达成“零丢包”，网络必须开启PFC（Priority Flow Control）——一个简单的“反压”机制。我记得2025年某次测试中，因为一个交换机端口的PFC配置错误，导致整条链路的优先级队列发生“风车效应”（PFC死锁），训练集群直接冻结了8分钟。这类问题的根本原因在于：PFC本质上是让上游设备“暂停发送”，一旦多个上游同时被反压，就会形成递归阻塞。更令人头疼的是，RDMA的流控与拥塞控制算法（如DCQCN）对参数极其敏感，一个错误的水印阈值就可能让吞吐量腰斩。

这种“无损网络”其实是一个精巧的脆弱系统。 2025年底，我开始反思：是否必须用这么复杂的机制来换取那一点点的性能提升？答案在超以太网（Ultra Ethernet）联盟的出现中逐渐清晰。

2025年下半年，由多家云厂商和芯片公司发起的超以太网规范开始落地。它抛弃了传统PFC的“暂停/恢复”机制，转而采用基于信用的端到端流控（Credit-based flow control）。每个发送端提前申请接收端的缓存信用，只有信用足够才能发送数据。这就天然避免了PFC的死锁循环。同时，它的负载均衡不再假设所有路径长度相同，而是引入了自适应路由：每个数据包根据实时网络拥塞状态动态选择下一跳，而非传统的哈希链路。我在实验室里用一个模拟的64节点RoCE网络与超以太网对比：在50%背景流量下，超以太网的训练完成时间（JCT）下降了37%，且最大延迟抖动从2.3毫秒降到了0.4毫秒。

值得关注的细节：超以太网提出了“流体模型”的拥塞信号——通过将每个数据包的时延和带宽利用率编码进2比特的ECN标记中，控制域可以更精细地调节发送速率。这比传统二进制ECN（仅“拥塞/不拥塞”）提升了至少一个数量级的控制粒度。当然，这一切需要新型交换芯片的支持，比如博通在2026年初发布的Tomahawk 6已经集成了超以太网适配层。

更底层的变革发生在物理层。传统数据中心依赖可插拔光模块（如QSFP、OSFP），连接密度受限于面板空间。2026年，共封装光学（CPO）开始从实验室走向小规模商用。把光引擎直接封装到交换芯片的基板上，不仅减少了功耗（省掉了光模块的激光驱动），更让单端口速率突破1.6Tbps。我参观过一家初创公司的原型机：一颗7nm交换芯片集成了16个CPO光引擎，总共512个200Gbps的通道，整机功耗仅120W——这相当于用一台服务器的功耗驱动了25.6Tbps的交换容量。

同时，随着Chiplet（小芯片）架构在GPU和CPU中普及，Die-to-Die互联网络（如UCIe、BoW）正在模糊“片内”与“片间”的界限。未来的AI基础设施可能不再是“服务器+交换机”的两层模型，而是通过光背板将数千个Chiplet直接互联成一个逻辑上的超级计算池。2026年初发布的某款WSE（晶圆级处理器）已经展示了这种雏形：它通过嵌入式光纤总线连接了144个计算单元，训练ResNet-152时通信延迟仅为2微秒。

尽管网络技术突飞猛进，但所有进步都面临同一个天花板：能耗。每增加1Gbps的网络带宽，对应的光电转换和信号处理功耗约增加50-100mW。一个1万张GPU的集群，内部网络的总功耗可能占整体功率的15%-20%。2025年全球AI数据中心电力消耗已占全社会的2.3%（国际能源署数据），网络设备的能效提升远不如计算芯片。更令人担忧的是，超以太网联盟虽然声称开放，但核心专利仍被少数厂商把控——如果未来网络标准变成另一种“事实上的封闭生态”，中小企业的议价权将荡然无存。这也牵涉到AI伦理的一个侧面：算力的集中化会加剧技术霸权。

回顾过去两年，我最大的感受是：AI基础设施正在从“堆硬件”转向“做系统”。网络不再是辅助角色，而是与计算、存储平起平坐的孪生要素。下一个突破口很可能在于光学计算与网络的一体化——比如在光纤信道中直接完成简单的“加法”和“乘法”操作（All-Optical Matrix Multiply），从而省掉光电转换的延迟。这不是科幻，2026年3月的一篇Nature Photonics论文已经展示了一个8×8光计算单元在100Gbps网络下的可编程性。如果说2025年是“网络觉醒”之年，那么2026年或许就是“光与电交融”的起点。作为从业者，保持对底层技术原理的敬畏，才是应对一切变化的定力。

正文完

发表至：技术杂谈

2026-05-15

0