共计 2330 个字符,预计需要花费 6 分钟才能阅读完成。
为什么你需要重新理解“稀疏”
如果你在过去一年里关注过AI基础设施的演进,一定听过“稀疏专家混合模型”(Mixture-of-Experts, MoE)这个术语。2025年底发布的几个主流基础模型,几乎都采用了MoE架构,或者至少部分借鉴了其思想。但很多人的理解停留在“MoE就是把一个大模型拆成多个小模型”这种粗糙的比喻上。作为一个亲自参与过MoE训练和调优的工程师,我想和你深入聊聊这个架构背后的原理、2025-2026年间遇到的实际问题,以及那些公开论文里很少提到的细节。
从Dense到Sparse:一次不得已的转向
在2024年之前,业界普遍相信Scaling Law的简单推论:模型参数越大,效果越好。但到了2025年,训练一个稠密(Dense)模型超过数千亿参数时,计算成本和显存瓶颈已经变得不可承受。以典型的Transformer为例,一个1万亿参数的稠密模型,单次前向传播需要激活全部参数,即使输入只有一句话,也要完成数万亿次浮点运算。这不仅仅是成本问题——推理延迟也使得实时应用几乎不可能。
MoE的核心思想极其优雅:把模型的前馈网络层替换为多个独立的“专家”网络,并由一个门控网络(Router)根据输入动态选择激活其中少数几个专家。比如,经典的Top-2门控策略,每个Token只激活2个专家,其他专家完全静默。这样,虽然在训练时需要存储所有专家的参数(总参数量巨大),但每次前向传播的计算量只相当于2个专家的规模。在2026年的实践中,典型的MoE模型总参数量在500B-1T之间,但每个Token实际激活的参数量仅为30B-50B,计算效率提升了一个数量级。
训练中的隐形杀手:负载均衡与通信断层
任何在2025年尝试过从头训练MoE的团队,都会对“门控崩溃”心有余悸。这是指门控网络倾向于把大部分Token路由到少数几个“强专家”上,导致其他专家几乎不被激活,从而丧失稀疏化的优势。一个直观的解决办法是引入辅助损失(Auxiliary Loss),例如Google在《Switch Transformer》中提出的负载均衡损失,但在2025年的实践中,我们发现简单的辅助损失会严重干扰主干损失的学习,尤其是当专家数量超过64时。
更优的方案是Z-loss——一种在门控logits上施加的约束,通过限制门控输出的置信度来强迫专家分布均匀化。我们团队在2025年Q3的实验表明,Z-loss在256专家的MoE上比传统辅助损失降低了约40%的负载不均衡度,同时几乎不损失模型质量。当然,代价是训练时多一次指数运算。
另一个容易被忽略的痛点是与分布式训练的冲突。MoE的通信模式是典型的All-to-All:每个GPU需要把本地的Token发送给所有可能包含目标专家的GPU。当专家分布在256个GPU上时,通信量会急剧膨胀。2026年主流的解决方案是专家并行+数据混合并行,并利用异步全规约来隐藏通信延迟。具体来说,在每次前向传播之前,将门控结果提前发送,然后利用计算与通信的重叠来消除大部分等待时间。但这对底层网络(如InfiniBand)的带宽和延迟要求极高,很多中小团队在搭建集群时往往低估了这一块的成本。
2025-2026年的真实案例:从论文到生产线
虽然具体模型名字不便透露,但我可以分享一个典型的开源社区案例。2025年底发布的某款384专家模型(每个Transformer层包含384个FFN专家),在训练过程中遇到了一个奇怪的现象:某些专家在训练后期“死掉”——门控网络几乎永远不选择它们。调试后发现,问题出在初始化的不对称性:门控网络的权重在初始化时随机,但经过几万步训练后,少数专家的权重占据主导,门控对这些专家产生了路径依赖。最终的解决方案是动态调整辅助损失的权重:在训练早期(前20%步数)加大负载均衡的惩罚,后期再逐渐降低,让模型自己选择最优的专家分配。
到了2026年,MoE的部署也面临新的挑战。推理时,传统KV Cache管理策略在MoE上完全不适用——因为不同Token访问不同的专家,导致KV Cache的访问模式存在剧烈的不规则性。一些团队尝试了专家感知的KV Cache预取,通过门控信息提前把可能需要访问的专家权重加载到显存,但这样又会增加IO压力。目前最实用的做法是利用量化(FP8/FP4)压缩专家权重,把单专家的大小降到2-3GB,从而允许在一个GPU上同时缓存多个专家。
未来:从稀疏到极致稀疏,以及我们真正该关心的事
MoE的下一个前沿是“极致稀疏”——专家数量从现在的几百扩展到数千甚至上万,每层只激活一个专家(Top-1)。但Top-1门控面临的稳定性问题比Top-2严重得多:一旦某个Token被路由到错误的专家,模型没有第二个专家来兜底。2026年初的一些研究尝试用滑动窗口门控来缓解:在训练时,让门控同时考虑多个历史Token的分布,从而减少单点失误。另一个值得关注的方向是“专家融合”,即训练结束后,把语义相近的专家合并成更少的“超专家”,以减小模型总参数量,方便部署。
作为一个长期关注AI基础设施的人,我觉得MoE的普及最深远的影响不是模型质量提升,而是改变了我们看待“计算”的方式。传统上,我们认为“更大”等于“更慢”,但MoE让我们意识到,通过巧妙地设计激活策略,可以同时拥有“大”的容量和“小”的速度。这就像在拥挤的图书馆里,你不是把所有书都搬到桌子上,而是根据需求动态检索几本——这种思想正在渗透到AI系统设计的每个角落。对于工程师来说,理解MoE不仅仅是学会配置一个config,而是理解稀疏计算下的权衡艺术:负载均衡、通信拓扑、精度与效率的取舍,这些才是决定一个模型能否从论文走向生产的关键。