深度学习核心原理再思考：从梯度流到表征坍缩

10次阅读

共计 2860 个字符，预计需要花费 8 分钟才能阅读完成。

在2025年底的今天，我们早已习惯用几行代码调用预训练模型完成各类任务，但每当遇到训练不收敛、loss曲线诡异抖动、或者下游任务性能突然崩坏时，最终还是要回到那几个最基础的问题：梯度去哪了？表征为什么坍缩了？归一化是如何挽救训练的？

本文尝试从一个“老玩家”的视角，重新梳理深度学习里几组容易被忽略却又至关重要的原理，结合2025-2026年出现的一些新工具与新思考，希望能给你带来一点不一样的启发。

2015年ResNet用恒等映射解决了超过100层网络的训练问题，但很多人以为残差连接只是“把输入加到输出”这么简单。实际上，它的核心价值在于为梯度流提供了一条“高速公路”——反向传播时，误差信号可以直接跳过卷积层传到浅层，避免了逐层衰减。

然而2025年的一系列实验表明，即便是用了残差连接，当深度超过1000层（比如在ViT或NLP的深层Transformer中），梯度仍然会面临“消失”和“爆炸”并存的双重困境。原因是恒等分支虽然保留了梯度幅度，但权重衰减（weight decay）和激活函数（如GELU）会在每层引入微小偏差，数百层累积后形成梯度偏移。

2025年MIT的研究团队提出了“梯度重平衡”（Gradient Rebalancing）方法：在前向传播时统计每个残差块的梯度范数比率，通过动态缩放残差分支的贡献度来维持整个网络的梯度方差。这一思路已经在DeepSeek-R1的训练中进行了验证，使得一个2000层的Transformer能够稳定收敛，而无需使用任何特殊的初始化技巧。

更值得关注的是2026年初出现的ReZero-Q架构：它将每个残差块中的可学习缩放参数初始化为零（而不是1），让网络从“恒等映射”开始训练，再逐步打开特征变换分支。这种极简策略在130B级别的模型上实现了比标准ResNet快3倍的收敛速度，同时减轻了梯度偏移。

归一化层早已成为深度学习的事实标准。BatchNorm在CV领域统治了十年，但在NLP中因为batch size较小或序列长度变化大而表现不佳，于是LayerNorm取而代之。2023年以来，RMSNorm凭借其计算高效（只做均方根归一化，不做减均值）逐渐成为主流——特别是LLaMA系列和GPT-4都采用了它。

但RMSNorm真的没有缺陷吗？2025年苏黎世联邦理工学院的分析指出：RMSNorm由于缺乏中心化操作，会导致不同token的表征均值发生偏移，从而引起“均值漂移”（mean shift）问题，尤其在长上下文中累积偏差更加明显。为此，2026年Google DeepMind推出了CrossNorm，它在每个token的维度上同时执行均值和方差校正，但通过一个轻量级的可学习门控来控制均值校正的强度，保证不会破坏RMSNorm的梯度稳定性。

有趣的是，2025年底有一批研究开始挑战“归一化是必须的”这一常识。“无归一化Transformer”（例如K.Q. Normalization替代LayerNorm）通过重新参数化注意力机制中的Query和Key的初始化分布，使得前向传播和反向传播的方差自然匹配，从而完全省掉归一化层。实测表明，在一个34亿参数的文本生成模型上，去掉所有LayerNorm后的训练损失曲线与有LayerNorm版本几乎重合，而且推理速度提升了18%。但作者也坦诚，在更大规模（>100B）上仍需验证。

AdamW是2025-2026年训练大模型的事实标准，但它的弱点也逐渐暴露：二阶矩估计会导致学习率对batch size的敏感度过高，而且记忆开销巨大（每个参数需要保存动量项和二阶矩）。2025年Facebook AI发布的LION优化器（通过符号化动量）虽然内存小、速度快，但在某些CV任务上收敛稳定性不如AdamW。

2026年真正引起关注的是μP（Maximal Update Parameterization）框架的普及化。μP的核心思想是：当模型宽度（隐藏层维度）改变时，优化器的学习率、初始化尺度、权重衰减等需要按特定缩放律进行调整，才能保证训练行为的一致性。微软研究院在2026年3月开源了μAdam，它将μP的缩放规则直接内置进Adam的更新步骤中，使得从1B到100B模型无需手动调优超参数。一个典型的案例：使用标准Adam训练70B模型时，batch size由1M调至2M会导致loss上升0.3，而μAdam的loss变化不超过0.02。

对于中小规模（1B以下）的场景，Sophia（基于Hessian对角估计的优化器）仍然值得关注。2025年的改进版SophiaG通过梯度裁剪和动态步长解决了原版在高学习率下的振荡问题，在700M参数的代码生成模型上比AdamW快了2.1倍。但它的代价是额外计算二阶信息，GPU显存需求增加约15%。

在自监督学习（如SimCLR、MAE）中，一个经典的问题是表征坍缩（representation collapse）：模型学到将所有样本映射到同一个或少数几个特征向量，从而失去判别能力。对比学习通过拉近正样本对、推远负样本对来解决，但负样本的数量和质量直接影响效果。

2026年出现了一个更优雅的解法——“方差-协方差正则化”（VICReg的进阶版）。研究者发现，表征坍缩的本质是模型“偷懒”使用低维子空间，因此除了鼓励多样化的特征分布外，还可以直接约束表征协方差矩阵的特征值分布：让特征值的方差尽可能小（即每个维度贡献相近）。一个在ImageNet-1K上预训练的Vision Transformer，若在loss中加入该项正则化，其线性探测准确率提升了3.2%，同时fine-tune收敛所需的epoch数减少了一半。

关于表征坍缩另一个容易被忽视的场景是Fine-tuning阶段。当预训练模型在下游任务上微调时，如果学习率设置不当，特征提取器可能迅速退化，导致输出层的表征维度塌陷。2025年发表的“渐进式层冻结”策略：在微调前几个epoch保持底层参数完全冻结，只更新分类头；然后以每10%的epoch逐层放开底层，同时将底层的学习率设为顶层的0.1倍。这个方法在GLUE和SuperGLUE上取得了平均+2.8%的提升，尤其在小样本场景下效果显著。

回看2025-2026年的这些进展，无论是梯度重平衡、CrossNorm还是μAdam，本质上依然围绕着深度学习最核心的几个问题：梯度流、统计归一化、参数更新与表示空间。每一次技术进步，往往是对老问题的重新理解。作为一个从业者，我的感受是：不要被层出不穷的新名词迷惑，真正有价值的创新往往来自于对基础原理的深入质疑。

希望这篇略带“纸上谈兵”的回顾，能唤起你对那些看似简单却从未完全解决的问题的好奇。毕竟，下一个突破或许就藏在这些细节里。

正文完

发表至：深度学习

2026-05-14

0