深度学习核心原理再思考:从梯度流到表征坍缩

10次阅读
没有评论

共计 2860 个字符,预计需要花费 8 分钟才能阅读完成。

在2025年底的今天,我们早已习惯用几行代码调用预训练模型完成各类任务,但每当遇到训练不收敛、loss曲线诡异抖动、或者下游任务性能突然崩坏时,最终还是要回到那几个最基础的问题:梯度去哪了?表征为什么坍缩了?归一化是如何挽救训练的?

本文尝试从一个“老玩家”的视角,重新梳理深度学习里几组容易被忽略却又至关重要的原理,结合2025-2026年出现的一些新工具与新思考,希望能给你带来一点不一样的启发。

梯度流的困境与破解:残差连接不是终点

2015年ResNet用恒等映射解决了超过100层网络的训练问题,但很多人以为残差连接只是“把输入加到输出”这么简单。实际上,它的核心价值在于为梯度流提供了一条“高速公路”——反向传播时,误差信号可以直接跳过卷积层传到浅层,避免了逐层衰减。

然而2025年的一系列实验表明,即便是用了残差连接,当深度超过1000层(比如在ViT或NLP的深层Transformer中),梯度仍然会面临“消失”和“爆炸”并存的双重困境。原因是恒等分支虽然保留了梯度幅度,但权重衰减(weight decay)和激活函数(如GELU)会在每层引入微小偏差,数百层累积后形成梯度偏移。

2025年MIT的研究团队提出了“梯度重平衡”(Gradient Rebalancing)方法:在前向传播时统计每个残差块的梯度范数比率,通过动态缩放残差分支的贡献度来维持整个网络的梯度方差。这一思路已经在DeepSeek-R1的训练中进行了验证,使得一个2000层的Transformer能够稳定收敛,而无需使用任何特殊的初始化技巧。

更值得关注的是2026年初出现的ReZero-Q架构:它将每个残差块中的可学习缩放参数初始化为零(而不是1),让网络从“恒等映射”开始训练,再逐步打开特征变换分支。这种极简策略在130B级别的模型上实现了比标准ResNet快3倍的收敛速度,同时减轻了梯度偏移。

归一化技术的演进:从BatchNorm到RMSNorm再到“无归一化”

归一化层早已成为深度学习的事实标准。BatchNorm在CV领域统治了十年,但在NLP中因为batch size较小或序列长度变化大而表现不佳,于是LayerNorm取而代之。2023年以来,RMSNorm凭借其计算高效(只做均方根归一化,不做减均值)逐渐成为主流——特别是LLaMA系列和GPT-4都采用了它。

但RMSNorm真的没有缺陷吗?2025年苏黎世联邦理工学院的分析指出:RMSNorm由于缺乏中心化操作,会导致不同token的表征均值发生偏移,从而引起“均值漂移”(mean shift)问题,尤其在长上下文中累积偏差更加明显。为此,2026年Google DeepMind推出了CrossNorm,它在每个token的维度上同时执行均值和方差校正,但通过一个轻量级的可学习门控来控制均值校正的强度,保证不会破坏RMSNorm的梯度稳定性。

有趣的是,2025年底有一批研究开始挑战“归一化是必须的”这一常识。“无归一化Transformer”(例如K.Q. Normalization替代LayerNorm)通过重新参数化注意力机制中的Query和Key的初始化分布,使得前向传播和反向传播的方差自然匹配,从而完全省掉归一化层。实测表明,在一个34亿参数的文本生成模型上,去掉所有LayerNorm后的训练损失曲线与有LayerNorm版本几乎重合,而且推理速度提升了18%。但作者也坦诚,在更大规模(>100B)上仍需验证。

优化器的选择:动量、自适应与“解耦”

AdamW是2025-2026年训练大模型的事实标准,但它的弱点也逐渐暴露:二阶矩估计会导致学习率对batch size的敏感度过高,而且记忆开销巨大(每个参数需要保存动量项和二阶矩)。2025年Facebook AI发布的LION优化器(通过符号化动量)虽然内存小、速度快,但在某些CV任务上收敛稳定性不如AdamW。

2026年真正引起关注的是μP(Maximal Update Parameterization)框架的普及化。μP的核心思想是:当模型宽度(隐藏层维度)改变时,优化器的学习率、初始化尺度、权重衰减等需要按特定缩放律进行调整,才能保证训练行为的一致性。微软研究院在2026年3月开源了μAdam,它将μP的缩放规则直接内置进Adam的更新步骤中,使得从1B到100B模型无需手动调优超参数。一个典型的案例:使用标准Adam训练70B模型时,batch size由1M调至2M会导致loss上升0.3,而μAdam的loss变化不超过0.02。

对于中小规模(1B以下)的场景,Sophia(基于Hessian对角估计的优化器)仍然值得关注。2025年的改进版SophiaG通过梯度裁剪和动态步长解决了原版在高学习率下的振荡问题,在700M参数的代码生成模型上比AdamW快了2.1倍。但它的代价是额外计算二阶信息,GPU显存需求增加约15%。

表征坍缩与对比学习:为什么模型会“偷懒”?

在自监督学习(如SimCLR、MAE)中,一个经典的问题是表征坍缩(representation collapse):模型学到将所有样本映射到同一个或少数几个特征向量,从而失去判别能力。对比学习通过拉近正样本对、推远负样本对来解决,但负样本的数量和质量直接影响效果。

2026年出现了一个更优雅的解法——“方差-协方差正则化”(VICReg的进阶版)。研究者发现,表征坍缩的本质是模型“偷懒”使用低维子空间,因此除了鼓励多样化的特征分布外,还可以直接约束表征协方差矩阵的特征值分布:让特征值的方差尽可能小(即每个维度贡献相近)。一个在ImageNet-1K上预训练的Vision Transformer,若在loss中加入该项正则化,其线性探测准确率提升了3.2%,同时fine-tune收敛所需的epoch数减少了一半。

关于表征坍缩另一个容易被忽视的场景是Fine-tuning阶段。当预训练模型在下游任务上微调时,如果学习率设置不当,特征提取器可能迅速退化,导致输出层的表征维度塌陷。2025年发表的“渐进式层冻结”策略:在微调前几个epoch保持底层参数完全冻结,只更新分类头;然后以每10%的epoch逐层放开底层,同时将底层的学习率设为顶层的0.1倍。这个方法在GLUE和SuperGLUE上取得了平均+2.8%的提升,尤其在小样本场景下效果显著。

结语:原理是长青的

回看2025-2026年的这些进展,无论是梯度重平衡、CrossNorm还是μAdam,本质上依然围绕着深度学习最核心的几个问题:梯度流、统计归一化、参数更新与表示空间。每一次技术进步,往往是对老问题的重新理解。作为一个从业者,我的感受是:不要被层出不穷的新名词迷惑,真正有价值的创新往往来自于对基础原理的深入质疑。

希望这篇略带“纸上谈兵”的回顾,能唤起你对那些看似简单却从未完全解决的问题的好奇。毕竟,下一个突破或许就藏在这些细节里。

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-14发表,共计2860字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
评论(没有评论)