深度学习核心概念再思考：从梯度流动到表示学习

9次阅读

共计 2342 个字符，预计需要花费 6 分钟才能阅读完成。

从业多年，我越来越觉得，深度学习的内核其实比很多花哨的模型更值得反复咀嚼。2025-2026年间，尽管大模型和扩散架构层出不穷，但底层那些“老生常谈”的概念——反向传播、损失函数、优化器——依然决定着模型的上限。今天，我想顺着几个核心概念，聊聊它们背后被忽视的细节与直觉。

反向传播的本质是链式法则，但如果只停留在数学公式，就容易忽略它的“流动”特性。想象神经网络是一个多层的水管网络，梯度就是水流。每一层的水管口径（激活函数的导数）和连接方式（权重）决定了水流能否顺畅到达浅层。2025年流行的Pre-LayerNorm技术，本质上就是在每一层入口处强制“调平水压”，避免梯度在深层时因连乘效应而消失或爆炸。

一个常被忽视的细节：梯度流动的“路径依赖”。在深度ResNet（超过100层）中，即使有跳跃连接，梯度的有效信号仍然倾向于通过短路走捷径。这意味着，如果网络设计不合理（比如过于窄的瓶颈层），大多数梯度会集中在跳跃路径上，而跳过中间的变换层——这被称为“表示塌陷”。2026年出现的一些梯度路径聚合方法（如GradNorm++），就是通过显式调整不同路径的贡献比例，让每一层都真正学到东西。

交叉熵看似简单，但在分类任务中，它的“熵”视角很有深意：迫使模型输出概率分布逼近独热分布。但这种硬对齐会导致过度自信（过拟合），因此标签平滑（Label Smoothing）成为标配——本质是给真实标签注入噪声，让损失函数不再追求“1.0”，而是放松到0.9。这种做法在Transformer训练中被证明能提升泛化能力约1-2%。

2025年对比学习（如SimCLR、MoCo v3）的复兴，让我重新审视损失函数的几何意义。对比损失（InfoNCE）不仅拉近正样本对，还在隐式地拉大负样本对的夹角。有趣的是，InfoNCE的梯度形式可以等价于一个负样本的软最近邻分类器：模型在特征空间中“推远”所有其他样本，从而形成一种均匀分布的先验。这种隐式正则化，比显式添加权重衰减更微妙——它改变的不是参数范数，而是表示的几何拓扑。

当年Adam出现时，几乎所有人都觉得“一劳永逸”。但实际训练中，Adam在微调阶段往往不如SGD+momentum。原因何在？Adam的二阶矩估计其实是在动态调整各维度的学习率，这导致它更擅长逃离尖锐的局部极小，而SGD则倾向于收敛到平坦区域。2026年提出的Sophia优化器（基于Hessian对角估计）则试图取两者之长：用Hessian信息替代二阶矩，在保持高效的同时让收敛点更平坦。

另一个常被忽略的点是学习率预热（Warmup）。很多人觉得只是让训练更稳定，但深层原因是：初始时模型参数随机，梯度方向高度随机。如果没有预热，Adam的动量和二阶矩会迅速积累错误信息，导致模型卡在劣势谷底。预热阶段（通常1000步）本质上是让模型先“瞎走”一段，等梯度方向稳定后再加速。2025年一些大模型训练采用了余弦退火+重启策略，就是利用这种“周期性冷却”让模型跳出早期次优解。

ReLU的提出解决了梯度消失问题，但它带来的“死亡神经元”也让人们开始寻找替代品。GELU和Swish在2025年的广泛应用，不仅仅是因为它们光滑——更重要的是它们具有近似Dropout的随机属性。GELU的数学形式（Φ(x)*x）可以被看作是一种“软门控”：当x远小于0时，输出严格为0（硬截断）；当x接近0时，输出呈非线性弯曲。这种软性调制使得前向传播中，信息可以“部分通过”负区域，避免了神经元彻底死亡。

从分布角度看，GELU的输出分布更接近高斯分布的累积分布函数，这恰好与Transformer中LayerNorm的假设（输入服从对称分布）匹配。而ReLU的非对称性会导致标准化层后依然有偏置，降低表示能力。这个细节在2026年的一些轻量化模型（如MobileNetV4）中被刻意利用：用更简单的HardSwish代替GELU，虽然精度略微下降，但推理速度提升10%。

传统正则化如权重衰减（L2）、Dropout、数据增强，都是显式的。但2025-2026年，越来越多的技术模糊了“正则化”和“架构设计”的界限。例如，随机深度（Stochastic Depth）在训练时随机丢弃某些层的输出，迫使模型学习冗余表达；DropPath则直接丢弃路径——这两种方法都相当于在深度维度进行Dropout，其正则化效率远高于传统Dropout。

更微妙的是对比学习中的隐式正则：InfoNCE损失天然鼓励特征均匀分布在单位超球面上，避免样本塌缩到同一个点。2019年的SimCLR发现，如果移除全局视角下的负样本，模型会坍塌成一个常数。这本质上是一种“熵正则”——让特征空间的多样性最大化。在2026年的大规模自监督训练中，这种隐式正则已经取代了大部分显式权重衰减。

另一个有趣的案例是梯度惩罚（如WGAN的Lipschitz约束），它通过限制梯度的范数迫使损失函数平滑，从而稳定GAN训练。这种显式约束在2025年被扩展到扩散模型的采样路径上——通过惩罚对数似然的梯度，获得更干净的生成样本。

回顾这些年的深度学习实践，我越来越觉得：所谓“基础原理”并不是教条，而是理解模型行为的杠杆。在2026年的今天，我们面对的是千亿参数的大模型，但梯度流动的物理直觉、损失函数的几何意义、优化器的偏差校正——这些核心概念依然是调试模型的最强工具。下次当你的模型不收敛时，不妨从反向传播的“水压”出发，看看哪层管径堵塞了。

正文完

发表至：深度学习

2026-05-17

0