共计 2544 个字符,预计需要花费 7 分钟才能阅读完成。
如果你在2025年打开任何一场AI技术大会的PPT,大概率会看到“Scaling Law”、“多模态”、“推理能力”这些热词。但作为一个在算力堆里摸爬滚打多年的老兵,我想和你聊聊那些被算法喧嚣掩盖住的、真正决定模型性能的核心原理。无论模型参数从数十亿爬到数万亿,底层逻辑始终绕不开三个词:经验风险最小化(ERM)、偏差-方差权衡、正则化。这篇文章会用2025-2026年的视角,重新解读这些老概念——不是教材搬运,而是结合当下大模型实践的真切体感。
经验风险最小化:机器学习的第一性原理,却也是陷阱
几乎所有监督学习的起点都是同一个公式:最小化训练数据上的平均损失。以线性回归为例,我们找一条直线让所有样本点的平方误差之和最小——这就是经验风险最小化(Empirical Risk Minimization, ERM)。在2025年的推荐系统实践中,很多团队依然在用带权重的log损失做CTR预估,本质上就是ERM的变体。
但ERM有一个致命的隐含假设:训练集能完美代表总体分布。现实远非如此。2025年某大厂在训练下一个版本的语言模型时,发现训练语料中过多包含了2022-2023年的“疫情相关问答”,结果模型在2024年之后的对话中频繁断言“当前仍需每日核酸”,这就是ERM失效的典型——训练分布严重偏离推理时的真实分布。更隐蔽的问题是,当模型容量极大时(比如如今的千亿参数Transformer),ERM会走入死胡同:彻底记住训练数据的所有噪声,而不是学习其中的规律。这就是过拟合,也是我们接下来要讨论的偏差-方差权衡的根源。
偏差-方差权衡:模型复杂度的天平,没人能完全绕过
对于了解机器学习的读者,这个概念并不陌生,但我想请你想一个问题:2025年的大模型为什么还需要“早停”(Early Stopping)?答案正是偏差-方差权衡在深度网络中的具体表现。
简单来说:高偏差意味着模型过于简单,无法捕捉真实模式(比如用线性模型拟合正弦函数);高方差意味着模型过于灵活,对训练集的细微变化都过度反应(比如50层的ResNet在100个样本上训练)。传统决策树深度控制在3-5层就是经典的偏差-方差折中。而在2017年Transformer诞生后,人们发现增加层数和注意力头数确实能降低偏差(模型变强),但随之带来的方差爆炸需要通过Dropout、权重衰减、数据增强来压制——这些手段本质上都是正则化。
2026年初,我参与了一个小型MoE(混合专家)模型的调优实验:在相同的3B参数配置下,仅仅将专家数从8增加到16,验证集上的loss先是下降了0.03,但随后在微调时出现了剧烈的震荡。仔细分析发现,增加专家数虽然减小了模态拟合的偏差(每个专家更专注于特定模式),但各专家间的路由决策引入的方差超出了优化器的容忍范围。最后我们不得不引入一个“专家交互正则项”——本质上是在偏差和方差之间重新移动天平。
正则化思想:从L1/L2到“隐式正则化”,2025年的新武器
正则化是控制过拟合最显式的工具。传统教材中L2(权重衰减)让参数更平滑,L1(Lasso)带来稀疏性。但2025年之后,隐式正则化逐渐成为理解深度学习泛化能力的关键。
举一个具体的例子:SGD(随机梯度下降)本身就有强大的正则化效果。2025年Google的一篇研究表明,使用SGD训练的Transformer,其隐式偏置会导致模型收敛到“低秩解”——即权重矩阵的奇异值集中在头部几个维度。这种低秩性天然具有抗过拟合的能力,效果甚至优于显式加入L2正则。另一个常见的隐式正则化是Batch Normalization中的噪声——每个批次统计量的差异充当了扰动,迫使模型对中间表示的小变化不敏感。
在2026年的大模型预训练实践中,已经很少看到人工调L2强度了,取而代之的是通过控制学习率预热策略、批量大小和梯度裁剪阈值来间接施加隐式正则。比如,将批次大小从4096降到1024,通常会带来1%~2%的验证集提点,因为更小的批次引入了更大的梯度方差——这正是隐式正则化的体现。理解这一点,你就能明白为什么“调参”并非玄学,而是对信号与噪声之间平衡的量化操控。
损失函数设计:当交叉熵不再万能,2026年的新偏好
在2025年以前,分类任务几乎默认用交叉熵损失(CE)。但2025-2026年,业界开始反思CE的两大缺陷:它对“困难样本”过于宽容,而对“噪声标签”又过于敏感。大语言模型的RLHF阶段改用偏好损失(DPO/PPO),本质上是在优化一个更微妙的损失空间——不仅仅要求输出正确,还要求输出符合人类偏好的排序。
另一个有趣的趋势是对比学习损失(如InfoNCE)的普及。它通过拉近正样本对、推远负样本对来学习表征,其底层原理是最大化互信息。2026年,几乎所有多模态模型的视觉-文本对齐层都在使用对比损失。但实际部署时要小心:负样本的数量(batch size)直接影响该损失的“难度”,过大会导致梯度爆炸,过少则学不到有区分度的特征。我在一个图文检索项目中,将负样本量从256增至512,模型召回率提升了4.2%,但训练时间增加了30%——这是用算力换泛化的典型权衡。
2026年的反思:基础原理不是古董,是护身符
当你在开源社区看到一篇“秒杀LLM微调”的博客时,不要急于复制代码。先问自己:这个方法的偏差-方差体现在哪里?它用了什么隐式正则化?损失函数的梯度分布是否稳定? 只有把这些基础概念内化成直觉,你才能在算法军备竞赛中保持清醒。
2025年夏天,某独角兽公司因为盲目堆叠MoE层数导致模型在部署后频繁出现“胡言乱语”,分析下来发现,每个专家的路由网络过度自信(高方差),而整体模型又没有足够的专家输出加权(低偏差)。这就是典型的偏差-方差失衡。如果团队工程师当时能想起正则化的核心思想,或许能提前发现风险。基础原理不会过期,它只是换了一种面貌出现在每一行梯度更新中。
最后,我想分享一个2026年的工作习惯:每次模型训练前,先用一个小样本子集跑一条学习曲线(loss vs 步数),观察是否出现过拟合拐点,并据此估算最优正则化强度。这比任何AutoML调参工具都直接。与其追求最新的框架,不如扎实理解手中数据的偏差和方差——这才是机器学习的长久之道。