机器学习的“不变”与“变”:从经验最小化到泛化之道

8次阅读
没有评论

共计 2544 个字符,预计需要花费 7 分钟才能阅读完成。

如果你在2025年打开任何一场AI技术大会的PPT,大概率会看到“Scaling Law”、“多模态”、“推理能力”这些热词。但作为一个在算力堆里摸爬滚打多年的老兵,我想和你聊聊那些被算法喧嚣掩盖住的、真正决定模型性能的核心原理。无论模型参数从数十亿爬到数万亿,底层逻辑始终绕不开三个词:经验风险最小化(ERM)偏差-方差权衡正则化。这篇文章会用2025-2026年的视角,重新解读这些老概念——不是教材搬运,而是结合当下大模型实践的真切体感。

经验风险最小化:机器学习的第一性原理,却也是陷阱

几乎所有监督学习的起点都是同一个公式:最小化训练数据上的平均损失。以线性回归为例,我们找一条直线让所有样本点的平方误差之和最小——这就是经验风险最小化(Empirical Risk Minimization, ERM)。在2025年的推荐系统实践中,很多团队依然在用带权重的log损失做CTR预估,本质上就是ERM的变体。

但ERM有一个致命的隐含假设:训练集能完美代表总体分布。现实远非如此。2025年某大厂在训练下一个版本的语言模型时,发现训练语料中过多包含了2022-2023年的“疫情相关问答”,结果模型在2024年之后的对话中频繁断言“当前仍需每日核酸”,这就是ERM失效的典型——训练分布严重偏离推理时的真实分布。更隐蔽的问题是,当模型容量极大时(比如如今的千亿参数Transformer),ERM会走入死胡同:彻底记住训练数据的所有噪声,而不是学习其中的规律。这就是过拟合,也是我们接下来要讨论的偏差-方差权衡的根源。

偏差-方差权衡:模型复杂度的天平,没人能完全绕过

对于了解机器学习的读者,这个概念并不陌生,但我想请你想一个问题:2025年的大模型为什么还需要“早停”(Early Stopping)?答案正是偏差-方差权衡在深度网络中的具体表现。

简单来说:高偏差意味着模型过于简单,无法捕捉真实模式(比如用线性模型拟合正弦函数);高方差意味着模型过于灵活,对训练集的细微变化都过度反应(比如50层的ResNet在100个样本上训练)。传统决策树深度控制在3-5层就是经典的偏差-方差折中。而在2017年Transformer诞生后,人们发现增加层数和注意力头数确实能降低偏差(模型变强),但随之带来的方差爆炸需要通过Dropout、权重衰减、数据增强来压制——这些手段本质上都是正则化。

2026年初,我参与了一个小型MoE(混合专家)模型的调优实验:在相同的3B参数配置下,仅仅将专家数从8增加到16,验证集上的loss先是下降了0.03,但随后在微调时出现了剧烈的震荡。仔细分析发现,增加专家数虽然减小了模态拟合的偏差(每个专家更专注于特定模式),但各专家间的路由决策引入的方差超出了优化器的容忍范围。最后我们不得不引入一个“专家交互正则项”——本质上是在偏差和方差之间重新移动天平。

正则化思想:从L1/L2到“隐式正则化”,2025年的新武器

正则化是控制过拟合最显式的工具。传统教材中L2(权重衰减)让参数更平滑,L1(Lasso)带来稀疏性。但2025年之后,隐式正则化逐渐成为理解深度学习泛化能力的关键。

举一个具体的例子:SGD(随机梯度下降)本身就有强大的正则化效果。2025年Google的一篇研究表明,使用SGD训练的Transformer,其隐式偏置会导致模型收敛到“低秩解”——即权重矩阵的奇异值集中在头部几个维度。这种低秩性天然具有抗过拟合的能力,效果甚至优于显式加入L2正则。另一个常见的隐式正则化是Batch Normalization中的噪声——每个批次统计量的差异充当了扰动,迫使模型对中间表示的小变化不敏感。

在2026年的大模型预训练实践中,已经很少看到人工调L2强度了,取而代之的是通过控制学习率预热策略、批量大小和梯度裁剪阈值来间接施加隐式正则。比如,将批次大小从4096降到1024,通常会带来1%~2%的验证集提点,因为更小的批次引入了更大的梯度方差——这正是隐式正则化的体现。理解这一点,你就能明白为什么“调参”并非玄学,而是对信号与噪声之间平衡的量化操控。

损失函数设计:当交叉熵不再万能,2026年的新偏好

在2025年以前,分类任务几乎默认用交叉熵损失(CE)。但2025-2026年,业界开始反思CE的两大缺陷:它对“困难样本”过于宽容,而对“噪声标签”又过于敏感。大语言模型的RLHF阶段改用偏好损失(DPO/PPO),本质上是在优化一个更微妙的损失空间——不仅仅要求输出正确,还要求输出符合人类偏好的排序。

另一个有趣的趋势是对比学习损失(如InfoNCE)的普及。它通过拉近正样本对、推远负样本对来学习表征,其底层原理是最大化互信息。2026年,几乎所有多模态模型的视觉-文本对齐层都在使用对比损失。但实际部署时要小心:负样本的数量(batch size)直接影响该损失的“难度”,过大会导致梯度爆炸,过少则学不到有区分度的特征。我在一个图文检索项目中,将负样本量从256增至512,模型召回率提升了4.2%,但训练时间增加了30%——这是用算力换泛化的典型权衡。

2026年的反思:基础原理不是古董,是护身符

当你在开源社区看到一篇“秒杀LLM微调”的博客时,不要急于复制代码。先问自己:这个方法的偏差-方差体现在哪里?它用了什么隐式正则化?损失函数的梯度分布是否稳定? 只有把这些基础概念内化成直觉,你才能在算法军备竞赛中保持清醒。

2025年夏天,某独角兽公司因为盲目堆叠MoE层数导致模型在部署后频繁出现“胡言乱语”,分析下来发现,每个专家的路由网络过度自信(高方差),而整体模型又没有足够的专家输出加权(低偏差)。这就是典型的偏差-方差失衡。如果团队工程师当时能想起正则化的核心思想,或许能提前发现风险。基础原理不会过期,它只是换了一种面貌出现在每一行梯度更新中。

最后,我想分享一个2026年的工作习惯:每次模型训练前,先用一个小样本子集跑一条学习曲线(loss vs 步数),观察是否出现过拟合拐点,并据此估算最优正则化强度。这比任何AutoML调参工具都直接。与其追求最新的框架,不如扎实理解手中数据的偏差和方差——这才是机器学习的长久之道。

正文完
 0
abraham22
版权声明:本站原创文章,由 abraham22 于2026-05-22发表,共计2544字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
热门文章
Everything搜索隐藏功能用起来

Everything搜索隐藏功能用起来

高级语法 !文件夹名排除size:>100mb找大文件dupe:找重复 正则搜索 高级选项开启。.pdf$搜所...
网线选购避坑:自己压水晶头

网线选购避坑:自己压水晶头

Cat6是2026年标准 Cat5e凑合、Cat6稳定千兆。 自己做好处 质量比成品线好,长度可控。 T568...
电脑蓝屏怎么办?从代码到解决方案全流程排查指南

电脑蓝屏怎么办?从代码到解决方案全流程排查指南

蓝屏不可怕,可怕的是不知道怎么看 蓝屏(BSOD)是Windows用户最怕遇到的画面,但其实每次蓝屏都会吐出一...
软路由入门指南:把闲置设备改造成全能路由器

软路由入门指南:把闲置设备改造成全能路由器

软路由:让网络性能翻倍 当你发现家用路由器带机多了会卡顿、功能不够灵活——是时候考虑软路由了。所谓软路由,就是...
算力过剩还是算力饥渴?2025年AI基础设施的真相

算力过剩还是算力饥渴?2025年AI基础设施的真相

过去两年,我频繁往返于国内几大智算中心,目睹了集装箱式服务器的灯阵如星空般点亮,也亲历过深夜机房因热失控紧急停...
评论(没有评论)