大模型核心原理的再思考：从扩展定律到涌现与对齐

8次阅读

共计 3306 个字符，预计需要花费 9 分钟才能阅读完成。

2025年是大模型行业从狂热走向冷静的一年。我们见过了千亿参数模型的狂欢，也目睹了推理成本优化的竞赛。但当大家开始讨论“参数量是否已到天花板”、“上下文窗口到底能拉多长”时，我发现很多从业者其实没有真正吃透那些支撑大模型效能最底层的东西。扩展定律（Scaling Laws）、注意力机制的内在逻辑、涌现能力的成因，以及对齐（Alignment）问题的本质——这些概念今天听起来像是老生常谈，但每一次复盘都会带来新的启发。今天我想结合2025-2026年的一些实际观察，跟你聊聊这几个核心原理背后的真实世界。

2019年OpenAI发布的那篇Scaling Laws论文，几乎成了整个行业的圣经。简单说，模型性能会随着参数、数据、计算量的增大而持续提升，且遵循幂律关系。这个发现催生了GPT-3、PaLM、LLaMA等一系列巨无霸。但到了2025年初，大家开始意识到一个问题：继续堆参数，边际收益在变薄。比如，一个1.5万亿参数的模型，训练成本比千亿模型高出近一个数量级，但在许多通用任务上的提升却只有几个百分点。

于是，2025年成为“新型架构”的爆发之年。MoE（混合专家模型）从当年只做稀疏激活的粗放方案，进化成了“动态路由+条件计算”的精细结构。我身边一位做模型压缩的朋友告诉我，他们公司在2026年部署的稠密模型里，每层都内置了自适应专家的选择机制，在保持效果的同时，推理速度提升了3倍。此外，线性注意力（Linear Attention）和状态空间模型（如Mamba-2）也开始进入实用阶段，它们通过改变Attention的计算复杂度，把长上下文的处理成本从二次方降到了线性。

但我想强调的是，扩展定律并没有失效，而是从“无脑堆参数”转向了“如何更高效地扩展”。参数量依然重要，但数据质量和多样性成了新的Scaling变量。2026年最强的大模型，往往不是参数最多的那个，而是能在有限计算预算下，通过更好数据配比和训练策略实现“超线性增长”的那个。

Attention Is All You Need这篇论文发表已近十年，但真正把“上下文窗口”玩出花样的，是2025-2026年。最初大家只关心上下文长度——从2K到128K，再到2025年初的几个号称“百万级上下文”的模型（如Claude 3.5的长上下文版本、DeepSeek-200K等）。但一个常被忽略的核心概念是：Attention的长期依赖追踪能力，其实决定了模型的推理深度。

我拿一个具体的案例说明。2025年12月，我们公司在做一款法律文书分析工具，需要模型从100页的合同里定位某个隐含关联条款。起初用了一个只支持16K上下文的模型，它经常遗漏前文提到的某个关键定义。换成支持128K窗口的模型后，准确率从72%跃升到91%。这不仅仅是“能看更多字”那么简单——长上下文让模型能够在更广的范围内建立实体关系链，模拟出翻回前几页、去核对关联定义的这种人类推理行为。

更深层的原理在于：注意力头（Attention Head）们各自负责不同的“语义空间”，有的是主语-动词关系，有的是跨句子指代关系。当上下文变长，注意力分布式计算的“容量”实际上并没有线性增加，而是通过套索式的位置编码（如RoPE）让模型在数学上具备了外推能力。2026年腾讯发布的LLaMA-3-Next使用了Decaying Position Embedding，在理论上突破了RoPE的旋转角度限制，使得上下文长度可以无上限扩展——这个方向非常值得关注。

当然，长上下文也带来了新的对齐问题：模型在长文中更容易“迷失在中间”（Lost in the Middle）。2025年的几篇研究表明，当关键信息放在长文的中间三分之一处时，模型召回率会显著下降。这让我想到，未来的注意力机制可能需要借鉴人类阅读时的“回顾”与“重复”习惯，真正实现“动态聚焦”。

“涌现”（Emergence）这个词在大模型圈子里经常被神化。很多人说“当模型参数大到一定程度，它就突然学会了推理、学会了翻译、学会了写诗”。但说实话，2025年之前这种说法更多是一种经验观察，缺乏数学解释。2026年，斯坦福和DeepMind联合发表了一篇论文，从任务复杂度的相变视角分析了涌现：很多能力（如算两位数加法）其实是训练数据中“间接暴露”的，当模型参数量逐步增大，对这些任务的“表达能力”突然跨越了某个阈值——这个阈值往往对应着参数容量足够容纳该任务的完整计算图。

我自己的理解是这样的。大模型的涌现不是“凭空产生新能力”，而是把之前碎片化的知识通过高维表征连接起来。比如，一个10B（百亿）模型可能已经知道“动物有四肢”和“猫是动物”这两个事实，但因为参数空间里的表示是孤立的，无法推导出“猫有四肢”。当模型参数量增大到100B，参数空间变得更加稠密，原本隔离的表示区域被非线性映射连接在一起，推理就自然发生了。2025年深度求索（DeepSeek）的一个内部实验也印证了这一点：他们在微调中故意破坏了某些语句的关联，发现模型依然能从类似的语义路径中恢复推理——这正是参数冗余带来的鲁棒性。

不过，2026年有一个好消息和一个坏消息。好消息是，科学家们已经能通过分析模型中间层激活的“线性探测”来判断涌现的前兆，从而提前预测某些能力是否会出现。坏消息是，涌现也会带来不可控副作用，比如模型在未微调的情况下突然学会了编造复杂的错误推理链条。这再次提醒我们，对齐不再是微调阶段的事，而是整个训练过程必须纳入的设计目标。

2025年初的一个热点事件是，某开源模型在被反复注入“敏感问题”后，产生了对某一群体的系统性偏见。这让我和很多同行陷入了深思：我们真的理解“对齐”的数学本质吗？当时RLHF（强化学习从人类反馈）还是主流，但RLHF有个核心痛点：它依赖人类标注者的偏好，而偏好存在不一致、噪声和群体偏差。2025年Google推出了Constitutional AI的升级版，把“宪法”从几十条扩充到数百条细粒度规则，并引入了对抗性自我修正（Self-Play with Constitutional Constraints），让模型在训练中自己判断哪些行为违反规则。2026年Meta发布的DPO（Direct Preference Optimization）更加直接——直接从成对偏好数据中优化策略，去除复杂的奖励模型，让对齐速度提升了近70%。

但在我看来，这三个关键点才是对齐的真正核心，不管你用RLHF、DPO还是其他方法：

第一，鲁棒性大于精准性。与其让模型在99%的常规提问下表现完美，不如让它在1%的边界case里至少不要崩。2025年很多安全事件都发生在“对抗性提示”上，这说明对齐目标需要覆盖足够多的分布外场景。

第二，价值观嵌入的不可逆性。一旦对齐训练完成，模型内部对“好”“坏”的偏置就固化在了权重中。2026年MIT的一个工作展示了如何通过激活编辑直接修改模型的道德判断——这扇门打开了，但随之而来的是谁来决定“正确的价值观”这一根本问题。

第三，系统安全大于模型自身。2026年最先进的对齐实践，早就不光盯着模型权重了，而是构建了多层次的安全屏障：输入过滤、输出审核、动态上下文约束，甚至用量子随机数对敏感输出做“同态脱敏”。这提醒我们，大模型的安全更像是一个系统工程，而非一个简单的训练技巧。

回看2025-2026年的大模型发展，你会发现很多热门技术（如Agent、RAG、多模态融合）其实都在从这些基础原理中找根。扩展定律告诉我们算力要花在刀刃上，注意力机制告诉我们长上下文是推理的基石，涌现能力让我们看清知识连接的力量，对齐则提醒我们技术最终要服务于人。只有真正理解这些核心概念的内在逻辑，才能在万花筒般的喧嚣中，找到属于自己的方向。

这篇文章整理自我平时和团队分享的一些心得。如果你也在做模型训练或应用落地，欢迎在评论区聊聊你遇到的最大困惑——也许下一个话题就是它了。

正文完

发表至： AI大模型

2026-05-19

0