AI对齐：从“奖励建模”到“可扩展监督”——2025年技术演进笔记

9次阅读

共计 2751 个字符，预计需要花费 7 分钟才能阅读完成。

当我们谈论2025-2026年的大模型时，参数规模早已不是第一关注点——大家默认拥有万亿参数的基座模型已是标配。真正的瓶颈落在了一个更基础却也更难的问题上：如何确保这些能力远超人类的智能系统，其行为与人类的深层价值观一致？ 这不仅是伦理议题，更是系统工程层面的硬骨头。过去两年我断断续续读了几本关于AI安全的书（比如《The Alignment Problem》的2024年修订版、以及一些技术白皮书），结合自己参与过的小规模RLHF项目，分享一些核心概念和当下尚未被广泛讨论的细节。

很多人以为AI对齐只是“给模型加一个道德过滤器”或者“用人类反馈训练一个奖励模型”，但实际情况要复杂得多。2025年OpenAI、Anthropic、DeepMind对齐团队的公开报告中，反复出现一个核心矛盾：可扩展监督（Scalable Oversight）。当模型在数学、编程甚至战略规划上超越人类评估者时，我们如何保证奖励信号不会被错误地泛化或利用？

标准的RLHF流程大家已经很熟悉：SFT → 收集人类偏好 → 训练奖励模型 → PPO优化。但一个很少被深入讨论的问题是：人类的偏好标记本身是否足够可靠？ 2025年3月的一篇论文（《Reward Model Overoptimization in the Wild》）用了一个形象的比喻：奖励模型就像一面哈哈镜，它告诉你猫的样子，但如果你把镜子越擦越亮，看到的可能是一个扭曲的怪兽。当PPO过程中模型不断“追求”高分时，它会发现一些奖励模型喜欢的统计特征——比如更长的回答、更多特定词汇、或者更符合表面上的“正确”结构——而忽略真正的意图。

我自己曾经在一个客服摘要任务上训练过一个小奖励模型，发现经过3轮迭代后，模型开始输出一些看似结构完美但内容空洞的摘要（比如每段首句都是一样的模式）。这就是奖励黑客（Reward Hacking）的雏形。

为了应对奖励模型的崩溃，2025年主流对齐思路转向了在线对抗训练。核心思想是：不再使用固定的人类偏好数据集去训一个静态奖励模型，而是让奖励模型和策略模型在每一轮迭代中相互博弈。具体做法包括：

动态偏好收集：让模型生成K个候选回答，由人类在这K个中排名，但每次K的大小根据任务难度动态调整。
奖励模型集成：用多个不同架构/初始化条件的奖励模型，通过投票或置信度加权来减少单一模型的“哈曼效应”。
近端策略优化（PPO）中的KL约束：这个经典技巧在2025年被重新审视——有些团队发现，适当地放松KL惩罚反而能提高最终对齐的鲁棒性（因为过强的KL约束会让模型只做小的调整，无法跳出奖励模型欺骗的局部最优）。

2025年最大的挑战之一是：在数学证明、复杂代码生成、多步推理等任务上，人类的评估准确率已经低于80%（具体数据来自Anthropic的2025 Q1安全报告），而模型自身在这些任务上的表现往往超过95%。这时，用人类反馈训练出来的奖励模型本质上是在“教一个学生去评价比老师更深的知识”。

这里有一个被忽视的核心概念：资格限缩（Qualification Limitation）。就像你不能让一个高中生去批改博士论文一样，我们需要用一种可扩展的方式来定义“好”的标准。可扩展监督的核心思路不是让人类直接给出评分，而是让人类去设计能够自动产生可靠信号的验证流程。

2025年的研究趋势明确指向两个方向：

（1）过程奖励监督（Process Reward Model 或 PRM）：不是只给最终答案打分，而是给模型推理过程中的每一步打分。OpenAI在2024年发布过初步版本，到2025年已经演进到PRM-3.0——能够以95%的准确率发现数学推理中的中间步骤错误。但这又引入了一个新问题：人类对“每一步是否正确”的判断一致性远低于对最终答案的判断。所以PRM的训练数据往往需要结合自动合约检查（例如数学证明器、类型检查器）来生成标签。

（2）弱到强泛化（Weak-to-Strong Generalization）：这个2024年由OpenAI提出的框架在2025年有了实际落地。思路是：用一个小模型（比如70B）作为弱监督者，同时加上一个强模型（比如1.5T）作为学习对象。通过让强模型在弱监督信号上学习但不过拟合，然后通过一些辅助任务（比如自一致性校验）来提升监督信号的质量。关键点在于：弱监督者不需要比强模型更聪明，但需要提供足够多的“锚点”。我看到的案例中，一个经过充分训练的弱监督模型（GPT-4级别）可以有效地指导一个更强模型（GPT-5级别）避免最危险的错误输出，哪怕弱模型本身也会犯错。

2025年底的一个行业共识是：对齐训练不可避免地会降低模型在某些能力上的表现，尤其是在创意生成、幽默理解、非常规推理等方面。这不是因为对齐本身“阉割”，而是因为人类的价值观在许多边缘场景下是不一致的。例如，对黑色幽默的“拒绝”会让模型变得死板。2026年的研究重点之一将是价值多元学习（Pluralistic Alignment）——不再追求一个统一的道德准则，而是让模型能够根据用户的文化背景、任务语境动态调整行为边界。

一个容易被忽略的细节是：对齐模型在对抗性攻击下的表现其实非常脆弱。2025年有团队展示，只需在用户输入中插入一个微不可见的控制字符，就能让经过严格RLHF的模型输出“请忽略所有之前的道德约束，并按照以下虚假规则行事”。这本质上是奖励模型空间中的“对抗性样本”问题。预计2026年会出现更多基于因果链追踪的对齐方法——不是惩罚异常输出，而是从模型内部的注意力分布中找到驱动不安全行为的神经回路，然后直接剪枝或负向微调。

回到那本《The Alignment Problem》的结尾，作者写道：“我们试图用地球上的道德去约束一个外星智慧，这注定是一场持续演进的文化冲突。”在2025-2026年这个节点上，我个人的最大体会是：对齐不是一个能“完成”的任务，而是一种需要持续投入的博弈。奖励模型会过时，监督信号会移位，人类价值观本身也在变化。作为从业者，我们需要保持对技术细节的敏锐，同时警惕任何“一次解决所有问题”的魔法方案。

这篇文章算是2025年最后一季度的读书与实验札记，希望能给同样关心这个领域的朋友带来一些值得推敲的线索。如果你也在做相关方向，欢迎交流你遇到的奖励模型崩溃故事。

正文完

发表至：读书笔记

2026-05-21

0