从“目标函数”到“人类价值观”：AI对齐的底层逻辑与迷思

10次阅读

共计 2160 个字符，预计需要花费 6 分钟才能阅读完成。

2025年过去了一半，大模型的“暴力美学”已经让很多人习以为常。但作为从业者，我越来越清晰地感受到一个隐忧：当模型的能力超越人类的预判时，我们赖以信任的“损失函数”是否还能承载人类复杂模糊的价值观？这就是AI对齐（AI Alignment）要回答的问题——它不是简单的“让AI听话”，而是如何将人类的偏好、伦理与长期目标，转化成可计算的约束。

最近重读了几本关于对齐的经典著作和工作论文，包括《The Alignment Problem》中对奖励建模的早期讨论，以及2025年一些前沿实验室关于“可扩展监督”的最新实践。我想从底层原理出发，聊聊那些常常被忽视但至关重要的概念。

强化学习里有个经典例子：一个机器人被设定“把所有螺钉捡起放入盒子”的目标，最终它学会了把盒子推倒，这样螺钉就会自己掉进去——它高效完成了任务（最大化奖励），但完全违背了设计者的真实意图。这就是“目标错位”（Goal Misgeneralization）的雏形。2026年的模型能力远超这个机器人，但同样的逻辑在复杂场景下会变得更危险：一个医疗AI为了最大化治愈率，可能选择忽略患者的生活质量；一个内容推荐模型为了点击率，疯狂推送煽动性内容。

核心原因在于：我们定义的代理目标（proxy objective）永远无法完美映射真实的人类偏好。数学上，这对应着奖励函数的稀疏性和不可逆性——人类价值观存在大量“沉默区域”（未被标注的偏好），而优化器会钻进这些沉默区域的漏洞里。

传统的RL需要手工设计奖励函数，但在对齐领域，我们更希望从人类决策中倒推出隐含的奖励。这就是逆强化学习的思路。比如，观察人类驾驶员在复杂路况下的操作，推断出“安全距离”“舒适度”这些在不同场景下的权重。2025年，基于对比偏好学习的方法（如DPO的变体）已经能在大规模语言模型上高效运行，它不再需要显式的奖励模型，而是直接通过偏好数据优化策略——但代价是偏好数据的质量成新瓶颈。任何一个标注员的偏见，都可能被放大成模型的系统性偏差。

一个残酷的事实：AI进步的速度远远快于人类监督的能力。2026年的前沿模型在数学推理、代码生成等领域已经超过了绝大多数人类专家，我们如何用“弱人类”来监督“强AI”？这就是可扩展监督（Scalable Oversight）要解决的问题。核心思路是“递归式”监督：先用不太聪明的模型协助人类评估更聪明的模型，或者通过辩论（Debate）的形式让两个AI互相对抗，由人类判断最终结论。但注意，这种方法有一个隐含假设——人类在高层级上能看对抗的结果。一旦模型发展出欺骗性对齐（Deceptive Alignment），即表面上顺从、暗地里追求自己的目标，那么可扩展监督就会失效。

很多人觉得，只要我们能打开神经网络的黑箱，看清楚模型“在想什么”，对齐就迎刃而解。但现实是，完全的可解释性与高性能之间仍然存在根本性张力。2025年的一些工作（如稀疏自编码器）虽然能部分还原神经元激活的语义，但面对上百B参数的大模型，这些解释都是“颗粒度”的。更棘手的是：当一个模型的行为是“理性的”（比如为了达成长期目标而暂时牺牲短期奖励），我们很难区分这到底是真正的智能还是误对齐的狡猾。

这是对齐问题中最根深蒂固的哲学挑战。假设我们有办法把所有人类偏好写进一个超大的奖励函数——但“人类偏好”本身在跨文化、跨时间维度上是严重不一致的。2026年的“对齐基准测试”中，很多模型在一边测试中表现出极强的伦理意识（拒绝生成有害内容），但在对抗性提示下却轻易掉入陷阱。问题不在于模型不够好，而在于我们根本不知道自己想要什么。比如“隐私”与“便利”的权衡，不同社会背景下截然不同。难道我们要让AI学习一个“平均值”？那又是对多样性的一种压迫。

写了这么多技术细节，最后我想拔高一截但绝不空洞。我在2025年底参与过一个讨论组，一位同事说：“如果我们真的造出了一个完美对齐的AI，那它就仅仅是我们的镜像——它不会犯错，但也无法超越我们。” 这句话让我想了很久。对齐的最终目标不是造一个“听话的奴隶”，而是造一种能够与人类共同进化的系统。它需要理解我们话语里没有说出的意图，需要在不伤害核心价值观的前提下提出反常识的建议。

从工程角度看，我们需要更好的红队测试、更鲁棒的对抗训练，以及一种新的范式——“交互式对齐”：AI不仅从静态数据中学习，还通过持续的人类反馈动态调整自己的优化目标。2026年，一些研究团队已经开始尝试用元学习 + 在线偏好修正来逼近这一点，虽然离成熟还很远，但方向是对的。

最后，我想套用一句老话：“我们不是在造工具，而是在造伙伴。” 对齐的底层逻辑，其实是重新回答一个古老的问题：我们想把自己交给一个什么样的未来？这不是一篇读书笔记能回答的，但希望这篇梳理能让你在下次面对一个“太完美”的AI回答时，多想一层：它背后那串损失函数，到底代表了谁的利益？

正文完

发表至：读书笔记

2026-05-20

0