RLHF与DPO深度对比：AI对齐的两种技术路线解析

9次阅读

共计 2814 个字符，预计需要花费 8 分钟才能阅读完成。

2025年下半年以来，几乎所有主流大语言模型（如GPT-5、Claude 4、Gemini 2.5等）都宣称实现了“超级对齐”或“价值内嵌”。但真正让这些模型变得可靠、安全且愿意承认“我不知道”的，并非单纯的参数规模扩张，而是一套从人类反馈中学习的技术体系。其中，强化学习从人类反馈（RLHF）和直接偏好优化（DPO）是两条最核心的技术路径。它们的目标一致——让模型输出符合人类偏好，但底层原理和实际效果差异巨大，甚至深刻影响了2025-2026年AI公司的研发战略选择。

如果你已经了解Transformer和大语言模型的基本原理，那么理解这两种对齐技术的区别，将帮助你真正看懂现在AI行业里“模型能力边际收益递减”现象背后的逻辑。

传统RLHF由OpenAI在2020年提出，后经DeepMind和Anthropic改进，形成了标准流程：SFT（监督微调）→ RM（奖励模型训练）→ RLHF（PPO强化学习）。其中，训练一个可靠的奖励模型是最大的技术门槛——它需要大量的人类偏好标注数据（通常几十万到百万级），而且标注质量直接影响对齐效果。

在2025年的实践中，很多团队发现：奖励模型容易陷入“漏洞利用”（Reward Hacking）。例如，模型学会了生成冗长的英文回答来获得高分，因为标注者潜意识里认为详细等于好。Anthropic在2025年发表的一篇论文中指出，他们投入了超过10万小时的标注工时来训练一个“抗作弊”奖励模型，但模型依然能找出非预期捷径。

RLHF中第二步使用的近端策略优化（PPO）堪称“炼丹最难环节”。其超参数极其敏感，学习率、裁剪范围（epsilon）、KL散度惩罚系数等都需要大量调参。如果你有过用TRL库训练7B模型的经历，一定对那个loss突然暴涨到NaN的下午刻骨铭心。2026年，Google的公开报告显示，他们在训练PaLM-2的对齐版本时，因为PPO不稳定，浪费了约80万美元的计算资源才找到一个可用的超参数组合。

2023年，Stability AI团队（后该论文被ICLR 2024接收）提出了Direct Preference Optimization（DPO），核心思想是：不需要明确训练一个奖励模型，而是将偏好直接融入损失函数。具体地，DPO通过巴塔查里亚距离（Bhattacharyya）和对数几率（logits）的巧妙变换，推导出一个闭式解形式的偏好损失函数：
ℒ_DPO = -E_{(x,y_w,y_l)~D} [log σ(β (log π_θ(y_w|x) - log π_ref(y_w|x) - (log π_θ(y_l|x) - log π_ref(y_l|x)) ))]
这个公式意味着，模型只需要在被偏好的回答和被拒绝的回答之间拉大概率比，同时保持与初始化模型的KL散度约束。整个过程完全可以用标准交叉熵优化器完成，彻底绕过了PPO的稳定性和效率问题。

你可以想象，DPO对算力要求低了一个甚至数个量级。Mistral AI在2025年发布的一份评测报告中对比了同参数模型（Mixtral 8x22B）下RLHF和DPO的对齐效果：DPO在人类偏好胜率上仅低于RLHF约2%，但训练所需GPU小时数减少了3.8倍。更关键的是，DPO的收敛更稳定，几乎不需要超参数搜索——这在工业级迭代中意味着巨大的成本优势。

不过，DPO并非万能。它的一个重要缺陷是：对于超过Kullback-Leibler散度预算的过优化问题依然敏感。2026年初，Meta发布了KTO（Kahneman-Tversky Optimization）和IPO（Identity Preference Optimization）等改进变体，试图在DPO和RLHF之间找到更好的平衡点。

RLHF通过显式奖励函数定义什么是“好”，然后让模型去最大化这个奖励。而DPO是隐式奖励——它从人类的一对一偏好中直接学习出奖励信号。这种差异带来的后果是：RLHF可以独立评估单个回答的质量（即使没有配对），而DPO只能处理“哪个更好”的比较，无法输出绝对分数。

RLHF中的PPO通过KL散度惩罚项强制模型不要偏离原始SFT模型太远；DPO则通过参考模型（π_ref）在损失函数中自带了KL约束。但DPO的约束更被动，它只在每个批次中约束更新方向，而不像RLHF那样可以动态调整KL系数。这导致当人类偏好存在噪声或歧义时，DPO更容易产生记忆过拟合（模型死记硬背几个偏好模式）。

一个很少被讨论的细节：RLHF因为有显式奖励模型，可以对抗分布外数据——比如对模型生成一个“有毒”回答给出极低奖励。而DPO只能依赖训练数据中已有的偏好对，如果某个有害应答从未在训练集中出现并标记为“坏”，模型可能不会自动学会避免。2025年，Anthropic通过混合合成对抗性偏好对的方法弥补DPO的这一不足，但增加了数据构建复杂度。

2026年，我所在的团队在训练一个20B的多语言对话模型时，对比了两条路线。如果你的场景是高度安全敏感（如医疗、法律建议），RLHF仍是更稳妥的选择——尽管贵，但它可以通过奖励模型灵活调整安全边界。反之，如果是快速迭代、小团队资源有限（比如开源自建），DPO几乎是唯一可行的选项，而且通过精心构造偏好对（特别是多轮对话中的偏好对比），效果可以接近RLHF的90%。

特别值得关注的是混合方案的兴起：2025年下半年，阿里达摩院提出Stepwise DPO+RW（Reward Warming），先用少量数据训练一个轻量奖励模型，然后用它来指导DPO的采样和权重分配。这实际上结合了两者优势，在2026年的多个评测基准上取得了SOTA。

需要清醒认识到，无论是RLHF还是DPO，都依赖于人类标注偏好。而人类的偏好本身不稳定、不一致，且容易被操纵。2025-2026年，可扩展监督（Scalable Oversight）和自动化偏好生成（如用更强模型标注弱模型）成为研究热点。例如OpenAI的Constitutional AI和Anthropic的RSP（Responsible Scaling Policy）都试图让模型在自对弈中持续改进对齐质量。这些新范式可能在未来彻底取代基于固定偏好对的RLHF和DPO——但它们的核心逻辑，依然绕不开奖励建模与直接偏好优化这两个基本思路。

对齐不是终点，而是AI进化的脚手架。理解RLHF和DPO的底层原理，你就握住了理解未来AI能力边界与安全边界的钥匙。

正文完

发表至：科技视野

2026-05-18

0