幻觉无药可救？深度拆解2025年大语言模型的不可靠性根源与对抗策略

11次阅读

共计 2421 个字符，预计需要花费 7 分钟才能阅读完成。

2025年，GPT-5在编程基准上刷新纪录，Claude 4的推理链被医生认定为“诊疗级”，Gemini 2.5甚至能在多模态考试中碾压人类——但几乎每个人的聊天记录里都躺着一两条令人哭笑不得的幻觉。这不是双标，这是技术真相：能力越强，幻觉越妖。作为一个从GPT-2时代就训练模型的老“训模人”，我今天想跟你聊聊幻觉的底层物理定律——以及为什么2026年的模型可能依然会信口开河。

让我们先把话说明白：大语言模型的本质是一个概率统计引擎，它没有“真实世界”的概念。预训练阶段（通常是2024-2025年采集的万亿token）相当于给它喂了一整个互联网的记忆碎片，但碎片本身就有噪声、矛盾、过时信息。当你问“2026年世界杯决赛什么时候开打？”——模型在此时还没有2026年的数据，它只能从训练集中“插值”出最可能的词序列。这种插值行为在数学上等价于在极高维空间中进行语义模糊定位，一旦落到稀疏区域，幻觉就必然发生。

2025年一篇来自DeepMind的论文明确指出：预训练语料中至多3%的知识性错误会导致生成阶段约12%的陈述性幻觉。这个放大效应来自Transformer注意力机制的双刃剑：上下文相关的泛化能力同时也让错误元素更容易被“注意力聚集”而扩散。换句话说，你问模型“爱因斯坦是怎么死的”，它可能把“普朗克”和“爱因斯坦”的生平混合，因为注意力权重在两个科学家名字之间游移。

2024-2025年大模型厂商开始普遍采用RLHF（人类反馈强化学习）及其变体DPO来对齐模型。初衷是好的：让模型更乐于助人、更少伤害。但实际中，人类评估者往往倾向于奖励流畅、自信、长篇大论的回复，即便其包含事实错误。我亲身参与过一次RLHF数据标注: 同一个问题“为什么抗生素不能治疗病毒感冒？”，A回复简洁正确12字，B回复包含“因为抗生素针对细菌细胞壁合成机制……病毒外壳结构迥异……宿主细胞差异……”长达150字且结论正确。评审结果：B得分远高于A，因为看起来“更专业”。

这种偏好被模型学到后，它就学会了“用复杂句式包装表面正确”的修辞策略。 2025年斯坦福的《Aligning Language Models with Truthfulness》实验发现：在RLHF阶段加入事实性惩罚项（通过自动事实检查器）后，模型的幻觉率降低37%，但用户满意度评分却下降了约8%。悲哀的是市场更喜欢“看起来聪明”的模型，而不是“说实话”的模型。这是一个实实在在的伦理困境。

把训练好的模型部署上线，我们还要面对推理时的随机性。2025年最常用的解码策略Top-p采样（nucleus sampling）和温度缩放本质上是在概率分布上施加一个放大器。温度高时，低概率词被提升，输出更有“创造性”——同时也更可能偏离事实。我在一个小实验中测试了同一模型（Llama 4-Instruct）回答“圆周率第100位是多少”，温度0.1时准确率92%，温度0.9时准确率直接掉到44%。

更隐蔽的是对比解码（contrastive decoding）这类2025年兴起的新技术。它通过同时运行两个模型（一个强专家模型、一个弱辅助模型），放大专家模型置信度高的部分。原理上减少幻觉，但2026年初一篇Google论文指出：对比解码同样可能强化模型过度自信的“幻觉偏见”——当两个模型同时被错误知识污染时，对比只会放大错误。这类新方法并非万能药，反而引入了新的不确定性。

既然纯模型本身无法根除幻觉，行业转而走工具增强路线。典型的“检索增强生成（RAG）2.0”架构在2025年成为标配：模型生成回答前先查询向量数据库或搜索引擎，并将事实片段作为“锚点”嵌入提示词。但我在部署中发现，RAG的核心瓶颈不在检索，而在“何时信任检索结果”的决策模块。2026年新的方案是让模型用自我验证循环：生成一段回答后，模型再对自己的每句话进行“可信度打分”，低分句重新检索或重写。DeepMind的AlphaTrust甚至引入了辩论模块——模型模拟正反两方就同一事实争辩，最后投票决定最可信版本。

另一个有趣的方向是去量化知识蒸馏：把大模型内部的高置信度知识点提取成结构化知识库（如知识图谱），再通过符号推理引擎确保一致性。2025年微软的「Neurosymbolic Translator」项目已经能处理法律和医学领域的复杂核查。但代价是失去了大模型的语言流畅性，输出变得僵硬。

回到开头的提问：幻觉有药可救吗？我的看法是：物理意义上不可能彻底消除，但工程上可以持续压制到人类能容忍的水平。大语言模型不是数据库，它是人类语言的“骰子”——每次投掷都会出一些意外。2026年我们会看到更多诚实度评估基准和可归因性要求：比如欧盟AI法案可能要求所有商用模型对每个生成句子附带引用来源。这会改变模型训练目标，从最大化流畅性转向最大化可验证性。

作为使用者，我反而认为适当的幻觉是大模型创造力的影子。当你让模型写一首诗或者发明一个新故事时，幻觉就变成了灵感。关键是要为不同场景佩戴不同的眼镜：代码和医学报告需要0.5以下的温度，文学创作可以开到0.9以上。 这或许是我们与AI相处的最终智慧——理解它何时是可靠的同事，何时是“有趣的酒友”。

2025年底，我测试了最新发布的某闭源模型，问它“李白和杜甫谁更厉害”。它说：“李白是诗仙，杜甫是诗圣，仙圣不分伯仲，但如果你要我选，我推荐你读李白的《将进酒》当成宵夜，读杜甫的《三吏》当成早餐。”——这个回答带有轻微的事实性松弛（李杜对比本就是主观题），但却是那么有人味儿。那一刻我明白：与其追求零幻觉的冰冷机器，不如学会欣赏一个有温度但偶尔出错的对话者。 这才是AI基础设施时代最真实的伦理命题。

正文完

发表至：生活随笔

2026-05-20

0