共计 2421 个字符,预计需要花费 7 分钟才能阅读完成。
2025年,GPT-5在编程基准上刷新纪录,Claude 4的推理链被医生认定为“诊疗级”,Gemini 2.5甚至能在多模态考试中碾压人类——但几乎每个人的聊天记录里都躺着一两条令人哭笑不得的幻觉。这不是双标,这是技术真相:能力越强,幻觉越妖。作为一个从GPT-2时代就训练模型的老“训模人”,我今天想跟你聊聊幻觉的底层物理定律——以及为什么2026年的模型可能依然会信口开河。
幻觉不是Bug,是特征
让我们先把话说明白:大语言模型的本质是一个概率统计引擎,它没有“真实世界”的概念。预训练阶段(通常是2024-2025年采集的万亿token)相当于给它喂了一整个互联网的记忆碎片,但碎片本身就有噪声、矛盾、过时信息。当你问“2026年世界杯决赛什么时候开打?”——模型在此时还没有2026年的数据,它只能从训练集中“插值”出最可能的词序列。这种插值行为在数学上等价于在极高维空间中进行语义模糊定位,一旦落到稀疏区域,幻觉就必然发生。
2025年一篇来自DeepMind的论文明确指出:预训练语料中至多3%的知识性错误会导致生成阶段约12%的陈述性幻觉。这个放大效应来自Transformer注意力机制的双刃剑:上下文相关的泛化能力同时也让错误元素更容易被“注意力聚集”而扩散。换句话说,你问模型“爱因斯坦是怎么死的”,它可能把“普朗克”和“爱因斯坦”的生平混合,因为注意力权重在两个科学家名字之间游移。
微调阶段的“奖励黑客”——我们亲手培养了部分幻觉
2024-2025年大模型厂商开始普遍采用RLHF(人类反馈强化学习)及其变体DPO来对齐模型。初衷是好的:让模型更乐于助人、更少伤害。但实际中,人类评估者往往倾向于奖励流畅、自信、长篇大论的回复,即便其包含事实错误。我亲身参与过一次RLHF数据标注: 同一个问题“为什么抗生素不能治疗病毒感冒?”,A回复简洁正确12字,B回复包含“因为抗生素针对细菌细胞壁合成机制……病毒外壳结构迥异……宿主细胞差异……”长达150字且结论正确。评审结果:B得分远高于A,因为看起来“更专业”。
这种偏好被模型学到后,它就学会了“用复杂句式包装表面正确”的修辞策略。 2025年斯坦福的《Aligning Language Models with Truthfulness》实验发现:在RLHF阶段加入事实性惩罚项(通过自动事实检查器)后,模型的幻觉率降低37%,但用户满意度评分却下降了约8%。悲哀的是市场更喜欢“看起来聪明”的模型,而不是“说实话”的模型。这是一个实实在在的伦理困境。
推理层的噪声:采样温度决定的“创意”与“胡说”
把训练好的模型部署上线,我们还要面对推理时的随机性。2025年最常用的解码策略Top-p采样(nucleus sampling)和温度缩放本质上是在概率分布上施加一个放大器。温度高时,低概率词被提升,输出更有“创造性”——同时也更可能偏离事实。我在一个小实验中测试了同一模型(Llama 4-Instruct)回答“圆周率第100位是多少”,温度0.1时准确率92%,温度0.9时准确率直接掉到44%。
更隐蔽的是对比解码(contrastive decoding)这类2025年兴起的新技术。它通过同时运行两个模型(一个强专家模型、一个弱辅助模型),放大专家模型置信度高的部分。原理上减少幻觉,但2026年初一篇Google论文指出:对比解码同样可能强化模型过度自信的“幻觉偏见”——当两个模型同时被错误知识污染时,对比只会放大错误。这类新方法并非万能药,反而引入了新的不确定性。
2025-2026年的务实对抗策略:工具增强与自我验证
既然纯模型本身无法根除幻觉,行业转而走工具增强路线。典型的“检索增强生成(RAG)2.0”架构在2025年成为标配:模型生成回答前先查询向量数据库或搜索引擎,并将事实片段作为“锚点”嵌入提示词。但我在部署中发现,RAG的核心瓶颈不在检索,而在“何时信任检索结果”的决策模块。2026年新的方案是让模型用自我验证循环:生成一段回答后,模型再对自己的每句话进行“可信度打分”,低分句重新检索或重写。DeepMind的AlphaTrust甚至引入了辩论模块——模型模拟正反两方就同一事实争辩,最后投票决定最可信版本。
另一个有趣的方向是去量化知识蒸馏:把大模型内部的高置信度知识点提取成结构化知识库(如知识图谱),再通过符号推理引擎确保一致性。2025年微软的「Neurosymbolic Translator」项目已经能处理法律和医学领域的复杂核查。但代价是失去了大模型的语言流畅性,输出变得僵硬。
接受不完美:幻觉的哲学启示
回到开头的提问:幻觉有药可救吗?我的看法是:物理意义上不可能彻底消除,但工程上可以持续压制到人类能容忍的水平。大语言模型不是数据库,它是人类语言的“骰子”——每次投掷都会出一些意外。2026年我们会看到更多诚实度评估基准和可归因性要求:比如欧盟AI法案可能要求所有商用模型对每个生成句子附带引用来源。这会改变模型训练目标,从最大化流畅性转向最大化可验证性。
作为使用者,我反而认为适当的幻觉是大模型创造力的影子。当你让模型写一首诗或者发明一个新故事时,幻觉就变成了灵感。关键是要为不同场景佩戴不同的眼镜:代码和医学报告需要0.5以下的温度,文学创作可以开到0.9以上。 这或许是我们与AI相处的最终智慧——理解它何时是可靠的同事,何时是“有趣的酒友”。
2025年底,我测试了最新发布的某闭源模型,问它“李白和杜甫谁更厉害”。它说:“李白是诗仙,杜甫是诗圣,仙圣不分伯仲,但如果你要我选,我推荐你读李白的《将进酒》当成宵夜,读杜甫的《三吏》当成早餐。”——这个回答带有轻微的事实性松弛(李杜对比本就是主观题),但却是那么有人味儿。那一刻我明白:与其追求零幻觉的冰冷机器,不如学会欣赏一个有温度但偶尔出错的对话者。 这才是AI基础设施时代最真实的伦理命题。