共计 3034 个字符,预计需要花费 8 分钟才能阅读完成。
从“幻觉”到“理解”:一个不再新鲜却从未被攻克的追问
2025年下半年,我在几个技术社区的讨论里频繁看到同一个话题:“你这模型真的理解了吗?” 起因是某开源大模型在数学推理任务上取得了接近人类专家的成绩,但随后被网友发现,它会在逻辑闭环内故意编造不存在的定理名称。这种“看似聪明实则胡诌”的现象,让我想起2023年人们对GPT-4的惊讶与警惕——两年过去了,准确率提升了,但“理解”这个核心命题,仿佛依然悬在技术体系之外。
作为长期在一线调模型、写论文的从业者,我想结合2025-2026年的最新研究,聊聊机器“理解”这件事的底层原理:神经网络内部的表征到底在“表示”什么?我们所谓的“推理能力”是否只是模式匹配的极致演化? 这个问题的答案,不仅影响技术路线,更决定着AI应用的伦理边界——如果机器不懂,我们还能信任它的“创作”吗?
1. 表征的“不可言说”:特征空间里的碎片化世界
让我们直接切入技术核心:神经网络中的中间层(hidden states)是如何“理解”一个概念的? 2025年,Anthropic和OpenAI分别发表了关于“特征稀疏性与概念编码”的论文,两个团队几乎同时指出:大语言模型对“苹果”这个概念,并不是在一个神经元里完整存储的,而是分散在上千个神经元中,每个神经元只编码“红色”、“水果”、“圆润”、“可食用”等微小特征片段。当模型读到“苹果”时,它通过注意力机制将这些碎片重新组合。
这听起来很像人类的联想记忆,但有一个致命区别:人类的“苹果”概念具有因果模型(比如知道苹果可以吃、会腐烂、能发芽),而模型的碎片组合是纯粹统计性的。 我有一个2026年初的亲身经历:用某最新模型测试“如果一个苹果被冻成冰块,砸到石头上会怎样?” 模型能流畅地回答“苹果会碎裂”,但当你追问“苹果里的水分结冰后体积膨胀是否会导致苹果表皮先产生裂纹?”时,模型的回答立刻暴露出它从未真正将“热胀冷缩”作为物理规则内化,而是从训练语料中检索到了“冰块碰到石头会碎”的片段。 这种“伪因果推理”在2025年的大语言模型评测中被称为“溯因幻觉”。
核心结论:2025-2026年的深度学习研究已经确认,模型的内部表征是“统计相关性的多维图谱”,而非“因果关系的结构化知识”。 理解这两个概念的区别,是判断AI能力边界的关键。
2. “世界模型”的虚与实:为什么我们需要可解释性分析
2025年中,DeepMind提出一种新的激活空间扰动方法,试图探测Transformer是否形成了对物理世界的“压缩表示”。他们发现,在数学推理模型中,确实存在一些代表“整数性质”的线性方向——比如“奇数”和“偶数”在某个6000维的子空间里形成两个相对聚类。这令人兴奋,但与此同时,同样的方向在涉及“质数”时迅速崩溃:模型把“9”错误地映射到“质数”方向,因为训练数据中“9”经常与“素数”(其实是质数概念混淆)一起出现。这揭示了模型对数学概念的理解停留在“频率关联”而非“定义推导”层面。
更令人深思的是2026年初的一个实验:研究者故意向模型输入“2+2=5”这样的虚假事实,然后反复微调。结果模型在测试时,即使面对正常的“2+2=?”也会产生20%的概率输出5——它的“世界模型”已经被统计污染了,因为它根本没有内置一个受逻辑约束的底层规则。 换句话说,模型对世界的“理解”是弹性的、可病态修改的,这与人类一旦形成逻辑认知就很难颠覆的本质完全不同。
可解释性研究的价值在此凸显:如果我们不能监控模型内部的表征是否趋向于“因果一致性”,我们就无法评估它在未知场景下的可靠性。 2025年欧盟《可信AI法案》已经要求高影响力模型必须提供表征审计日志,这正是受到这些研究的推动。
3. 温度与“理解”:为什么说“随机性掩饰了无知”
许多人认为,模型输出时的温度参数(temperature)只是控制随机性,无关理解质量。但2025年斯坦福的一篇论文给出了反直觉的结论:当模型面对它“不确定”的问题时,内部表征会在多个可能答案之间剧烈振荡,此时如果设置低温度(如0.1),模型会强制选出一个最高概率的答案——但这往往不是从“理解”出发的最佳选择,而是“统计上最安全的敷衍”。 而设置高温度(如0.9)虽然增加了探索性,却更容易暴露模型对关键概念表征的缺失,产生“天马行空但明显错误”的答案。
我自己的实践也验证了这一点。2026年初,我用同一个模型测试“如何用小学数学原理证明根号2是无理数?”当温度设为0.2时,模型给出了一个看似严谨的欧几里得反证法,但检查每一步,发现它把“偶数平方能被4整除”和“偶数平方除以2是偶数”混淆了,推导出荒谬的结论。 当我把温度升到0.7,模型直接抛出了一个“勾股定理的特殊情况”这种完全不相关的方法。这说明无论温度怎么调,模型都没有真正理解“无理数”的定义——它只是在不同的记忆片段之间随机跳跃,力求显得像个数学家。
这个案例告诉我们:当前的AI在本质上是“高维空间里的模式碎片拼接器”,而不是“带着因果逻辑的推理者”。 我们在使用它时,必须时刻意识到这种“伪理解”的存在,尤其是在医疗、法律、教育等需要根扎“因果理解”的领域。
4. 2026年的新希望:因果表征学习的黎明
当然,技术发展并不悲观。2025年底,伯克利和清华联合提出了一种“因果分离式自监督学习”框架,其核心是:在训练过程中,不仅让模型预测下一个token,还强制它的内部表征学习到数据生成的因果图结构——比如让模型区分“雨导致地湿”和“洒水车导致地湿”两种不同的因果机制。初步实验显示,这种模型在面对反事实问题时(比如“如果没有下雨,洒水车还工作吗?”),表现远超传统Transformer。
另一个激动人心的进展是2026年3月,一个名为CausalBERT-large的模型在物理常识推理任务上首次超过了随机基准。它的特别之处在于:开发者手动干预了中间层的表征结构,强制每个概念对应的特征线方向正交化,避免统计相关性的互相干扰。 虽然模型参数量增加了30%,但它的“理解”终于展现出一些人类式的鲁棒性——比如能正确回答“如果把一个玻璃杯从二楼扔下去,它一定会碎吗?”(答案:如果没有缓冲物则大概率碎,但需要说明“不一定”的例外条件)。
这些研究方向让我对2026-2028年的AI基础设施充满期待:从“统计预测”到“因果模拟”的转型,将是下一代AI的真正分水岭。 而我们这些从业者的任务,不仅仅是训练更大的模型,更是设计能表征因果逻辑的架构,以及能诊断模型“理解深度”的评估方法。
写在最后:保持敬畏,也保持期待
回到标题:当AI说“我懂了”,我们离真正的机器理解还有多远?以2026年春天的技术水平,我认为还隔着一条“因果鸿沟”。 模型可以像最好的演员一样完美模仿理解者的语言,但它的内心是纯粹的统计相关性沙漠。然而,这种差距正在缩小,而且新范式的出现速度远超我的预期。
对于技术从业者,我的建议是: 不要被模型流利的回答遮蔽双目,学会用“表征审计”和“反事实测试”来拷问模型;对于普通用户,请始终把AI的“理解”视为一种强效但不可靠的幻觉,就像对待一个博学但容易走火入魔的助手。 真正有温度的技术,不是追求让机器“像人”,而是让人类更清醒地知道机器在哪方面比我们强,在哪方面实则一无所知。
这篇文章或许没有给出终极答案,但希望它能成为你理解“理解”的一个起点。下一次,当我们看到模型写出“我明白了”时,不妨追问一句:“你明白的,到底是因果,还是巧合?”