思维链不是万能的：深入解读大模型推理的底层逻辑

14次阅读

共计 2679 个字符，预计需要花费 7 分钟才能阅读完成。

2025年底，当GPT-5o在数学奥林匹克竞赛中斩获金牌时，整个行业陷入了一种微妙的自豪与焦虑。我们终于看到大模型在某些推理任务上超越了人类专家，但与此同时，一个简单的事实始终挥之不去：它会在「9.11与9.9哪个大」这种问题上翻车。这不是一个bug，而是理解当前AI推理能力本质的钥匙。

我曾经以为「思维链」（Chain-of-Thought, CoT）是大模型推理的终极解药——只要让模型一步一步想，就能解决复杂逻辑问题。但在经历了多次生产环境中的「假推理」之后，我意识到我们误解了CoT的真正价值：它不是让模型变得更聪明，而是让模型学会了「假装在思考」。

要理解CoT为什么有效，先得放下「推理」这个词。大模型本质上是一个巨型条件概率分布，它的核心任务是预测下一个最合理的token（词元）。CoT并不改变这个机制，而是在输入空间中开辟了一条「解释通道」。

2022年，Wei等人的原始论文揭示了一点：CoT的有效性高度依赖模型规模（超过100B参数才显著）。但原因比他们想象的更微妙——大模型在预训练阶段已经读过海量的「解题过程」文本（如小学数学题解答步骤、科研论文的论证段落）。CoT本质上是在提示模型：请回忆你记忆中最相似的「解题文风」，然后用这种句式继续生成。

举个具体例子：当用户问「一辆汽车以60km/h行驶2小时，再以80km/h行驶1小时，总路程多少？」时，模型如果直接输出「200公里」，它只用了一步概率跳转。但如果用CoT提示「让我们一步一步思考」，模型就会进入一个「抄写解题模板」的模式：先复制『时间=2小时，速度=60km/h，路程1=60×2=120』，再继续。注意，这里的乘法结果「120」并不是因为模型真的在做算术，而是因为它见过太多类似的文本模式——「60×2=120」这个子句出现在上下文中的概率极高。

这就是CoT的真相：它不是逻辑推理，而是「文本模式匹配」的链条生成。模型在推理时，实际上是在递归地选择下一个最符合「解题文本风格」的单词，整个过程更像是把问题的「风格」「数值」「关系」与训练语料中的千万个例子进行模糊匹配。

理解了这个原理，就能解释那些让人哭笑不得的错误。我在2026年初部署一个医疗诊断辅助系统时，遇到过一个典型案例：

陷阱一：数值分布偏移
模型在处理「9.11与9.9比较」时，它的tokenizer将「9.11」编码为两个数字「9」「.」「11」，而「9.9」编码为「9」「.」「9」。在训练语料中，「9.11」绝大多数出现在「9·11事件」的上下文中，而「9.9」常出现在「9.9元」的商品价格中。当CoT引导模型「一步一步比较大小」时，模型首先会提取出「9.11」这个实体，然后因为在语料中「9.11」与「重大事件」相关，而「9.9」与「小价格」相关，于是它「推理」出9.11更大。这不是逻辑错误，而是文本模式匹配的权重偏差。

陷阱二：步骤断裂时的「幻觉填补」
CoT越长，中间步骤出错的风险越高。比如一道三步数学题：第一步正确，第二步需要调用一个不常见的公式（模型没见过几次），那么第二步的生成就会变得随机。但由于模型被训练成「必须生成流畅的连贯文本」，它会在第二步之后「强行编造一个看似合理的步骤」——比如凭空创造一个「σ=∫fx dx」这样的符号，然后第三步基于这个幻觉继续。最终答案可能正确（因为巧合），但推理过程完全不可信。这种现象在2025年的Sparrow模型中被称为「伪步骤一致性」。

陷阱三：计算与符号的「表面对齐」
模型在做「5+3=8」时，它并没有进行加法的神经计算，而是直接回忆了「5+3=8」这个字符串的出现频率。当问题变为「257+349」时，它无法「进位」，只能靠字符序列的统计关联来生成答案。这解释了为什么大模型在简单算术上比小学生还差——因为它根本没有数字概念，只有字符串模式映射。

正是认识到了CoT的局限性，行业在最近两年开始了实质性的转向。我认为最有希望的两个方向是：

1. 工具增强的「外部计算」
不再要求模型在参数空间内完成推理，而是让模型学会调用外部工具（计算器、代码解释器、知识图谱）。2025年Google的Gemini 3.0就采用了「先写出计划，然后插入工具调用token」的方式，当模型需要计算时，它会生成一个特殊的「」标签，然后等待外部引擎返回精确结果。这样，模型只需要负责「分解问题」和「解释结果」，具体的数值运算交给确定性系统。推理准确率提升了40%以上。

2. 结构化思维链（Structured-CoT）
抛弃自由文本格式，改用预设的推理模板，比如用JSON格式的「前提-规则-结论」三元组。2026年6月OpenAI公布的o4模型推理流程中，内部使用了类似逻辑编程的中间表示（S-expression），每个步骤都被强制检查变量绑定和类型一致性。这使得模型的「幻觉」无法渗透到推理链中——如果某一步生成了不合逻辑的token，整个流程会立即停止并回退。

如果你正在用大模型做推理类任务（代码生成、数据分析、合同审查），请记住：

永远不要相信CoT输出的「完整推理」。正确的做法是只提取关键结论，然后用外部验证（比如测试用例、人工检查）来保证正确性。把CoT当作「黑盒的中间激活」看待，而不是透明的解释。
优先设计「短链」而不是「长链」。每增加一个推理步骤，错误率大约累加5-10%。对于复杂任务，拆解为多个独立的子问题，分别用CoT处理后聚合结果，比一个超长CoT可靠得多。
监控「模式惊奇度」。如果你的模型在CoT中写出了很奇怪的专业术语（例如医学问题中突然出现「量子纠缠」），那就意味着它正在「幻觉填补」，需要立即终止此条路径并重试。

回看过去三年，我对大模型推理能力的认识经历了三个阶段：从「惊叹」到「怀疑」再到「务实」。思维链让我们第一次看到了模型「参与」复杂任务的可能性，但它骨子里仍然是一只会背诵解题步骤的鹦鹉。真正的推理需要符号操作和因果理解——这两件事大模型都做不了。但没关系，我们作为工程师，可以设计系统在模型的外围补上这些能力。

2026年，当客户问你的模型能不能做「逻辑推理」时，我建议你反问：您说的推理，是指生成看起来像推理的文本，还是指100%确定性的结论？如果是后者，请让我为它接上计算器和规则引擎。这才是负责任的技术交付。

正文完

发表至：生活随笔

2026-05-14

0