共计 2952 个字符,预计需要花费 8 分钟才能阅读完成。
为什么可观测性成为AI基础设施的“刚需”
2025年底,我所在的团队刚完成一次大规模推理集群的升级。新上线的MoE(混合专家)模型在刚部署的48小时内,出现了间歇性延迟抖动——有时单次推理耗时从20ms飙升到800ms,又自动恢复。传统的监控工具——CPU、GPU利用率、内存水位——全都显示正常。我们花了整整两天,手动比对日志、追踪调用链,才发现是某个KV Cache缓存节点因内存碎片导致热驱逐。
这件事让我深刻意识到:当AI系统从单机模型演变为包含训练、推理、数据管道、调度器的复杂分布式系统时,可观测性(Observability)不再是锦上添花,而是决定工程效率和安全边界的核心基础设施。今天这篇笔记,我想从底层原理出发,聊聊2025-2026年AI基础设施领域可观测性的进化方向——从传统的“日志+指标+追踪”三元组,走向基于因果关系的可解释性分析。
从“三支柱”到“因果链”:为什么日志不够用了?
传统可观测性的局限
在传统云原生领域,可观测性通常指三大支柱:日志(Logs)、指标(Metrics)、链路追踪(Traces)。这套体系对微服务架构相当有效——每个服务是相对独立的单元,通过API边界划分问题域。但在AI基础设施里,情况完全不同:
– 数据依赖链极长:一个推理请求涉及数据预处理、模型加载、推理计算、后处理、结果缓存,中间可能穿插多个GPU间的通信(如AllReduce)。任何一个环节的延迟异常都可能被下游放大,而传统追踪只能记录“哪个节点耗时多少”,却无法回答“为什么这个节点变慢了”。
– 状态维度爆炸:LLM推理中的KV Cache大小、注意力掩码的稀疏性、模型并行时的通信拓扑——这些指标之间高度耦合。一个指标正常不代表行为正常,比如GPU利用率70%可能是计算瓶颈,也可能是通信等待。
因果推断的引入
我读到了一本2025年出版的技术手册《AI系统的因果可观测性》(Causal Observability for AI Systems),作者是前Google SRE团队的工程师。书中提出了一个观点:AI基础设施的可观测性,本质是对“因果链”的追踪。比如一个推理超时,我们需要知道是因为数据加载器遇到了IOPS限流,导致模型输入队列空转,进而引起GPU流水线气泡。传统的链路追踪只能展示“节点A耗时200ms,节点B耗时300ms”,但无法揭示节点之间的因果传递机制。
具体实现上,书中推荐了一种基于有向无环图(DAG)的自适应采样方法:系统自动构建每次请求的因果依赖图,每个节点记录两种元数据——资源消耗向量(CPU/内存/带宽/算力)和因果关系标签(例如“等待锁”“等待网络ACK”“等待模型输出”)。然后通过统计回归或结构因果模型,推断出延迟的根因概率。这在2025年已经有一些开源项目在做原型,比如OpenTelemetry的AI扩展(otel-ai),虽然还不成熟,但方向很明确。
实战案例:用“因果分析”定位训练中的不均匀同步
2026年初,我们负责的一个千卡集群在训练一个175B参数模型时,吞吐量下降了15%。GPU利用率散布图显示:大部分卡利用率在80%左右,但有几张卡频繁降到40%。传统排查:检查网络拓扑、NVLink带宽、数据加载——全部达标。我们部署了一个基于因果图的可观测性中间件(代号Hubris),它给每个训练Step生成一张因果图:
– 节点包括:DataLoader、PreComputation、Gradients AllReduce、Optimizer Update
– 边上的权重表示“该节点等待上一节点的概率”
结果发现:“Gradients AllReduce”节点在所有卡上都有高性能抖动,但低利用率卡的抖动更剧烈。进一步挖掘因果标签发现:这些卡的Gradients AllReduce节点中“等待网络传输”标签的权重是正常卡的3倍。这提示我们可能不是单卡问题,而是同机架内某些交换机的端口拥塞——因为那些低利用率卡恰好分布在同一机架的不同交换机下,而网络拓扑是蝶形结构,导致某些链路成为热点。最终调整了网络流量调度策略,吞吐量恢复。
这个案例说明:因果链分析不是替代传统监控,而是提供更高层级的推理能力。当我们看到“GPU利用率低”这个现象,其实是一个复合症状,需要找到它背后的直接原因(比如通信等待)和间接原因(比如拥塞算法缺陷)。
AI可观测性技术的未来演进:2026年的三个趋势
1. 从“事后诊断”到“实时预测”
2025年Google Cloud发布的AI Infrastructure Observability报告指出,超过70%的AI系统宕机事件都与“缓慢积累的隐性故障”有关,比如内存碎片化、通信缓冲区泄漏。当前的可观测性工具只能等故障发生后再回溯。而基于因果模型,我们可以训练一个异常传播预测器:通过观察资源向量的微小偏离(例如某卡显存碎片率从5%升至12%),提前30分钟预测是否会触发KV Cache驱逐。这种预测在2026年已经有一些闭源产品在做(比如Datadog的AI预测模块)。
2. 可观测性数据本身的“效率危机”
大模型集群每秒产生的追踪数据可能达到TB级别。一个很现实的问题:我们到底该记录哪些数据?书中提出了“因果相关性采样”:只保留那些对因果推断有贡献的样本(例如偏离基线3个标准差的请求),其余99%的请求只保留聚合统计。这类似于自适应采样,但基于是用在线因果模型计算“重要性分数”。2025年LinkedIn在KDD上发表了相关论文,证明了该方法可以将存储成本降低80%。
3. 伦理层面的新挑战:可观测性是否意味着“监控过度”?
当可观测性深入到每一层因果链,就意味着系统状态被完全透明化。但这里潜伏着一个AI伦理问题:对模型行为(例如推理延迟)的详细跟踪,可能泄露用户隐私或者模型参数中的偏见。比如我们如果发现某个推理请求的延迟特别高,可能是因为模型对特定群体(如非母语者)的输入进行了更复杂的词法分析——这既是性能bug,也可能是隐含的歧视模式。我读的另一本书《AI伦理构建:工程实践指南》(2026年出版)提到:工程团队在设计可观测性时,必须建立因果链路脱敏机制——只统计模式,不记录具体输入内容。否则,可观测性很可能变成新型的“数字监控”,与AI伦理背道而驰。
写给同行的一点建议
如果你也在从事AI基础设施的工作,我强烈建议你:
1. 不要盲目堆砌监控指标。30个正常指标加在一起,可能依然无法解释一个反常现象。优先构建因果关系图,哪怕一开始只有简单的依赖关系。
2. 重视“负指标”。我们通常关注延迟、吞吐量这些正指标,但像“等待次数”“资源碎片率”“空转时长”这类负指标,往往隐藏着系统行为的真实因果。
3. 留出可观测性系统的扩容余量。这一点常被忽略:AI系统的规模每半年翻倍,可观测性系统的吞吐能力也必须同步增长。否则,当故障发生时,你连完整的因果图都拿不到——就像2025年那次KV Cache抖动,我们花了两天时间,很大原因就是抽样率太低导致关键证据丢失。
最后,用《AI系统的因果可观测性》里的一句话收尾吧:“可观测性不是让系统更透明,而是让不确定性更可溯。” 在这个黑盒与白盒反复博弈的时代,我们需要的不是万能望远镜,而是一把能切开因果链的解剖刀。