AI基础设施的可观测性：从日志到因果链

14次阅读

共计 2952 个字符，预计需要花费 8 分钟才能阅读完成。

2025年底，我所在的团队刚完成一次大规模推理集群的升级。新上线的MoE（混合专家）模型在刚部署的48小时内，出现了间歇性延迟抖动——有时单次推理耗时从20ms飙升到800ms，又自动恢复。传统的监控工具——CPU、GPU利用率、内存水位——全都显示正常。我们花了整整两天，手动比对日志、追踪调用链，才发现是某个KV Cache缓存节点因内存碎片导致热驱逐。
这件事让我深刻意识到：当AI系统从单机模型演变为包含训练、推理、数据管道、调度器的复杂分布式系统时，可观测性（Observability）不再是锦上添花，而是决定工程效率和安全边界的核心基础设施。今天这篇笔记，我想从底层原理出发，聊聊2025-2026年AI基础设施领域可观测性的进化方向——从传统的“日志+指标+追踪”三元组，走向基于因果关系的可解释性分析。

在传统云原生领域，可观测性通常指三大支柱：日志（Logs）、指标（Metrics）、链路追踪（Traces）。这套体系对微服务架构相当有效——每个服务是相对独立的单元，通过API边界划分问题域。但在AI基础设施里，情况完全不同：
– 数据依赖链极长：一个推理请求涉及数据预处理、模型加载、推理计算、后处理、结果缓存，中间可能穿插多个GPU间的通信（如AllReduce）。任何一个环节的延迟异常都可能被下游放大，而传统追踪只能记录“哪个节点耗时多少”，却无法回答“为什么这个节点变慢了”。
– 状态维度爆炸：LLM推理中的KV Cache大小、注意力掩码的稀疏性、模型并行时的通信拓扑——这些指标之间高度耦合。一个指标正常不代表行为正常，比如GPU利用率70%可能是计算瓶颈，也可能是通信等待。

我读到了一本2025年出版的技术手册《AI系统的因果可观测性》（Causal Observability for AI Systems），作者是前Google SRE团队的工程师。书中提出了一个观点：AI基础设施的可观测性，本质是对“因果链”的追踪。比如一个推理超时，我们需要知道是因为数据加载器遇到了IOPS限流，导致模型输入队列空转，进而引起GPU流水线气泡。传统的链路追踪只能展示“节点A耗时200ms，节点B耗时300ms”，但无法揭示节点之间的因果传递机制。

具体实现上，书中推荐了一种基于有向无环图（DAG）的自适应采样方法：系统自动构建每次请求的因果依赖图，每个节点记录两种元数据——资源消耗向量（CPU/内存/带宽/算力）和因果关系标签（例如“等待锁”“等待网络ACK”“等待模型输出”）。然后通过统计回归或结构因果模型，推断出延迟的根因概率。这在2025年已经有一些开源项目在做原型，比如OpenTelemetry的AI扩展（otel-ai），虽然还不成熟，但方向很明确。

2026年初，我们负责的一个千卡集群在训练一个175B参数模型时，吞吐量下降了15%。GPU利用率散布图显示：大部分卡利用率在80%左右，但有几张卡频繁降到40%。传统排查：检查网络拓扑、NVLink带宽、数据加载——全部达标。我们部署了一个基于因果图的可观测性中间件（代号Hubris），它给每个训练Step生成一张因果图：
– 节点包括：DataLoader、PreComputation、Gradients AllReduce、Optimizer Update
– 边上的权重表示“该节点等待上一节点的概率”
结果发现：“Gradients AllReduce”节点在所有卡上都有高性能抖动，但低利用率卡的抖动更剧烈。进一步挖掘因果标签发现：这些卡的Gradients AllReduce节点中“等待网络传输”标签的权重是正常卡的3倍。这提示我们可能不是单卡问题，而是同机架内某些交换机的端口拥塞——因为那些低利用率卡恰好分布在同一机架的不同交换机下，而网络拓扑是蝶形结构，导致某些链路成为热点。最终调整了网络流量调度策略，吞吐量恢复。

这个案例说明：因果链分析不是替代传统监控，而是提供更高层级的推理能力。当我们看到“GPU利用率低”这个现象，其实是一个复合症状，需要找到它背后的直接原因（比如通信等待）和间接原因（比如拥塞算法缺陷）。

2025年Google Cloud发布的AI Infrastructure Observability报告指出，超过70%的AI系统宕机事件都与“缓慢积累的隐性故障”有关，比如内存碎片化、通信缓冲区泄漏。当前的可观测性工具只能等故障发生后再回溯。而基于因果模型，我们可以训练一个异常传播预测器：通过观察资源向量的微小偏离（例如某卡显存碎片率从5%升至12%），提前30分钟预测是否会触发KV Cache驱逐。这种预测在2026年已经有一些闭源产品在做（比如Datadog的AI预测模块）。

大模型集群每秒产生的追踪数据可能达到TB级别。一个很现实的问题：我们到底该记录哪些数据？书中提出了“因果相关性采样”：只保留那些对因果推断有贡献的样本（例如偏离基线3个标准差的请求），其余99%的请求只保留聚合统计。这类似于自适应采样，但基于是用在线因果模型计算“重要性分数”。2025年LinkedIn在KDD上发表了相关论文，证明了该方法可以将存储成本降低80%。

当可观测性深入到每一层因果链，就意味着系统状态被完全透明化。但这里潜伏着一个AI伦理问题：对模型行为（例如推理延迟）的详细跟踪，可能泄露用户隐私或者模型参数中的偏见。比如我们如果发现某个推理请求的延迟特别高，可能是因为模型对特定群体（如非母语者）的输入进行了更复杂的词法分析——这既是性能bug，也可能是隐含的歧视模式。我读的另一本书《AI伦理构建：工程实践指南》（2026年出版）提到：工程团队在设计可观测性时，必须建立因果链路脱敏机制——只统计模式，不记录具体输入内容。否则，可观测性很可能变成新型的“数字监控”，与AI伦理背道而驰。

如果你也在从事AI基础设施的工作，我强烈建议你：
1. 不要盲目堆砌监控指标。30个正常指标加在一起，可能依然无法解释一个反常现象。优先构建因果关系图，哪怕一开始只有简单的依赖关系。
2. 重视“负指标”。我们通常关注延迟、吞吐量这些正指标，但像“等待次数”“资源碎片率”“空转时长”这类负指标，往往隐藏着系统行为的真实因果。
3. 留出可观测性系统的扩容余量。这一点常被忽略：AI系统的规模每半年翻倍，可观测性系统的吞吐能力也必须同步增长。否则，当故障发生时，你连完整的因果图都拿不到——就像2025年那次KV Cache抖动，我们花了两天时间，很大原因就是抽样率太低导致关键证据丢失。

最后，用《AI系统的因果可观测性》里的一句话收尾吧：“可观测性不是让系统更透明，而是让不确定性更可溯。” 在这个黑盒与白盒反复博弈的时代，我们需要的不是万能望远镜，而是一把能切开因果链的解剖刀。

正文完

发表至：读书笔记

2026-05-16

0