从Scaling Law到Post-Scaling：AI基础设施的范式转移

10次阅读

共计 2168 个字符，预计需要花费 6 分钟才能阅读完成。

近一年多来，我频繁听到同行讨论“Scaling Law是否已经失效”。作为在AI基础设施领域摸爬滚打多年的开发者，我经历了从2025年初的狂热到2025年下半年的冷静，再到2026年上半年的务实。这篇文章不是教科书式的科普，而是结合我自己在模型训练、推理优化和硬件选型中的真实体会，聊聊我对AI基础设施底层逻辑转变的理解。

2024-2025年，整个行业几乎都在信奉一个信念：更多的数据、更大的模型、更强的算力，就能带来持续的智能提升。这背后是DeepMind等研究机构不断验证的Scaling Law——模型性能与参数规模、数据量、计算量之间存在幂律关系。我所在的团队在2025年初训练一个70B参数的MoE模型时，确实肉眼可见地感受到每增加1000亿token的训练数据，下游任务指标就上升一个台阶。

但到了2025年中期，事情开始变得微妙。首先，高质量文本数据的“天花板”已经触手可及——互联网上可用的英文优质文本在2024年底就被大部分消耗，中文数据更是早在2023年就开始了存量争夺。其次，单纯扩大模型带来的边际收益急剧下降。我们曾尝试把参数量从70B扩展到130B，但同等训练量下，评测集分数的提升从原先的5%直接跌到1.2%。更关键的是，推理成本的增长速度远超性能收益。

进入2026年，行业内公认进入了Post-Scaling时代。所谓Post-Scaling，不是放弃规模，而是从“堆数量”转向“挖质量”。我观察到三个清晰的方向，也是我现在做基础设施架构设计的核心依据。

2026年最火的一个技术概念是“反Scaling”数据策略。简单说，就是主动剔除低质量数据，哪怕总量减少60%，模型表现反而上升。我们团队实践过一套基于小模型的质量过滤流水线：用一个小型但功能完备的推理模型（比如8B参数）对每一条训练数据做“可学习性”打分，只保留Top30%的最优数据。结果出乎意料：同等算力下，训练出的模型在GSM8K和HumanEval上的准确率分别提升了11%和9%。这种“精炼数据”策略正在成为AI基础设施的标配，倒逼数据采集、清洗、标注工具链全面重构。

MoE（混合专家）不再是新鲜词，但2026年的MoE和2024年的MoE有本质区别。早期MoE只是简单地把FFN层拆分成多个专家，然后靠一个简单的门控路由器做选择。现在，我们开始采用层级式动态路由和自适应稀疏计算。比如，对于数学推理任务，模型会自动激活“逻辑专家”和“记忆提取专家”；对于通用对话，则激活更少的专家。这种动态稀疏化带来的直接收益是：推理端速度提升3倍，显存占用减少42%。这依赖于基础设施层面更精细的算子优化和硬件调度，而不是单纯依赖更大的H100集群。

过去我们总在模型层面找效率，现在发现系统层面还有10倍空间。举一个具体的案例：我们在2025年部署一个100B模型时，单次推理需要12次算子融合，显存带宽瓶颈严重。2026年我们改用动态计算图切分 + 异步流水线，把一次推理分解成四个阶段：预填充、并行生成、校验回退、后处理。引入提前退出机制（当置信度超过阈值就停止生成）后，用户平均响应延迟从800ms降到了280ms。这背后是基础设施从“为训练优化”转向“为推理优化”的标志性变化。

如果说2024-2025年是GPU“硬件红利”期，那么2026年则是架构红利期。我调研了多家国内AI芯片初创公司的路线图，发现一个有趣趋势：存算一体 + 近存计算成为主流。传统GPU架构中80%的功耗消耗在数据搬运上，而新一代AI芯片从设计之初就围绕Transformer的Attention机制做定制，例如在片上集成超大的SRAM缓存（比如80MB），使得KVCache可以完全驻留在片内，免去HBM带宽瓶颈。

另一个重要趋势是异构计算集群的精细调度。2026年已经没有人再追求“全员H100”了。合理的做法是：训练阶段使用高性能GPU集群（如B200或Gaudi 3），推理阶段则大量部署定制化NPU或TPU。不同硬件之间的通信协议（比如NVLink vs CXL）也要做适配。这些不再是单纯的硬件工程问题，而是上升到AI操作系统层面。我们团队正在开发一套自研的异构调度框架，底层结合RDMA和SHARP技术，上层对模型框架（如vLLM、TGI）做透明加速。

回看2025-2026年的变化，我认为最核心的一点是：AI基础设施的竞争焦点，已经从“能不能训练出模型”转向“能不能低成本、低延迟地交付智能”。那些能在硬件选型、数据筛选、模型压缩、推理加速上做出系统性优化的团队，将在这个Post-Scaling时代占据显著优势。

作为从业者，我的建议是：别再盯着参数规模、FLOPs这些虚荣指标。真正值钱的东西，是理解数据分布、懂系统性能剖析、能做跨层优化的人。2026年下半年，我会重点关注缓存感知型推理引擎和稀疏计算编译器这两个方向。如果你也在做类似的事情，欢迎交流。这场效率战争，才刚刚开始。

正文完

发表至：产品思考

2026-05-18

0