共计 2168 个字符,预计需要花费 6 分钟才能阅读完成。
写在前面:一个从业者的观察
近一年多来,我频繁听到同行讨论“Scaling Law是否已经失效”。作为在AI基础设施领域摸爬滚打多年的开发者,我经历了从2025年初的狂热到2025年下半年的冷静,再到2026年上半年的务实。这篇文章不是教科书式的科普,而是结合我自己在模型训练、推理优化和硬件选型中的真实体会,聊聊我对AI基础设施底层逻辑转变的理解。
Scaling Law的黄金时代与瓶颈
2024-2025年,整个行业几乎都在信奉一个信念:更多的数据、更大的模型、更强的算力,就能带来持续的智能提升。这背后是DeepMind等研究机构不断验证的Scaling Law——模型性能与参数规模、数据量、计算量之间存在幂律关系。我所在的团队在2025年初训练一个70B参数的MoE模型时,确实肉眼可见地感受到每增加1000亿token的训练数据,下游任务指标就上升一个台阶。
但到了2025年中期,事情开始变得微妙。首先,高质量文本数据的“天花板”已经触手可及——互联网上可用的英文优质文本在2024年底就被大部分消耗,中文数据更是早在2023年就开始了存量争夺。其次,单纯扩大模型带来的边际收益急剧下降。我们曾尝试把参数量从70B扩展到130B,但同等训练量下,评测集分数的提升从原先的5%直接跌到1.2%。更关键的是,推理成本的增长速度远超性能收益。
Post-Scaling时代的三条主线
进入2026年,行业内公认进入了Post-Scaling时代。所谓Post-Scaling,不是放弃规模,而是从“堆数量”转向“挖质量”。我观察到三个清晰的方向,也是我现在做基础设施架构设计的核心依据。
1. 数据质量:从“越多越好”到“越精越好”
2026年最火的一个技术概念是“反Scaling”数据策略。简单说,就是主动剔除低质量数据,哪怕总量减少60%,模型表现反而上升。我们团队实践过一套基于小模型的质量过滤流水线:用一个小型但功能完备的推理模型(比如8B参数)对每一条训练数据做“可学习性”打分,只保留Top30%的最优数据。结果出乎意料:同等算力下,训练出的模型在GSM8K和HumanEval上的准确率分别提升了11%和9%。这种“精炼数据”策略正在成为AI基础设施的标配,倒逼数据采集、清洗、标注工具链全面重构。
2. 架构创新:从稠密到稀疏,再到动态路由
MoE(混合专家)不再是新鲜词,但2026年的MoE和2024年的MoE有本质区别。早期MoE只是简单地把FFN层拆分成多个专家,然后靠一个简单的门控路由器做选择。现在,我们开始采用层级式动态路由和自适应稀疏计算。比如,对于数学推理任务,模型会自动激活“逻辑专家”和“记忆提取专家”;对于通用对话,则激活更少的专家。这种动态稀疏化带来的直接收益是:推理端速度提升3倍,显存占用减少42%。这依赖于基础设施层面更精细的算子优化和硬件调度,而不是单纯依赖更大的H100集群。
3. 推理优化:从“模型优先”到“系统优先”
过去我们总在模型层面找效率,现在发现系统层面还有10倍空间。举一个具体的案例:我们在2025年部署一个100B模型时,单次推理需要12次算子融合,显存带宽瓶颈严重。2026年我们改用动态计算图切分 + 异步流水线,把一次推理分解成四个阶段:预填充、并行生成、校验回退、后处理。引入提前退出机制(当置信度超过阈值就停止生成)后,用户平均响应延迟从800ms降到了280ms。这背后是基础设施从“为训练优化”转向“为推理优化”的标志性变化。
基础设施的底层重构:AI芯片不再只是算力堆叠
如果说2024-2025年是GPU“硬件红利”期,那么2026年则是架构红利期。我调研了多家国内AI芯片初创公司的路线图,发现一个有趣趋势:存算一体 + 近存计算成为主流。传统GPU架构中80%的功耗消耗在数据搬运上,而新一代AI芯片从设计之初就围绕Transformer的Attention机制做定制,例如在片上集成超大的SRAM缓存(比如80MB),使得KVCache可以完全驻留在片内,免去HBM带宽瓶颈。
另一个重要趋势是异构计算集群的精细调度。2026年已经没有人再追求“全员H100”了。合理的做法是:训练阶段使用高性能GPU集群(如B200或Gaudi 3),推理阶段则大量部署定制化NPU或TPU。不同硬件之间的通信协议(比如NVLink vs CXL)也要做适配。这些不再是单纯的硬件工程问题,而是上升到AI操作系统层面。我们团队正在开发一套自研的异构调度框架,底层结合RDMA和SHARP技术,上层对模型框架(如vLLM、TGI)做透明加速。
未来两年的确定性:效率战争
回看2025-2026年的变化,我认为最核心的一点是:AI基础设施的竞争焦点,已经从“能不能训练出模型”转向“能不能低成本、低延迟地交付智能”。那些能在硬件选型、数据筛选、模型压缩、推理加速上做出系统性优化的团队,将在这个Post-Scaling时代占据显著优势。
作为从业者,我的建议是:别再盯着参数规模、FLOPs这些虚荣指标。真正值钱的东西,是理解数据分布、懂系统性能剖析、能做跨层优化的人。2026年下半年,我会重点关注缓存感知型推理引擎和稀疏计算编译器这两个方向。如果你也在做类似的事情,欢迎交流。这场效率战争,才刚刚开始。