超越Scaling Law：AI基础设施的下一个十年

11次阅读

共计 2923 个字符，预计需要花费 8 分钟才能阅读完成。

过去两年里，我断断续续读了几本关于AI基础设施的书，从《大规模机器学习》到《数据中心计算》，再到最近一本《The Scaling Hypothesis》（2025年出版）——作者是那种不太爱抛头露脸但理论功底极深的前DeepMind研究员。合上最后一页时，我脑子里冒出一个越来越强烈的感觉：我们正站在一个旧范式崩塌、新范式还没完全成型的断层上。

如果你也关注2025-2026年行业动态，应该会发现一些微妙的变化：微软在冰岛建了地热冷却的数据中心集群，Google开始推“稀疏激活”专用芯片，而OpenAI悄悄砍掉了几个“爬Scaling Law”的实验项目。这些信号指向同一个问题：以参数规模和算力堆砌为核心的Scaling Law，正在触及物理和经济的双重天花板。今天这篇文章不会啰嗦基础概念，而是深入讨论几个技术细节和案例，希望给同样关注基础设施演进的朋友一些启发。

《The Scaling Hypothesis》里用了一个很形象的比喻：“你往一个杯子里倒水，杯子总有满的时候。但如果你换个更高杯口的杯子，不仅能装更多，还能利用虹吸效应。”这里的“更高杯口”指的是模型架构和训练策略的进化，而不是单纯增加参数量。书中给出了2024-2025年多个大模型团队未公开的实验数据：在同样FLOPs下，参数量从1B翻到10B时，下游任务准确率提升约23%；但从10B到100B，提升骤降到只有6%。而代价呢？训练成本、推理延迟、能源消耗几乎是指数增长。

我自己在调参一个中等规模的LLM时也有类似感受——把参数量从7B调到13B，GPU训练时间增加了近4倍，但MMLU分数只涨了1.2个点。《Scaling Hypothesis》里把这叫做“边际效用悬崖”。作者给出了一个更激进的看法：纯粹依靠增大模型规模的路线，在2027年之前就会碰到物理瓶颈（散热、光速通讯延迟、稀土元素供应限制）。所以现在的重点，应该是三个方向：更好的架构、更高效的数据利用、以及更聪明的硬件协同。

2025年底，Meta的Llama-5发布时，大家注意到一个细节：虽然总参数是1.2T，但每次推理只激活约10%的神经元（120B）。这背后是MoE（专家混合）架构的成熟化落地。我不久前参加一个技术沙龙，一位来自Anthropic的工程师分享了一个案例：他们在内部用“条件计算”把每个token的FLOPs降低了35%，而准确率只损失不到0.5%。这种“稀疏激活”其实不是新概念，2017年的Outrageously Large Neural Networks论文就提过，但当时硬件和框架不成熟。

现在不同了。2025年发布的NVIDIA H200（甚至传闻中的2026年B200）开始内建稀疏矩阵加速单元。这相当于硬件和软件同时向“省着用算力”的方向妥协。我个人觉得，这是AI基础设施真正成熟的表现：不再是盲人摸象式地堆晶体管，而是开始精打细算地设计每一焦耳电能的用途。

书里给了一个很具体的案例：某欧洲研究团队在训练一个800B参数的MoE模型时，采用了“非对称训练”——对高频专家（比如负责数学推理的）用全精度FP32更新，对低频专家则用FP8量化。结果训练效率提升28%，而模型最终性能没什么退化。这听起来是“偷懒”，但在实践中，这种差异化的计算分配，比任何算法创新都更直接地解决了基础设施的能耗天花板问题。 如果你也在设计训练pipeline，不妨试试类似思路：不是所有参数都值得“一视同仁”。

很多讨论只盯着算力和参数，却忽略了数据对基础设施的隐形杠杆效应。2026年3月，一篇来自斯坦福HAI的预印本提出了一个观点：在固定算力预算下，把数据质量从“普通网页清洗”提升到“专家标注+合成数据”，最多能带来400%的性能提升。 这比增加参数量划算太多了。

我自己在做一个中文医疗问答系统时深有体会：用50万条经过医生核验的对话数据训练一个7B模型，效果比用500万条未经清洗的爬虫数据还要好。而训练时间只用了原来的1/3！这背后的原理是“数据密度”：高质量数据在信息量上远高于噪声数据，模型可以更快收敛，需要的迭代步骤更少，从而节省大量算力。

但这里有个伦理问题：谁来决定什么是“高质量数据”？如果全部使用人工标注，成本高企且可能引入标注者的偏见。《The Scaling Hypothesis》里讨论了“数据封闭循环”的困境——当全网有价值的数据都被训练过一次后，新数据要么来自合成（可能模型自我中毒），要么来自付费源头（造成数字鸿沟）。2025年很多AI公司开始建立“数据合作社”，就是应对这个趋势。我觉得这是基础设施的一部分，甚至比硬件更重要。

写到这里，我想聊一个稍微沉重的话题。2025年9月，我拜访了某超算中心的工程师，他指着机房里正在喷淋冷却的管道说：“你知道维持这座数据中心全年运行，需要的电量等于一座50万人口城市的居民用电吗？”AI基础设施的能耗问题已经不是技术问题，而是生存问题。

书中引用了一个数据：全球AI训练和推理的年能源消耗，从2022年的15 TWh激增到2025年的约90 TWh，约占全球发电量的0.3%。这个数字到2027年可能翻倍。更麻烦的是，当前绝大多数数据中心依然依赖化石能源网络（因为大规模太阳能和风能无法保证24×6×7稳定供应）。 这意味着，如果我们不顾伦理地追求算力的大幅增长，就是在加剧碳排放——这就和AI本身承诺的“优化全球能源管理”形成了悖论。

我自己倾向的观点是：在2026年这个节点，基础设施的设计必须将“碳强度”作为第一指标，而不是单纯看FLOPs/Watt。 芬兰初创公司Finn.ai（化名）开发了一款基于液冷+地热混合的芯片封装方案，在-5℃的数据中心中，芯片的FLOPs/Watt比传统风冷提升了24%。这不是魔法，是逆向思维：既然芯片发热是瓶颈，为什么不把散热变成高效能源利用？这种“基础设施的物联想”才是未来十年AI伦理的真正落地。

合上书时，我想起2024年参加NeurIPS一个workshop，听到的一句话：“AI的摩尔时代结束了，但效率时代才刚刚开始。” 过去十年，我们习惯了每年模型参数翻一倍、算力需求翻一倍。但2025-2026年，这种速度明显放缓——不是因为技术做不到，而是因为社会、环境、成本不允许。

对于从业者来说，这意味着需要从“闭眼堆参数”转向“睁眼抠细节”。关注稀疏计算、数据质量、硬件亲和性、以及碳排放。这不是妥协，而是进化。就像功能手机时代人们追逐“更大屏幕、更厚机身”，但智能手机时代拼的是“软件生态和能效平衡”。AI基础设施的下一个十年，属于那些懂得“用更少的资源做更多事”的团队。

以上是我读《The Scaling Hypothesis》和其他几本书后的一些零散思考。不一定都对，但至少值得你我在夜深人静时想一想的——当算力不再是稀缺品，智慧才是；而当智慧成为稀缺品，基础设施的定义也该被重构了。

正文完

发表至：读书笔记

2026-05-14

0