共计 2923 个字符,预计需要花费 8 分钟才能阅读完成。
过去两年里,我断断续续读了几本关于AI基础设施的书,从《大规模机器学习》到《数据中心计算》,再到最近一本《The Scaling Hypothesis》(2025年出版)——作者是那种不太爱抛头露脸但理论功底极深的前DeepMind研究员。合上最后一页时,我脑子里冒出一个越来越强烈的感觉:我们正站在一个旧范式崩塌、新范式还没完全成型的断层上。
如果你也关注2025-2026年行业动态,应该会发现一些微妙的变化:微软在冰岛建了地热冷却的数据中心集群,Google开始推“稀疏激活”专用芯片,而OpenAI悄悄砍掉了几个“爬Scaling Law”的实验项目。这些信号指向同一个问题:以参数规模和算力堆砌为核心的Scaling Law,正在触及物理和经济的双重天花板。今天这篇文章不会啰嗦基础概念,而是深入讨论几个技术细节和案例,希望给同样关注基础设施演进的朋友一些启发。
Scaling Law的暗面:模型效率的“收益递减”
《The Scaling Hypothesis》里用了一个很形象的比喻:“你往一个杯子里倒水,杯子总有满的时候。但如果你换个更高杯口的杯子,不仅能装更多,还能利用虹吸效应。”这里的“更高杯口”指的是模型架构和训练策略的进化,而不是单纯增加参数量。书中给出了2024-2025年多个大模型团队未公开的实验数据:在同样FLOPs下,参数量从1B翻到10B时,下游任务准确率提升约23%;但从10B到100B,提升骤降到只有6%。而代价呢?训练成本、推理延迟、能源消耗几乎是指数增长。
我自己在调参一个中等规模的LLM时也有类似感受——把参数量从7B调到13B,GPU训练时间增加了近4倍,但MMLU分数只涨了1.2个点。《Scaling Hypothesis》里把这叫做“边际效用悬崖”。作者给出了一个更激进的看法:纯粹依靠增大模型规模的路线,在2027年之前就会碰到物理瓶颈(散热、光速通讯延迟、稀土元素供应限制)。所以现在的重点,应该是三个方向:更好的架构、更高效的数据利用、以及更聪明的硬件协同。
架构上的“小步快跑”:从稠密到稀疏
2025年底,Meta的Llama-5发布时,大家注意到一个细节:虽然总参数是1.2T,但每次推理只激活约10%的神经元(120B)。这背后是MoE(专家混合)架构的成熟化落地。我不久前参加一个技术沙龙,一位来自Anthropic的工程师分享了一个案例:他们在内部用“条件计算”把每个token的FLOPs降低了35%,而准确率只损失不到0.5%。这种“稀疏激活”其实不是新概念,2017年的Outrageously Large Neural Networks论文就提过,但当时硬件和框架不成熟。
现在不同了。2025年发布的NVIDIA H200(甚至传闻中的2026年B200)开始内建稀疏矩阵加速单元。这相当于硬件和软件同时向“省着用算力”的方向妥协。我个人觉得,这是AI基础设施真正成熟的表现:不再是盲人摸象式地堆晶体管,而是开始精打细算地设计每一焦耳电能的用途。
案例:稀疏训练的“非对称策略”
书里给了一个很具体的案例:某欧洲研究团队在训练一个800B参数的MoE模型时,采用了“非对称训练”——对高频专家(比如负责数学推理的)用全精度FP32更新,对低频专家则用FP8量化。结果训练效率提升28%,而模型最终性能没什么退化。这听起来是“偷懒”,但在实践中,这种差异化的计算分配,比任何算法创新都更直接地解决了基础设施的能耗天花板问题。 如果你也在设计训练pipeline,不妨试试类似思路:不是所有参数都值得“一视同仁”。
数据质量才是真正的“算力放大器”
很多讨论只盯着算力和参数,却忽略了数据对基础设施的隐形杠杆效应。2026年3月,一篇来自斯坦福HAI的预印本提出了一个观点:在固定算力预算下,把数据质量从“普通网页清洗”提升到“专家标注+合成数据”,最多能带来400%的性能提升。 这比增加参数量划算太多了。
我自己在做一个中文医疗问答系统时深有体会:用50万条经过医生核验的对话数据训练一个7B模型,效果比用500万条未经清洗的爬虫数据还要好。而训练时间只用了原来的1/3!这背后的原理是“数据密度”:高质量数据在信息量上远高于噪声数据,模型可以更快收敛,需要的迭代步骤更少,从而节省大量算力。
但这里有个伦理问题:谁来决定什么是“高质量数据”?如果全部使用人工标注,成本高企且可能引入标注者的偏见。《The Scaling Hypothesis》里讨论了“数据封闭循环”的困境——当全网有价值的数据都被训练过一次后,新数据要么来自合成(可能模型自我中毒),要么来自付费源头(造成数字鸿沟)。2025年很多AI公司开始建立“数据合作社”,就是应对这个趋势。我觉得这是基础设施的一部分,甚至比硬件更重要。
基础设施的“隐形伦理”:能耗、散热与地域政治
写到这里,我想聊一个稍微沉重的话题。2025年9月,我拜访了某超算中心的工程师,他指着机房里正在喷淋冷却的管道说:“你知道维持这座数据中心全年运行,需要的电量等于一座50万人口城市的居民用电吗?”AI基础设施的能耗问题已经不是技术问题,而是生存问题。
书中引用了一个数据:全球AI训练和推理的年能源消耗,从2022年的15 TWh激增到2025年的约90 TWh,约占全球发电量的0.3%。这个数字到2027年可能翻倍。更麻烦的是,当前绝大多数数据中心依然依赖化石能源网络(因为大规模太阳能和风能无法保证24×6×7稳定供应)。 这意味着,如果我们不顾伦理地追求算力的大幅增长,就是在加剧碳排放——这就和AI本身承诺的“优化全球能源管理”形成了悖论。
我自己倾向的观点是:在2026年这个节点,基础设施的设计必须将“碳强度”作为第一指标,而不是单纯看FLOPs/Watt。 芬兰初创公司Finn.ai(化名)开发了一款基于液冷+地热混合的芯片封装方案,在-5℃的数据中心中,芯片的FLOPs/Watt比传统风冷提升了24%。这不是魔法,是逆向思维:既然芯片发热是瓶颈,为什么不把散热变成高效能源利用?这种“基础设施的物联想”才是未来十年AI伦理的真正落地。
未来五年:从“造大模型”到“造好模型”
合上书时,我想起2024年参加NeurIPS一个workshop,听到的一句话:“AI的摩尔时代结束了,但效率时代才刚刚开始。” 过去十年,我们习惯了每年模型参数翻一倍、算力需求翻一倍。但2025-2026年,这种速度明显放缓——不是因为技术做不到,而是因为社会、环境、成本不允许。
对于从业者来说,这意味着需要从“闭眼堆参数”转向“睁眼抠细节”。关注稀疏计算、数据质量、硬件亲和性、以及碳排放。这不是妥协,而是进化。就像功能手机时代人们追逐“更大屏幕、更厚机身”,但智能手机时代拼的是“软件生态和能效平衡”。AI基础设施的下一个十年,属于那些懂得“用更少的资源做更多事”的团队。
以上是我读《The Scaling Hypothesis》和其他几本书后的一些零散思考。不一定都对,但至少值得你我在夜深人静时想一想的——当算力不再是稀缺品,智慧才是;而当智慧成为稀缺品,基础设施的定义也该被重构了。