共计 2629 个字符,预计需要花费 7 分钟才能阅读完成。
当Scaling Law撞上物理墙
2025年初,我参加了一场闭门技术沙龙,一位来自头部云厂商的架构师抛出了一句让我至今难忘的话:“我们正在用造核电站的成本训练一个可能只用来写周报的模型。”这句调侃背后,折射出过去两年整个行业对Scaling Law(扩展定律)的集体反思。我们曾经坚信“参数越多、数据越大、算力越强”就能通往AGI,但在2025-2026年的实践中,一个更复杂的经济学问题浮出水面:边际收益递减的拐点到底在哪里?
这篇文章不打算重复“大模型为什么能work”的科普,而是想从基础设施和工程实践的角度,拆解Scaling Law从理论到落地的三个关键转变:算力效率、推理成本和模型对齐。如果你已经在从事AI相关工作,或者对底层原理有基础理解,这些思考或许能帮你理解行业正在发生的静默革命。
从“暴力扩展”到“稀疏激活”:基础架构的范式转换
传统Scaling Law的核心假设是:模型参数量与性能呈幂律关系。但2025年Google和Meta公开的基准测试显示,当模型规模超过1万亿参数后,同等算力投入下的性能提升从每10倍参数提升2.3个百分点下降到了0.7个百分点。更致命的是,训练一个1万亿参数的稠密Transformer需要约300万GPU小时(以H100为基准),而其中超过60%的计算量消耗在了注意力矩阵的冗余计算上——模型对大部分输入token的实际表征分辨率远低于理论最大值。
这就解释了为什么MoE(混合专家模型)架构在2025年下半年突然成为主流。DeepSeek-V3、Mixtral 8×22B等模型的成功证明:通过稀疏激活,可以用1/5的算力成本达到80%左右的稠密模型效果。这里的核心原理并不复杂:MoE将整个“专家网络”拆分成多个子网络,每次推理只激活少数专家,而关键在于负载均衡策略和专家坍塌问题的解决。
从工程视角看,这种转变对AI基础设施提出了新要求:GPU集群不再适合简单的数据并行,而是需要支持动态专家路由和异构显存分配。2026年初,NVIDIA甚至专门为MoE优化了NVLink拓扑结构,将专家间的通信延迟降低了40%。这些底层细节告诉我们:Scaling Law的延续不再靠堆参数,而是靠架构创新和硬件协同。
推理成本:被忽视的“暗物质”
很多从业者只盯着训练成本,却忽略了推理成本才是决定模型能否商业化的生死线。2025年一项来自斯坦福的海因定律分析指出:对于月活过亿的C端应用,推理算力支出是训练算力的8到12倍,且这一比例还在增长。为什么?因为随着模型变大,每次推理的KV缓存(Key-Value Cache)占用的显存呈平方级增长。一个70B参数的模型,在处理2048长度的序列时,KV缓存就需要超过800GB的显存——即使是A100 80GB显卡,也至少需要10张才能同时处理一个batch。
于是,KV缓存压缩成为2026年最热门的工程课题之一。我跟踪的几个方向值得关注:
- Multi-Query Attention(MQA):将KV头共享,显存占用降低70%,但精度损失极小(<0.5% perplexity);
- 量化感知训练(QAT):将FP16的KV缓存量化为INT8甚至INT4,结合分组查询注意力(GQA),可以在保持98%以上效果的前提下将显存需求压缩到原来的1/8;
- 推测解码(Speculative Decoding):用一个轻量级的“草稿模型”先生成多个候选token,再用大模型一次性验证,将单token生成延迟从50ms降到8ms以下。
这些技术本质上都是在挑战Scaling Law的“显存墙”。如果你正在搭建推理服务,我强烈建议从vLLM或TensorRT-LLM这些开源框架入手,它们已经内置了上述优化。2025年下半年的一个行业实践是:某头部短视频平台用推测解码配合MoE架构,将推荐模型的推理QPS提升了3.2倍,同时硬件成本降低58%。
对齐问题:当效用取代准确性成为新度量
Scaling Law的第三个深层转变来自AI伦理方向。传统的模型评估依赖困惑度(Perplexity)或准确率(Accuracy),但2025-2026年,用户和监管方开始追问一个更尖锐的问题:模型的行为是否符合人类预期?这不是单纯的对与错,而是涉及价值观对齐、事实性幻觉控制和长尾风险规避。
这里要引入一个核心概念:RLHF(基于人类反馈的强化学习)的边际效用问题。早期Google的论文显示,经过RLHF对齐后的模型,在Helpful和Harmless两个维度上确实有大幅提升。但2026年初的独立复现实验发现:当RLHF训练数据超过10万条后,继续增加反馈数据对“安全性”的提升几乎停滞,反而可能导致模型在“创造性”维度上退化。这种现象被称为过度对齐(Over-alignment)——模型变得唯唯诺诺,拒绝回答一切有争议的问题,即使这些问题是合理的科学讨论。
如何解决?我注意到一个有趣的工程实践:对抗性测试框架的引入。类似于软件工程中的fuzzing测试,一些团队开始用红队(Red Teaming)自动生成大量对抗性prompt,再通过奖励模型(Reward Model)的对抗训练来寻找安全与能力的帕累托最优边界。2026年4月,Anthropic公开了他们的Constitutional AI(宪法AI)升级版本,通过预设一组“宪法原则”作为硬约束,将人类反馈的干预从“外挂”变成了“内嵌”。
从技术伦理的角度看,这实际上是在重新定义Scaling Law的目标函数——我们不再追求“模型能记住多少知识”,而是追求“模型在真实应用中能给用户带来多少安全、合理、有价值的输出”。效用(Utility)成为了新的度量。
结语:2026年的AI基础设施拼图
回看这段演进,Scaling Law并未失效,而是完成了从“参数规模驱动”到“系统效率驱动”的升级。算力的稀缺性迫使我们必须深刻理解每一个工程细节:MoE的稀疏性、KV缓存的压缩、推理的推测解码,以及对齐技术的成本控制。这些看似琐碎的技术点,共同构成了2026年AI基础设施的核心拼图。
作为从业者,我最大的感受是:这个行业正在从“炼丹”走向“工程”。过去你可能只需要调参跑实验,现在需要理解分布式系统、GPU架构和经济学原理。这很辛苦,但也正是这种跨领域的综合能力,让AI应用从实验室真正走进了千行百业。希望这篇文章能给你带来一些启发,也欢迎在赛义德的日常评论区分享你的实践经验。