大模型扩展定律的深层逻辑：从参数到效用的跨越

8次阅读

共计 2629 个字符，预计需要花费 7 分钟才能阅读完成。

2025年初，我参加了一场闭门技术沙龙，一位来自头部云厂商的架构师抛出了一句让我至今难忘的话：“我们正在用造核电站的成本训练一个可能只用来写周报的模型。”这句调侃背后，折射出过去两年整个行业对Scaling Law（扩展定律）的集体反思。我们曾经坚信“参数越多、数据越大、算力越强”就能通往AGI，但在2025-2026年的实践中，一个更复杂的经济学问题浮出水面：边际收益递减的拐点到底在哪里？

这篇文章不打算重复“大模型为什么能work”的科普，而是想从基础设施和工程实践的角度，拆解Scaling Law从理论到落地的三个关键转变：算力效率、推理成本和模型对齐。如果你已经在从事AI相关工作，或者对底层原理有基础理解，这些思考或许能帮你理解行业正在发生的静默革命。

传统Scaling Law的核心假设是：模型参数量与性能呈幂律关系。但2025年Google和Meta公开的基准测试显示，当模型规模超过1万亿参数后，同等算力投入下的性能提升从每10倍参数提升2.3个百分点下降到了0.7个百分点。更致命的是，训练一个1万亿参数的稠密Transformer需要约300万GPU小时（以H100为基准），而其中超过60%的计算量消耗在了注意力矩阵的冗余计算上——模型对大部分输入token的实际表征分辨率远低于理论最大值。

这就解释了为什么MoE（混合专家模型）架构在2025年下半年突然成为主流。DeepSeek-V3、Mixtral 8×22B等模型的成功证明：通过稀疏激活，可以用1/5的算力成本达到80%左右的稠密模型效果。这里的核心原理并不复杂：MoE将整个“专家网络”拆分成多个子网络，每次推理只激活少数专家，而关键在于负载均衡策略和专家坍塌问题的解决。

从工程视角看，这种转变对AI基础设施提出了新要求：GPU集群不再适合简单的数据并行，而是需要支持动态专家路由和异构显存分配。2026年初，NVIDIA甚至专门为MoE优化了NVLink拓扑结构，将专家间的通信延迟降低了40%。这些底层细节告诉我们：Scaling Law的延续不再靠堆参数，而是靠架构创新和硬件协同。

很多从业者只盯着训练成本，却忽略了推理成本才是决定模型能否商业化的生死线。2025年一项来自斯坦福的海因定律分析指出：对于月活过亿的C端应用，推理算力支出是训练算力的8到12倍，且这一比例还在增长。为什么？因为随着模型变大，每次推理的KV缓存（Key-Value Cache）占用的显存呈平方级增长。一个70B参数的模型，在处理2048长度的序列时，KV缓存就需要超过800GB的显存——即使是A100 80GB显卡，也至少需要10张才能同时处理一个batch。

于是，KV缓存压缩成为2026年最热门的工程课题之一。我跟踪的几个方向值得关注：

Multi-Query Attention（MQA）：将KV头共享，显存占用降低70%，但精度损失极小（<0.5% perplexity）；
量化感知训练（QAT）：将FP16的KV缓存量化为INT8甚至INT4，结合分组查询注意力（GQA），可以在保持98%以上效果的前提下将显存需求压缩到原来的1/8；
推测解码（Speculative Decoding）：用一个轻量级的“草稿模型”先生成多个候选token，再用大模型一次性验证，将单token生成延迟从50ms降到8ms以下。

这些技术本质上都是在挑战Scaling Law的“显存墙”。如果你正在搭建推理服务，我强烈建议从vLLM或TensorRT-LLM这些开源框架入手，它们已经内置了上述优化。2025年下半年的一个行业实践是：某头部短视频平台用推测解码配合MoE架构，将推荐模型的推理QPS提升了3.2倍，同时硬件成本降低58%。

Scaling Law的第三个深层转变来自AI伦理方向。传统的模型评估依赖困惑度（Perplexity）或准确率（Accuracy），但2025-2026年，用户和监管方开始追问一个更尖锐的问题：模型的行为是否符合人类预期？这不是单纯的对与错，而是涉及价值观对齐、事实性幻觉控制和长尾风险规避。

这里要引入一个核心概念：RLHF（基于人类反馈的强化学习）的边际效用问题。早期Google的论文显示，经过RLHF对齐后的模型，在Helpful和Harmless两个维度上确实有大幅提升。但2026年初的独立复现实验发现：当RLHF训练数据超过10万条后，继续增加反馈数据对“安全性”的提升几乎停滞，反而可能导致模型在“创造性”维度上退化。这种现象被称为过度对齐（Over-alignment）——模型变得唯唯诺诺，拒绝回答一切有争议的问题，即使这些问题是合理的科学讨论。

如何解决？我注意到一个有趣的工程实践：对抗性测试框架的引入。类似于软件工程中的fuzzing测试，一些团队开始用红队（Red Teaming）自动生成大量对抗性prompt，再通过奖励模型（Reward Model）的对抗训练来寻找安全与能力的帕累托最优边界。2026年4月，Anthropic公开了他们的Constitutional AI（宪法AI）升级版本，通过预设一组“宪法原则”作为硬约束，将人类反馈的干预从“外挂”变成了“内嵌”。

从技术伦理的角度看，这实际上是在重新定义Scaling Law的目标函数——我们不再追求“模型能记住多少知识”，而是追求“模型在真实应用中能给用户带来多少安全、合理、有价值的输出”。效用（Utility）成为了新的度量。

回看这段演进，Scaling Law并未失效，而是完成了从“参数规模驱动”到“系统效率驱动”的升级。算力的稀缺性迫使我们必须深刻理解每一个工程细节：MoE的稀疏性、KV缓存的压缩、推理的推测解码，以及对齐技术的成本控制。这些看似琐碎的技术点，共同构成了2026年AI基础设施的核心拼图。

作为从业者，我最大的感受是：这个行业正在从“炼丹”走向“工程”。过去你可能只需要调参跑实验，现在需要理解分布式系统、GPU架构和经济学原理。这很辛苦，但也正是这种跨领域的综合能力，让AI应用从实验室真正走进了千行百业。希望这篇文章能给你带来一些启发，也欢迎在赛义德的日常评论区分享你的实践经验。

正文完

发表至： AI应用实践

2026-05-14

0