大模型降本三剑客：量化、蒸馏与稀疏化原理深度拆解

8次阅读

共计 2666 个字符，预计需要花费 7 分钟才能阅读完成。

2025年过半，行业里聊得最多的话题已经从“谁家的模型更大”变成了“谁的推理更便宜”。GPT级别的参数规模早已不是门槛，真正卡住落地的，是每千Token的成本。过去两年，我参与过几个大模型从训练到部署的全流程，最深的体会是：当你的模型终于能在评测集上刷榜，真正的战斗才刚刚开始——如何让它跑得动、跑得快、跑得便宜。

这篇文章不谈调参技巧，也不列Benchmark数据，我想从原理层面把三个最核心的压缩与加速方法——量化、蒸馏与稀疏化——拆开来讲。它们不是什么新概念，但在2025-2026年的技术栈里，这三者正在从“可选优化”变成“默认配置”。理解它们的底层逻辑，比背几个配置参数重要得多。

量化的本质很简单：用更少的比特数表示一个数值。模型训练时通常用FP32（32位浮点），推理时很多框架支持FP16甚至INT8。但2024年底NVIDIA的Blackwell架构和AMD的MI400系列都原生支持FP4和FP6，这意味着量化可以走得更深。

量化为什么能降本？想象一下，一个70B参数的模型，FP32版本需要280GB显存，A100 80G需要4张卡才能放下。但如果换成INT8，显存直接降到70GB，一张H200就够了。更关键的是，低精度计算在硬件上有专门的Tensor Core加速，吞吐量最高能提升4-8倍。

但量化不是简单的截断。我们常说的“量化误差”，本质上是在问：把浮点数映射到离散的整数网格上，信息丢失了多少？ 最经典的方案是Min-Max量化，把权重范围映射到[-128, 127]（INT8）。然而大模型里不同层的激活值和权重分布差异极大——有的层是高斯分布，有的层却有大量离群值。2025年主流做法是“每通道量化”和“动态量化”：每通道量化对每个输出通道单独计算scale和zero-point，而动态量化在推理时根据输入数据实时调整区间。这两种方法能把精度损失从1-2%降低到0.3%以内。

一个值得注意的细节是：量化感知训练（QAT）比训练后量化（PTQ）效果更好，但训练代价高。2025年很多团队开始用混合方案——对敏感层（如注意力头的QKV投影）保持FP16，对其他层用INT8，既省钱又保精度。我自己的经验是，对于生成式任务，量化后的模型在短文本上问题不大，但长上下文（32K以上）时，位置编码的量化误差会累积，需要特别处理旋转位置编码（RoPE）的量化方式。

蒸馏的原理早就不新鲜：学生模型学习教师模型的软输出（logits分布），而不是硬标签。但大模型时代的蒸馏有了新玩法——不再只学最后一层的概率分布，而是学中间层的表征和注意力图。

2025年最流行的蒸馏范式叫“自蒸馏”：用同一个模型不同阶段的输出来训练自身。比如LLaMA-3-70B在推理过程中，可以产出多个中间层的表示，然后将这些表示作为监督信号，去训练一个LLaMA-3-8B。这种做法的好处是教师和学生共享部分架构，迁移效率极高。我自己在调一个代码生成的蒸馏任务时发现，自蒸馏后的8B模型在HumanEval上的通过率能达到原始70B的92%，但推理速度快了近7倍。

蒸馏的另一个前沿是“分布内蒸馏”。教师模型的知识是有偏的——它在训练数据分布内表现完美，但给out-of-domain输入时会输出无意义的logits。蒸馏时如果把这些“垃圾”也学进去，学生模型会被污染。解决方法是只选择教师模型高置信度的样本进行蒸馏，或者用一个“拒绝采样器”过滤掉教师不确定的输出。这个方法听起来简单，但在实践中能提升学生模型5-8%的泛化能力。

值得警惕的是：蒸馏并不能替代缩放定律。学生模型的参数规模小时，即使蒸馏得再好，面对需要复杂推理的任务（比如数学证明、多步规划）依然吃力。2026年初的几篇工作已经开始探索“蒸馏+专家混合”的路线——蒸馏出一个包含多个小型专家的MoE结构，每个专家擅长不同领域，合成后性能接近大模型。

稀疏化可能是三个技术里最“暴力”的——直接移掉一部分权重或者激活值。但为什么稀疏化有效？因为大模型的参数存在大量冗余。2025年微软和谷歌各自发表了论文，证明70B模型在推理时，平均只有15-25%的神经元被真正激活。换句话说，大部分参数在闲着。

稀疏化有两大类：结构稀疏（直接移除整个神经元或卷积核）和非结构稀疏（随机移除权重矩阵中的单个元素）。结构稀疏能获得真实的加速，因为它改变了计算图；非结构稀疏则依赖特殊的硬件或软件库（比如NVIDIA的Sparse Tensor Core）来加速。2026年，主流方案是“N:M稀疏”：在每N个连续权重中只保留M个非零值，比如2:4稀疏即每4个元素保留2个，NVIDIA的A100和H100硬件原生支持这种模式，推理速度能提升2倍左右。

但稀疏化面临一个核心矛盾：不同输入下的激活模式不同。一个对情感分类任务很关键的神经元，在摘要任务里可能完全没用。所以静态稀疏（训练完一次性剪枝）往往效果不好。动态方案如“基于激活的稀疏推理”在推理时实时判断哪些神经元被激活，只计算这些路径。2025年的DeepSeek-V3论文展示了动态稀疏化在MoE架构里的应用——每次只激活Top-k个专家，效果极好。但动态稀疏的工程实现很复杂，需要自定义CUDA kernel来避免分支预测导致的性能损失。

我自己踩过的坑是：稀疏化对LoRA微调很不友好。因为LoRA本身是低秩适应，稀疏化会破坏低秩矩阵的连续性，导致微调后的模型效果骤降。解决方法是在微调期间冻结稀疏化掩码，或者使用稀疏适配器——只在非稀疏的权重上挂LoRA模块。

量化、蒸馏、稀疏化并不互斥，反而可以叠加使用。一个典型的工业级部署管道是：先用蒸馏从70B得到8B学生模型，然后对这个8B模型做2:4稀疏化，最后用INT8量化权值。 经过这三步，一个70B模型的服务成本能降到原来的1/40左右，而任务精度下降通常控制在2%以内。

但要注意叠加的边际效应：先量化再稀疏，量化误差可能会被稀疏后更稀疏的表示放大。我的建议是先做稀疏（因为稀疏对精度影响较大），再做量化（量化的误差相对可控），最后用蒸馏弥补前两者带来的损失。

技术总在快速迭代，但底层原理不会变。理解量化怎么映射数值、蒸馏怎么传递知识、稀疏怎么压缩计算，才能在每一轮新硬件、新框架出现时，快速找到最适合自己的降本路径。毕竟，模型大了不代表就强，跑得起的模型才是好模型。

正文完

发表至：生活随笔

2026-05-21

0