共计 2332 个字符,预计需要花费 6 分钟才能阅读完成。
如果你在过去两年做过AI产品,一定对“抠显存”三个字心有戚戚。2023年,一个7B模型在A100上跑一次推理要算半天账;2024年,大家还在争论MoE能不能落地。但到了2025年,一切都变了——DeepSeek带着稀疏激活的架构把每千token价格打到0.002元,随后各大厂纷纷跟进,推理成本在一年内暴跌近80%。这不是渐进式改进,而是彻底的产业转折。
作为产品经理,我们习惯了在“成本天花板”下做折中。但2025-2026年的现实是:**推理成本不再是最硬的那块天花板**。当计算变得几乎免费时,产品的底层逻辑需要重构。下面这三件事,越早想通越有优势。
一、从“抠显存”到“大胆用”:模型部署范式的根本转变
过去两年,我见过太多产品因为推理成本高而放弃端侧部署。比如某个智能写作助手,为了把模型从50B剪到7B,牺牲了三分之一的写作质量。但2025年,稀疏激活 + 量化 + 芯片级优化让50B模型在手机端的推理时延降到100ms以内,功耗只有3W。例如某厂商最新旗舰机搭载的端侧大模型,基于DeepSeek架构蒸馏,可以实时生成2048字的长文,而每万次推理的云端成本几乎是零。
这带来了一个根本性的变化:模型不再是被藏在云端的“远程大脑”,而是可以嵌入每个功能的“本地芯片”。产品经理现在要考虑的不是“能不能用模型”,而是“哪些功能可以完全交给模型”。
1.1 从API调用到模型即功能
2025年Q2,我注意到一个有趣的现象:越来越多的SaaS产品开始“内置”小模型。比如设计工具Figma的AI插件,不再调用云端API,而是通过WebGPU在本地跑一个20B的多模态模型。这意味着离线状态下也能完成复杂的图像编辑。产品团队告诉我,他们的用户留存率因此提升了30%,因为“不需要等网络响应”。
核心点:**当推理成本趋近于零,模型将像数据库、网络请求一样成为产品的基础设施。** 产品经理需要重新评估每个功能的“智能化边界”,甚至可以考虑把模型直接编译到二进制里。
二、产品形态的变革:从“对话式”到“无处不在的智能
2025年之前,大部分AI产品的形态是“一个对话框”——用户输入,模型输出。但现在,推理成本降低让实时、连续、多模态的智能体验成为可能。比如自动驾驶领域,2025年特斯拉的FSD v13.0首次在车端部署了50B参数的视觉-语言模型,用于实时理解路况和乘客意图。之前因为成本太高,只能用规则+小模型,现在可以做到“每个摄像头每秒推理30次”。
对于消费级产品,这意味着什么?智能不再是触发式的“助手”,而是隐形的“环境”。举个具体的例子:某款2026年发布的智能眼镜,内置了70B的稠密模型,通过本地推理实现全天候的语音交互、实时翻译和环境感知。用户根本感觉不到它在“调用AI”,因为它永远在线,负担几乎为零。
2.1 产品经理的新技能:设计“模型成本预算法”
虽然推理成本大幅下降,但并非毫无代价。高密度使用仍会产生能耗和散热问题。我在2025年Q4参与的一个智能家居项目中,团队发现:如果让每个设备都运行一个小模型,总功耗反而超过了一个大型模型的分布式推理。所以产品经理需要培养一个新的能力:根据场景动态分配模型资源。比如场景复杂时调用云端大模型,简单操作交给本地小模型。这需要在产品架构层面设计一个“路由层”,类似前馈网络的概念。
三、AI伦理的新困境:低成本带来的滥用与治理
任何技术进步都有暗面。推理成本降低意味着深度伪造、自动化诈骗、批量生成有害内容的成本也同步降低。2025年,我看到一个令人不安的案例:某团伙用开源模型+低成本GPU集群,在三天内生成了10万个逼真的社工音频,成功率高达40%。传统检测方法完全失效。
作为产品经理,我们不仅要考虑“能不能用AI”,更要思考“如何防止别人滥用我们的AI”。
3.1 嵌入伦理约束的新范式
2026年初,我看到一些领先的企业开始在产品中内嵌“成本-伦理权衡”机制。例如,某社交平台的内容审核模型,在推理时引入了一个“信任分数”,对于高风险内容(如政治敏感、深度伪造)强制使用更高精度的模型(即使成本更高),而普通内容则用低成本的快速模型。这种分层推理策略既保证了效果,又不会让伦理成为财务负担。
我以前写过一篇文章,提到“AI伦理不能靠事后打补丁”。现在这个原则有了新的实现方式:在产品设计阶段,就为每个智能功能分配一个“安全预算”。比如支付验证流程,哪怕多花10倍计算资源,也要用全参数模型来防止伪造。而推荐系统的个性化内容,用蒸馏小模型就够了,因为出错了代价也小。
3.2 产品经理的伦理清单
2025-2026年,我建议每款AI产品在发布前都要回答三个问题:
- 如果推理成本再降90%,你的产品是否会更容易被滥用? 比如自动生成文本的产品,需要加入显性的“不可伪造水印”。
- 你的模型能识别“被操控的输入”吗? 低成本推理使得对抗样本的生成变得简单,需要引入对抗训练。
- 用户是否知道他们在为“谁的意图”支付计算资源? 透明度设计比以往更重要。
结语:在成本消失的地方,重新发现价值
每次技术的飞跃都会淘汰一批“用成本思维做产品”的人。2023年是提示工程,2024年是微调技巧,而2025-2026年,当推理成本不再是瓶颈,真正的竞争将回归到用户洞察、系统设计和伦理判断。
我始终认为,产品经理的核心工作不是追逐参数,而是理解“什么值得被计算”。当计算几乎免费时,这个问题的答案会变得既简单又复杂。简单在于,你可以大胆尝试;复杂在于,你必须比以往更清楚——什么才是真正值得的。
如果你还在纠结该用7B还是70B模型,不如换个角度:你的用户真的需要那个70B吗?还是说,他们只需要一个更懂他们的、能在离线时也陪在身边的“老朋友”?成本不是目的,价值才是。