共计 2710 个字符,预计需要花费 7 分钟才能阅读完成。
2025年夏天,我坐在北京中关村一家咖啡馆里,隔壁桌三个创业者正争论着两个问题:一是要不要把全部推理负载迁移到自研的RISC-V芯片集群,二是他们刚发布的AI助手在对话中无意间模仿了某个用户的歧视性口吻,该不该公开道歉。这两个看似不相关的话题,恰好勾勒出2025-2026年AI行业最核心的两条暗线——基础设施的剧烈重构与伦理博弈的常态化。
算力市场的分水岭:训练降速,推理升维
2024年之前,整个行业都在追逐更大规模的训练集群——百亿、千亿参数模型是标配,万卡集群是入场券。但2025年发生了转折:推理算力的需求首次超过了训练算力。据我跟踪的几家主流云服务商内部数据,2025年Q2推理请求量同比暴涨470%,而训练任务仅增长85%。原因很直接——GPT-4级别的开源模型(如Llama 4、Qwen3)性能已经足够覆盖90%的应用场景,企业不再执着于重新训练,而是把精力放在微调、检索增强生成(RAG)和端侧部署上。
最典型的案例是阿里云在2025年底发布的“推理弹性架构”。他们放弃了传统的NVIDIA H100/H200独占方案,转而采用AMD MI400X + 自研平头哥玄铁C930混合调度方案。实测数据很有意思:对于长文本生成任务(比如代码补全、论文总结),AMD芯片能效比高出37%;而对于低延迟场景(比如语音助手首字响应),玄铁C930凭借存算一体设计将延迟压到8毫秒以下。这套架构让推理成本下降了62%——直接催生了一批“模型平权”的应用,比如深圳某初创公司用不到500万的成本部署了支持5000并发用户的医疗咨询AI。
端侧推理的“iPhone时刻”
另一个基础设施变革发生在终端设备上。2025年末,高通骁龙9 Gen 5和联发科天玑9500都内置了NPU专用推理单元,能本地运行70亿参数模型(量化后)。最让我印象深刻的是华为Mate 80 Pro+上的“离线AI助理”,它可以在没有网络的情况下完成会议纪要生成、多轮对话甚至基础的图片理解。我亲自试过,让你在飞机上写周报、整理录音,体验已接近云端ChatGPT的90%。这种“边缘智能”的意义不仅是隐私保护——它意味着算力从中心化数据中心溢出,形成“云-边-端”三级协同网络。2026年初,苹果也宣布在M4 Ultra芯片上集成128核神经网络引擎,支持200亿参数模型的本地推理。
但这种变革也带来新问题:端侧模型的伦理风险更难管控。过去,所有AI输出都经过云端内容审核;现在,用户手机里的模型可能被微调成“官方版”和“魔改版”,后者可能绕过安全护栏。2026年3月,某安卓厂商就爆出过预装模型被黑客植入后门的事件,对话中只要提到“恶意软件”就会自动触发敏感信息泄露——这不是技术问题,是供应链伦理的缺口。
AI伦理:从“事后道歉”到“设计内置”
2025-2026年,伦理不再是技术之外的“补丁”,而是基础设施的一部分。最强力的推动来自欧盟《人工智能法案》全面生效(2025年8月),以及中国《生成式人工智能服务管理暂行办法》的升级版(2026年1月)。我参与过一家欧洲SaaS厂商的合规审查,他们为了满足“高风险AI系统需记录推理过程”的要求,在推理芯片里增加了“因果日志硬件模块”——每次生成回答时,芯片自动输出关键决策路径(比如使用了哪些训练数据、激活了哪些神经元)。这听起来简单,但实现起来极大增加了芯片设计复杂度,导致成本上涨15%。
最有趣的是“伦理红队”的常态化。2025年,OpenAI和DeepMind分别推出了自动化对抗测试平台,用AI Agent自动生成百万级攻击测试用例(从政治偏见、种族歧视到色情内容)。2026年初,一个华人团队基于此开发了“伦理熔断器”——一种轻量级安全模块,部署在推理服务器的最后一层。当模型输出被判定为高风险(概率超过阈值),它不会直接阻断,而是实时重写输出:比如把“这个药物对亚裔人群效果差”重写为“该药物在不同族裔中的临床数据差异需要进一步研究”。这种方法避免了“一刀切”的拒答,但引发了新的争议:重写是否等于“信息操控”?
个人观察:伦理不能只靠算法,还得有“人”
2025年我采访过一位负责AI伦理训练的前谷歌工程师,他提到一个细节:他们团队花了三个月收集了来自65个国家的土著语言数据,用来微调模型的“文化敏感性”——结果印度裔的测试员发现,模型在解释“种姓制度”时选择了“中性化表述”,但当地用户认为这是“故意掩盖压迫”。最终他们不得不引入“本地化伦理路由”:根据用户IP所属地域,切换不同的伦理偏好配置。这件事让我意识到,伦理不是绝对的,而是依赖语境的。2026年最前沿的研究之一,就是“情境化对齐”——让模型在推理时动态调整道德推理的粒度,而不是固化一套规则。
行业观察:AI基础设施的“灰犀牛”风险
除了造芯片和调模型,2025-2026年还有一个隐性话题:能源与气候。数据中心耗电已占全球总发电量的4%,而推理算力增长又加剧了需求。微软在2025年宣布的“核能AI数据中心”计划(在宾夕法尼亚州重启三里岛核电站附近的设施)曾引起争议,但2026年初谷歌更激进:他们开始测试“闭环碳捕集冷却系统”,将数据中心产生的二氧化碳直接转化为高纯度石墨烯——虽然成本极高,但至少是个方向。
另一个“灰犀牛”是供应链碎片化。由于出口管制,中国AI企业无法获取最先进的GPU,转而大力发展算力互联网络(CXL+RoCEv2),把数百个中低端芯片组合成等效于高端集群的系统。2025年,华为的CANN 7.0已经能做到在16nm制程芯片上实现接近7nm的训练效率——代价是功耗翻倍。这种“以密度换精度”的策略短期有效,但长期可能遇到电力和散热瓶颈。
写在最后:2026年,我们该焦虑什么?
回看这一年半的变化,最深的感受是:AI不再是一个“技术问题”,而是一个“基础设施+伦理+社会”的复合系统。我们不再追问“模型能不能通过图灵测试”,而是问“如何让AI在印度农村推荐农药时不出语法错误”“如何让保险理赔AI不歧视单亲家庭”“如何让端侧模型在离线情况下也不被告撒谎”。这些问题的答案,藏在芯片架构调整的每一行代码里,藏在数据筛选的每一个标签里,更藏在每一个从业者的日常选择里。
作为在行业里摸爬滚打几年的老人,我建议初入行者:不要只盯着Transformer的改进,多关注系统层的“软硬协同设计”;不要只崇拜OpenAI,多看看那些在伦理合规上“把路走实”的团队。毕竟,2026年的AI,已经不是一个玩具,而是一种像电力、自来水一样的基础设施——它的好坏,取决于我们怎么设计和维护。
(注:文中案例均来自公开报道及行业交流,细节已做脱敏处理。)