从ChatGPT到物理世界：2025-2026年具身智能的破圈时刻

10次阅读

共计 1961 个字符，预计需要花费 5 分钟才能阅读完成。

过去两年，大语言模型（LLM）让AI学会了“说话”，但真正让我感到兴奋的，是2025-2026年AI开始学会“动手”。当人们还在争论GPT-5是否已经接近AGI时，一批批具身智能机器人已经走出实验室，在工厂车间、家庭客厅甚至手术台上干起了“脏活累活”。这不是科幻片，而是正在发生的科技浪潮。

2025年4月，Google DeepMind联合斯坦福发布了RT-3模型，这标志着视觉-语言-动作（VLA）大模型进入了实用阶段。相比前代RT-2，RT-3不再依赖预设的动作序列，而是通过端到端的视频流实时生成机械臂控制指令。简单说：你对着摄像头说“把蓝色杯子放到右边托盘”，机器人会自己理解杯子形状、托盘位置、抓取力度和避障路径，全程不到2秒。

这种能力的背后是海量真实人机交互数据。2025年“机器人数据湖”计划启动，特斯拉、丰田、波士顿动力等公司贡献了超过10亿小时的操作数据，包含抓取、推拉、折叠、拧螺丝等1000多种基础动作。AI终于有了“身体经验”，而不仅仅是文本知识。

如果说之前的机器人是“脑子慢、手脚笨”，那现在相当于给它换上了高通骁龙+RTX 5090。2026年初，Figure AI发布了Figure 03人形机器人，搭载了自研的Zeus-3芯片，专为实时推理设计。它集成了视觉语言模型（VLM），可以在杂乱的家庭环境中识别出18种常见物品，并且动态调整抓取策略——比如玻璃杯需要轻柔，而金属罐可以大力抓。

另一个关键突破是零样本泛化能力。传统的工业机器人需要为每个新任务编程，但RT-3模型允许用户用自然语言直接指挥。我试用过一台搭载该系统的桌面机械臂，对着它说“帮我用螺丝刀拧开这个玩具车的电池盖”，它竟然真的去工具箱里找到了螺丝刀，对着缝隙卡进去旋转——全程无预设代码，仅靠语言指令完成。这种灵活度，是2024年没人敢想象的。

案例一：特斯拉Optimus在工厂组装座椅支架
2025年第四季度，特斯拉得州超级工厂的Optimus机器人开始从事座椅支架螺栓拧紧工序。这不是简单的拧螺丝——每个支架有6种不同规格的螺栓，需要按扭矩分步拧紧。Optimus通过内置的力觉传感器和视觉反馈，在0.3秒内完成一次调整，良品率达到99.7%，超过了熟练工人。特斯拉计划在2026年底前部署500台，专门负责柔性制造中需要频繁换线的工序。

案例二：Figure 02在物流仓库分拣包裹
2026年3月，美国亚利桑那州的一家亚马逊仓库里，30台Figure 02机器人正在进行不规则包裹分拣。它们能识别气泡袋、瓦楞纸箱、塑料薄膜等20种包装材料，并选择最合适的抓取方式——软包用吸盘，硬箱用夹爪。运转数据显示，它们每小时的包裹处理量是人工的2.3倍，而且出错率低于0.5%。更关键的是，它们能自主适应传送带的临时停机和物品堆叠变化，无需人工重新编程。

尽管前景光明，但具身智能在2025-2026年仍面临三个硬骨头：

1. 数据采集的“最后一公里”
虽然已有10亿小时的动作数据，但家庭场景的长尾问题依然棘手。比如叠被子、擦桌子这类人类习以为常的动作，机器人需要看到地毯褶皱、被角翻卷、污渍分布等无限变化。目前业界正尝试通过仿真环境+领域随机化来生成训练数据，但虚拟与现实的差距（Sim-to-Real gap）仍未完全消除。

2. 安全交互的“容错底线”
当机器人进入家庭，人机接触的安全性成为焦点。2025年11月，韩国某实验室的机械臂因传感器误判，撞倒了研究人员，导致轻微擦伤。这推动了ISO/TC 299工作组紧急修订《机器人安全标准》，要求所有2026年后上市的消费级具身机器人必须配备冗余碰撞检测电路和力控阈值自动降低机制——当检测到人体接近时，输出扭矩自动降至安全值的30%。

3. 能源与热管理
人形机器人全身执行器功耗巨大，Figure 03的峰值功率达到1.8kW，仅靠电池只能运行2小时。2026年，丰田推出了氢燃料电池-锂电池混合动力方案，将续航提升到6小时，但增加了25%的整机重量。这是需要工程界持续优化的方向。

回顾2025-2026年，具身智能的突破不是某一家公司的独角戏，而是大模型+仿真数据+硬件成本下降三股力量的汇聚。从工厂流水线到居家养老，AI终于从屏幕里的对话框走到真实物理世界，开始“亲手”改变我们的生活。当然，这扇门刚刚推开，后面还有无数未知。但作为一名每天和代码、机器人打交道的从业者，我很少像现在这样对未来感到如此刺痛的兴奋——因为真正的AI革命，从来不是让人变得更懒，而是让工具学会像人一样“动手思考”。

正文完

发表至：科技视野

2026-05-14

0