智元提出面向真实场景的在线后训练框架SOP,推动机器人集群持续学习与规模化落地

当前,通用机器人在真实世界的大规模部署面临双重困境。

一方面,复杂多变的现实环境要求机器人具备高度的稳定性与可靠性;另一方面,机器人需要处理差异巨大的任务,这对其泛化能力提出了严峻考验。

虽然预训练的视觉语言模型已为通用机器人奠定了坚实基础,但现有后训练方法大多采用离线、单机、串行的学习范式,难以支撑高效、持续的真实世界学习。

这种学习范式的局限,正成为通用机器人从研发阶段迈向产业应用的主要障碍。

为突破这一瓶颈,业界提出了可扩展在线后训练系统,即SOP系统。

该系统的核心创新在于将机器人后训练从"离silon、单机、顺序"的传统模式重构为"在线、集群、并行"的新范式,形成一个低延迟的闭环反馈系统。

这一架构设计遵循Actor-Learner异步模式,充分发挥分布式计算的优势。

在具体运作机制上,系统分为三个层次。

首先是Actor层的并行经验采集。

多台部署同一策略模型的机器人在不同地点同时执行多样任务,持续采集成功、失败及人类接管产生的交互数据。

这种并行探索方式显著提升了状态-动作空间的覆盖率,避免了单机学习的局限性。

其次是Learner层的云端在线学习。

所有交互轨迹实时上传至云端,与离线专家示教数据融合形成统一数据池。

系统通过动态重采样策略,根据不同任务的性能表现自适应调整在线与离线数据比例,最大化真实世界经验的利用效率。

最后是参数同步层的即时更新。

更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化。

这一系统设计具有多方面优势。

高效的状态空间探索使分布式多机器人能够显著提升覆盖率。

由于所有机器人始终基于低延迟的最新策略进行推理采集,系统有效缓解了分布偏移问题,提升了在线训练的稳定性。

更为关键的是,该系统通过空间上的并行而非时间上的串行,在提升任务性能的同时保留了通用视觉语言模型的泛化能力,避免了传统单机在线训练导致的模型退化问题。

实验评估结果验证了系统的有效性。

在物品繁杂的商超场景中,结合该系统的后训练方法相比预训练模型实现了33%的综合性能提升。

对于灵巧操作任务如叠衣服,系统效率实现翻倍提升。

在面对新环境时,机器人仅需数小时便可完成适应,这在过去往往需要数天甚至更长时间。

这些数据充分表明,分布式在线后训练系统有效打破了传统学习范式的束缚。

从技术架构看,该系统的通用性设计使其可即插即用各类后训练算法,为不同应用场景提供了灵活的解决方案。

这种模块化、开放式的设计思路,有利于推动整个行业的创新发展,降低后来者的技术门槛。

智元科技的此次突破,揭示了人工智能与物理世界深度融合的新路径。

当机器能够像人类一样通过群体经验持续进化,我们或许正站在"具身智能"时代的前夜。

这一技术演进不仅重构了机器人的能力边界,更对智能制造、社会服务等领域的范式变革提出了全新思考——未来的生产力革命,或将由自主进化的机器集群共同书写。