智元提出面向真实场景的在线后训练框架SOP，推动机器人集群持续学习与规模化落地

当前，通用机器人在真实世界的大规模部署面临双重困境。

一方面，复杂多变的现实环境要求机器人具备高度的稳定性与可靠性；另一方面，机器人需要处理差异巨大的任务，这对其泛化能力提出了严峻考验。

虽然预训练的视觉语言模型已为通用机器人奠定了坚实基础，但现有后训练方法大多采用离线、单机、串行的学习范式，难以支撑高效、持续的真实世界学习。

这种学习范式的局限，正成为通用机器人从研发阶段迈向产业应用的主要障碍。

为突破这一瓶颈，业界提出了可扩展在线后训练系统，即SOP系统。

该系统的核心创新在于将机器人后训练从"离silon、单机、顺序"的传统模式重构为"在线、集群、并行"的新范式，形成一个低延迟的闭环反馈系统。

这一架构设计遵循Actor-Learner异步模式，充分发挥分布式计算的优势。

在具体运作机制上，系统分为三个层次。

首先是Actor层的并行经验采集。

多台部署同一策略模型的机器人在不同地点同时执行多样任务，持续采集成功、失败及人类接管产生的交互数据。

这种并行探索方式显著提升了状态-动作空间的覆盖率，避免了单机学习的局限性。

其次是Learner层的云端在线学习。

所有交互轨迹实时上传至云端，与离线专家示教数据融合形成统一数据池。

系统通过动态重采样策略，根据不同任务的性能表现自适应调整在线与离线数据比例，最大化真实世界经验的利用效率。

最后是参数同步层的即时更新。

更新后的模型参数在分钟级别内同步回所有机器人，实现集群一致进化。

这一系统设计具有多方面优势。

高效的状态空间探索使分布式多机器人能够显著提升覆盖率。

由于所有机器人始终基于低延迟的最新策略进行推理采集，系统有效缓解了分布偏移问题，提升了在线训练的稳定性。

更为关键的是，该系统通过空间上的并行而非时间上的串行，在提升任务性能的同时保留了通用视觉语言模型的泛化能力，避免了传统单机在线训练导致的模型退化问题。

实验评估结果验证了系统的有效性。

在物品繁杂的商超场景中，结合该系统的后训练方法相比预训练模型实现了33%的综合性能提升。

对于灵巧操作任务如叠衣服，系统效率实现翻倍提升。

在面对新环境时，机器人仅需数小时便可完成适应，这在过去往往需要数天甚至更长时间。

这些数据充分表明，分布式在线后训练系统有效打破了传统学习范式的束缚。

从技术架构看，该系统的通用性设计使其可即插即用各类后训练算法，为不同应用场景提供了灵活的解决方案。

这种模块化、开放式的设计思路，有利于推动整个行业的创新发展，降低后来者的技术门槛。

智元科技的此次突破，揭示了人工智能与物理世界深度融合的新路径。

当机器能够像人类一样通过群体经验持续进化，我们或许正站在"具身智能"时代的前夜。

这一技术演进不仅重构了机器人的能力边界，更对智能制造、社会服务等领域的范式变革提出了全新思考——未来的生产力革命，或将由自主进化的机器集群共同书写。