我国科研团队突破具身智能关键技术 空间认知算法实现国际领先

在机器人进入工厂产线、家庭厨房等复杂场景后,一个长期瓶颈愈发突出:系统能够“说得通”,却未必“做得到”。

一些模型在纯语义推理时容易出现与现实不符的判断,例如对不存在的物体发出抓取指令、在空间受限环境规划不合理路线等。

这类偏差一旦进入真实作业链条,轻则效率下降,重则带来安全隐患,成为具身智能规模化应用必须跨越的门槛。

问题的根源,主要在于信息来源与推理机制的割裂。

传统方案往往将视觉感知与文本推理分段处理,视觉负责“看见”,语言负责“决策”,两者之间校验不足,导致模型在动态环境中难以及时纠偏。

同时,许多系统缺少连续的空间记忆:任务被打断后无法准确回溯先前状态,更难对环境变化作出自适应调整。

此外,大模型在复杂物理推理中常需要高算力“全量激活”,成本与能耗限制了在边缘设备、移动终端的部署空间。

针对上述痛点,RynnBrain提出以“眼脑协同”为核心的混合推理思路,即在每一步语义推理过程中同步引入空间定位与视觉校准,使决策始终与真实几何关系对齐。

以工业抓取为例,系统在识别零件位置坐标的同时,将“轻拿轻放”等语义约束映射为具体控制参数,从而将文本意图转化为可执行的力度与轨迹指令。

相关测试显示,相比仅依赖文本推理的路径预测方式,该策略能显著降低运动轨迹误差,提高复杂场景下的稳定性。

在“能看、能算”之外,能否“记住并复盘”同样关键。

RynnBrain引入环境锚点嵌入技术,将动作与场景状态转化为三维坐标系中的可追溯标记,形成时空链条。

其意义在于:当任务被外部事件打断,系统能够像翻阅书签一样恢复到中断前的关键节点,并结合环境变化进行再规划。

例如在厨房作业中,机器人在被要求优先处理关火等突发指令后,可回到切配环节并调整动作参数,以减少因余温、湿度等因素引发的误差。

业内人士指出,这类“空间记忆+动态再规划”能力,是具身系统走向长期自主作业的重要基础设施。

更受关注的是效率路径。

RynnBrain借助混合专家模型架构与自研的任务分级机制,实现按需调用计算资源:基础导航、简单避障等任务调用较小子模型,精密装配、复杂空间推理再激活专家模块,在控制成本的同时保持能力上限。

这种“分层用脑”的设计,契合真实场景中任务难度分布不均的特点,有助于提升算力利用率,降低端侧部署门槛。

实际应用中,已有物流分拣场景尝试引入相关能力,通过构建更可靠的“虚拟立体地图”处理包裹堆叠等难题,提高抽取底层货物的成功率并减少对上层堆叠的扰动。

从影响看,这一技术路线至少带来三方面启示:其一,具身智能的核心竞争力正从“语言能力展示”转向“物理世界对齐”,评价体系需要更强调安全性、可执行性与长期任务表现;其二,空间推理与记忆机制的结合,有望降低对海量数据的依赖,提高小样本适配效率,加速行业定制;其三,算力与能耗约束将倒逼模型架构向“稀疏激活、按需计算”演进,推动能力与成本之间形成更可持续的平衡。

面向对策层面,业内建议在三条路径上协同推进:一是建立更贴近真实作业的评测基准与安全规范,将空间定位误差、碰撞风险、任务中断恢复等指标纳入统一评价;二是推动感知、规划、控制的一体化验证,在仿真与实景之间建立更严格的闭环测试流程;三是加强关键场景的数据治理与可追溯机制,避免模型在复杂环境中出现不可解释的决策偏差,同时为持续迭代提供可复盘依据。

展望未来,随着机器人在仓储、制造、家庭服务等领域承担更长链条任务,物理空间推理能力将成为决定“能否真正上岗”的分水岭。

以RynnBench等评测体系为代表的探索,正在推动行业将焦点从参数规模和算力堆叠,转向对现实世界规律的建模、对任务过程的可控与可验证。

可以预见,下一阶段的竞争不只在模型“会不会说”,更在系统“能不能稳、能不能久、能不能安全地做”。

RynnBrain模型的出现表明,推动具身智能发展的关键不在于盲目堆砌算力,而在于对物理世界运行规律的深刻理解。

当机器学会用接近人类的方式感知和推理空间关系时,曾经被视为生物专属的智能形态正在被逐步重构。

这一突破为机器人在制造、物流、服务等领域的广泛应用奠定了基础,也为人工智能与现实世界的深度融合指明了方向。