宇树科技开源具身智能大模型 助力人形机器人通用操作能力发展

人形机器人技术近年来发展迅速,但如何让机器人更准确地理解指令并完成复杂操作,仍是行业面临的主要挑战;传统视觉语言模型(VLM)图文理解上表现优异,但物理交互中常因缺乏空间感知和动力学预测能力而受限。宇树科技此次开源的UnifoLM-VLA-0模型,正是针对这个问题提出的解决方案。 该模型基于UnifoLM系列架构,通过预训练深度融合文本指令与2D/3D空间细节,并引入动力学预测数据,提升了物理常识理解和任务泛化能力。测试结果显示,模型在抓取、搬运、装配等12类操作任务中表现稳定,尤其在空间推理和多模态感知上优势明显。 业内专家认为,UnifoLM-VLA-0的开源很重要。一方面,它填补了通用大模型具身智能领域的空白,为机器人开发者提供了实用工具;另一上,开源策略将促进行业技术共享,加速人形机器人应用场景的拓展。此外,该模型验证了多模态融合对机器人操作的关键作用,为后续研究提供了方向。 宇树科技表示,未来将优化模型性能,并探索其在工业自动化和家庭服务等领域的落地应用。通过构建开源生态,吸引更多开发者参与,共同推动具身智能技术的标准化和规模化发展。

从“理解世界”到“改造世界”,机器人能力升级的核心于将知识转化为行动,并在真实物理环境中实现模型能力。UnifoLM-VLA-0的开源不仅是发布一个模型,更是推动行业在数据、评测和安全上形成更开放的协作机制。未来,具身智能的竞争将回归“可靠、可用、可规模化”的硬指标,谁能在实际场景中提升成功率和安全性,谁就更可能在新一轮技术变革中占据优势。