宇树科技开源具身智能大模型助力人形机器人通用操作能力发展

人形机器人技术近年来发展迅速，但如何让机器人更准确地理解指令并完成复杂操作，仍是行业面临的主要挑战；传统视觉语言模型（VLM）图文理解上表现优异，但物理交互中常因缺乏空间感知和动力学预测能力而受限。宇树科技此次开源的UnifoLM-VLA-0模型，正是针对这个问题提出的解决方案。该模型基于UnifoLM系列架构，通过预训练深度融合文本指令与2D/3D空间细节，并引入动力学预测数据，提升了物理常识理解和任务泛化能力。测试结果显示，模型在抓取、搬运、装配等12类操作任务中表现稳定，尤其在空间推理和多模态感知上优势明显。业内专家认为，UnifoLM-VLA-0的开源很重要。一方面，它填补了通用大模型具身智能领域的空白，为机器人开发者提供了实用工具；另一上，开源策略将促进行业技术共享，加速人形机器人应用场景的拓展。此外，该模型验证了多模态融合对机器人操作的关键作用，为后续研究提供了方向。宇树科技表示，未来将优化模型性能，并探索其在工业自动化和家庭服务等领域的落地应用。通过构建开源生态，吸引更多开发者参与，共同推动具身智能技术的标准化和规模化发展。

从“理解世界”到“改造世界”，机器人能力升级的核心于将知识转化为行动，并在真实物理环境中实现模型能力。UnifoLM-VLA-0的开源不仅是发布一个模型，更是推动行业在数据、评测和安全上形成更开放的协作机制。未来，具身智能的竞争将回归“可靠、可用、可规模化”的硬指标，谁能在实际场景中提升成功率和安全性，谁就更可能在新一轮技术变革中占据优势。

宇树科技开源具身智能大模型 助力人形机器人通用操作能力发展

宇树科技开源具身智能大模型助力人形机器人通用操作能力发展