智元、清华大学联手搞出了个叫mansion的框架,专门用来给具身智能做实验。

最近智元、清华大学还有麦吉尔大学联手搞出了个叫 MANSION 的框架,专门用来给具身智能做实验。以前大家训练机器人通常就把它关在一个单独的小屋子里,这种环境根本没法应对真正的挑战。比如机器人在医院里得从一层跑到十层给病人送药,或者在写字楼里把东西一层层运到办公室,这些跨楼层的长时间任务才是最考验技术的。现在智元牵头做的这个 MANSION 项目终于成功进了 CVPR 2026 的会刊了。这个框架最大的特点是能直接用大模型从语言里生成整栋楼,它不光能生成房子的样子,还能让机器人在里面跑得很顺溜。 以前的大模型只能生成简单的房间,没法处理楼梯电梯这种复杂结构。MANSION 不一样,它先把整栋楼的功能分区、交通路线还有风格都规划好,再逐层生成平面图和房间布局,最后用几何求解器算出符合物理规则的结果。这样生成的房子不仅看着真,连楼梯电梯的位置都对得上,直接就能扔到 NVIDIA Isaac Sim 或者 Blender 这些仿真器里跑。团队还顺便搞了个 MansionWorld 数据集,里面有上千栋楼、上万间房,涵盖了医院、学校、商场各种场景。 为了让机器人在这种复杂环境里干活,团队还把原来的 AI2-THOR 模拟器升级了一下,加进去了楼梯电梯这些资产。他们还推出了一个高级的 API,专门负责管理机器人在楼层间的切换和状态保存。有了这个 API,机器人就能轻松完成跨楼层取东西、送东西这种长链任务了。为了提高场景的利用率,他们还开发了个智能体,能根据具体任务的要求快速修改环境布局,实现“一栋楼多用”。 现在很多研究都还停留在简单的 “单层样板间” 里,导致机器人在真实世界里表现很差。MANSION 最大的价值在于给全球研究者提供了一个标准化的楼宇级测试平台。当任务变得特别复杂需要跨楼层、长时间运行时,现有的顶尖智能体性能就会大打折扣,直接暴露出空间推理和长期规划上的不足。MANSION 正好能弥补这些短板,成为下一代具身智能突破的关键基石。 CVPR 可是计算机视觉领域最顶尖的会议之一,MANSION 能入选就说明学术界都很认可这项工作的创新性和价值。这次研究是中国的科学家在机器人技术上的又一前沿成果,王菲负责的校对也为这个工作的准确性提供了保障。