deepmind用ai和neural 场景表示和渲染方法,成功把2d 图像转化为3d 世界,他们的gqn 神经网络系统

DeepMind用AI和Neural场景表示和渲染方法,成功把2D图像转化为3D世界,他们的GQN神经网络系统。从一摞立方体积木的几个侧面剪影,生成完整的3D形状就像一道行测题,考察人类和机器在2D到3D空间转换上的能力。这篇论文发表在《Science》上,展示了计算机如何让这个过程成为可能。 GQN让电脑可以通过几幅照片还原场景的3D结构,还可以根据不同角度进行视角切换,补充细节。 DeepMind发现了机器没有办法像人类一样从2D图像中快速判断出3D结构。这被称为机器视觉系统中的阿克琉斯之踵。我们的大脑进入一个房间,就能够立刻分辨出桌椅、门窗位置颜色,还有看不见部分。这种能力对人类来说轻松自如,但是对机器来说却不是这样。 为了避免昂贵且复杂的标注数据过程,DeepMind设计了一个方案:给AI学习自己“看不见”的推理能力。GQN系统需要给智能体一个程序生成的迷宫,让智能体自己收集数据。在这个过程中,智能体既像学生一样从2D画面中学习场景信息,又像老师一样帮助模型构建这个场景的完整3D结构。 GQN系统分为两个步骤:一个是把智能体看到的2D画面转换成一个简单向量;另一个就是根据这个向量去“想象”出任意视角下的完整画面。这种转换过程无需人工干预,也不需要预先定义光照和视角规律。 实验结果显示出GQN系统的强大性能:在程序生成环境中产生新视角图像与真实图像几乎无法分辨;所有目标都可以一次到位被定位;模型还能实时评估可信度。当遮挡严重时,模型预测的不确定度会自动升高;当智能体继续移动时,不确定度会逐渐降低。 GQN不仅提供了美观的结果,还提高了强化学习算法的性能。把GQN编码喂给强化学习算法后,智能体完成任务所需的数据量下降了4倍。这意味着未来机器人不需要从头开始摸索就可以拥有对空间结构的预理解能力。 虽然GQN目前只在合成场景里工作得很好,但是DeepMind已经计划升级分辨率与光照复杂性来应对真实世界数据。跨时空查询也是一个重要方向,把单帧图像扩展到视频序列去学习运动、物理等常识。 当AI学会用2D剪影还原3D世界时,它才算拥有了真正意义上的“空间大脑”。这个突破将为虚拟现实(VR)、增强现实(AR)和机器人技术带来更多应用。