蚂蚁灵波科技开源了一个叫LingBot-World的世界模型,把这个行业的发展又往前推进了一大步。在人工智能需要面对更复杂环境的时候,世界模型是个重要的技术,帮助我们把数字和现实连接起来。我国这次开放的这个模型,目标就是把物理世界的变化逼真地模拟出来,还给了机器人、自动驾驶系统和游戏开发提供了很好的环境。 这个模型跟那些只做静态图片或短视频的不一样,它能理解动作和场景变化之间的关系,还能保持长时间生成内容的连贯性。技术评估显示,这个模型在不少方面都很先进。比如,它解决了长序列视频生成中常见的时空漂移问题,比如物体失真、场景乱掉这些问题。 他们用了一些创新的技术,把视频生成的时间延长到接近十分钟,而且内容还特别稳定逼真。这么长时间足够用来测试那些需要多步骤、长周期验证的复杂任务了。 这个模型在交互性能上也做得很好。端到端的延迟控制在1秒以内,每秒能生成16帧画面,用户可以用键盘鼠标实时控制角色或视角,画面变化会即时响应指令。 另外它还支持通过文字指令来改变环境,比如切换昼夜、天气或者触发事件。而且改变的时候还能保持场景几何逻辑稳定。 这个模型有个零样本学习的特点,就是你给它一张没训练过的照片或者截图,它也能生成一个可交互的视频流。这样就不需要针对每个特定场景去采集数据和微调了,降低了应用门槛。 高质量的交互数据一直是个瓶颈。为了解决这个问题,研发团队用了虚实结合的策略:一边从海量互联网视频里找数据;一边利用游戏引擎和虚幻引擎(UE)来生成干净的虚拟画面和记录操作指令。 这次把模型权重和代码都开源出来,体现了开放的态度。希望能吸引更多开发者参与测试和改进这个技术。 LingBot-World不仅展示了单项技术成果,也展示了我国科研力量在基础模型上的积累和创新。它把高动态模拟和实时交互结合在一起,给那些需要高质量仿真环境的领域提供了新工具选择。 未来要进一步提升模型的物理规律拟合精度、拓展多智能体交互场景还有构建开发者生态是产业和学界共同要探索的方向。