把北京智源人工智能研究院的研究成果“发表”给《自然》正刊这件事,成为了大家关注的热点,因为这是我国科研机构在大模型领域的首秀。这篇论文解决了一个很重要的问题:怎么让一个模型既能理解文字,又能处理图片和视频?以前大家都觉得这很难,就像要打开好多扇门一样,得找不同的钥匙。北京智源的团队却找到了一把“万能钥匙”,只需要把不同的信息都变成能预测的“词元”,就可以用统一的逻辑去处理了。他们提出了一种叫Emu3的多模态大模型,效果特别好。实验结果显示,这个模型在生成图片、理解图文和制作视频这些任务上,表现和那些专门干这一行的模型差不多。 最让人惊喜的是Emu3.5这个迭代版本,它已经能试着预测简单场景的变化了。这就好比让机器开始理解世界是怎么动的。其实从2020年起,北京智源就开始搞大模型的研究了。到了2025年6月,他们发布了“悟界”新一代大模型系列成果,这里面就有Emu系列。他们希望能让人工智能从只能玩数字游戏,变成能真实接触物理世界的智能体。 这次发表在《自然》上的研究证明了中国在AI基础研究上的硬实力。这也给全球生成式人工智能提供了新思路。如果这种统一的多模态学习方法继续发展下去,说不定就能帮我们离通用人工智能(AGI)更近一步了。现在中国的科研机构还在不断深耕这个领域,为全球的AI发展贡献中国智慧和力量呢。