我国科研团队突破多模态学习技术统一算法框架成果登《自然》期刊

问题——多年来，大模型在“能说会写”方面进展迅速，但要同时做到“看得懂、画得出、拍得成”，行业路线分化明显：语言模型多沿自回归思路迭代，图像与视频模型则常依赖对比学习、扩散模型等专门方法。

由此带来一个共性难题：面对文字、图片、视频等不同形态信息，往往需要不同模型与训练范式“分工协作”，不仅研发链条长、工程复杂度高，也限制了能力统一迁移与规模化扩展。

能否用一种简洁、统一的训练方法，让模型在多模态任务上同样具备竞争力，成为制约通用多模态系统发展的关键问题之一。

原因——路线分化的背后，是信息形态差异与训练目标不一致：文本天然适合序列化建模，便于以“下一个词元预测”形成稳定的学习信号；图像与视频则更强调空间结构与连续变化，长期以来更依赖专门的表征学习或生成机制。

与此同时，产业应用对多模态能力提出更高要求：一方面，真实世界场景往往是“图文并存、动静结合”，单一模态能力难以覆盖；另一方面，面向规模化落地，系统更需要统一架构、统一训练与统一评测，以降低研发成本、提升迭代效率。

在此背景下，探索“统一路线”不仅是学术命题，也直接关系到通用能力上限与工程可用性。

影响——此次研究提出并验证：仅采用自回归的“预测下一个词元”路径，也可以实现多模态统一学习，训练出原生多模态大模型。

研究团队研发的Emu3模型借鉴语言大模型成功经验，将文本、图像、视频的理解与生成纳入同一套学习框架，使模型面对不同类型输入时遵循一致的学习逻辑。

实验结果显示，该统一方法在图片生成、图文理解、视频创作等任务上达到与多种专用模型相当的水平，同时具备更强的可扩展性与通用潜力。

《自然》编辑在点评中指出，该成果实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的表现可与专门路线相当，对构建可扩展、统一的多模态智能系统具有重要意义。

对我国相关领域而言，这不仅是重要学术突破，也为在关键技术路径上形成可持续迭代的自主方案提供了示范。

对策——面向后续发展，统一路线的价值需要在“可用、可控、可扩展”上进一步落地：其一，强化高质量多模态数据体系建设与治理能力，推动数据采集、标注、合规与安全协同，提升训练数据的覆盖度与可靠性；其二，完善统一架构下的评测标准与基准体系，既衡量生成效果，也检验理解、推理与跨模态一致性，避免“只会生成、不善理解”或“短板效应”；其三，围绕重点应用场景推进系统工程化验证，在内容创作、工业视觉、教育科研、城市治理等领域开展可重复、可评估的试点，形成从研究到产品的闭环；其四，强化算力、算法与软件栈协同优化，降低多模态训练与推理成本，提高模型服务的稳定性与效率。

前景——统一自回归路线若持续成熟，有望推动多模态系统从“拼装式集成”迈向“原生式统一”，并进一步向理解物理世界的动态规律拓展。

值得关注的是，基于同一路径迭代的Emu3.5模型已展现对物理世界运行规律的初步学习与模拟能力，能够尝试预测场景下一步变化。

业内普遍认为，具备“对变化的理解与预测”能力，是通向更通用智能体的重要环节之一。

未来，随着统一训练框架、数据与算力条件持续完善，多模态大模型有望在更复杂环境中实现更可靠的感知、生成与决策协同，为智能化应用提供更坚实的底座支撑。

同时，相关技术也将对内容安全、版权治理、可靠性评估等提出更高要求，亟需在发展中同步完善规则与机制，确保技术进步与社会责任同向发力。

这项研究成果的发表，反映了我国人工智能基础研究正在从跟踪模仿向自主创新转变。

通过用统一的自回归方法打破多模态学习的技术壁垒，智源研究院不仅解决了一个困扰行业多年的难题，更为生成式人工智能的未来发展指明了方向。

随着Emu3.5等迭代版本展现出对物理世界规律的学习能力，我们有理由相信，更加通用、更加智能的人工智能系统正在逐步成为现实。

这一突破也提示我们，在人工智能这场全球竞争中，坚持基础研究、追求技术创新的重要性。

未来，如何将这些科学成果转化为实际应用，推动产业升级和社会发展，将是摆在我们面前的新课题。

我国科研团队突破多模态学习技术 统一算法框架成果登《自然》期刊

我国科研团队突破多模态学习技术统一算法框架成果登《自然》期刊