问题——多年来,大模型在“能说会写”方面进展迅速,但要同时做到“看得懂、画得出、拍得成”,行业路线分化明显:语言模型多沿自回归思路迭代,图像与视频模型则常依赖对比学习、扩散模型等专门方法。
由此带来一个共性难题:面对文字、图片、视频等不同形态信息,往往需要不同模型与训练范式“分工协作”,不仅研发链条长、工程复杂度高,也限制了能力统一迁移与规模化扩展。
能否用一种简洁、统一的训练方法,让模型在多模态任务上同样具备竞争力,成为制约通用多模态系统发展的关键问题之一。
原因——路线分化的背后,是信息形态差异与训练目标不一致:文本天然适合序列化建模,便于以“下一个词元预测”形成稳定的学习信号;图像与视频则更强调空间结构与连续变化,长期以来更依赖专门的表征学习或生成机制。
与此同时,产业应用对多模态能力提出更高要求:一方面,真实世界场景往往是“图文并存、动静结合”,单一模态能力难以覆盖;另一方面,面向规模化落地,系统更需要统一架构、统一训练与统一评测,以降低研发成本、提升迭代效率。
在此背景下,探索“统一路线”不仅是学术命题,也直接关系到通用能力上限与工程可用性。
影响——此次研究提出并验证:仅采用自回归的“预测下一个词元”路径,也可以实现多模态统一学习,训练出原生多模态大模型。
研究团队研发的Emu3模型借鉴语言大模型成功经验,将文本、图像、视频的理解与生成纳入同一套学习框架,使模型面对不同类型输入时遵循一致的学习逻辑。
实验结果显示,该统一方法在图片生成、图文理解、视频创作等任务上达到与多种专用模型相当的水平,同时具备更强的可扩展性与通用潜力。
《自然》编辑在点评中指出,该成果实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的表现可与专门路线相当,对构建可扩展、统一的多模态智能系统具有重要意义。
对我国相关领域而言,这不仅是重要学术突破,也为在关键技术路径上形成可持续迭代的自主方案提供了示范。
对策——面向后续发展,统一路线的价值需要在“可用、可控、可扩展”上进一步落地:其一,强化高质量多模态数据体系建设与治理能力,推动数据采集、标注、合规与安全协同,提升训练数据的覆盖度与可靠性;其二,完善统一架构下的评测标准与基准体系,既衡量生成效果,也检验理解、推理与跨模态一致性,避免“只会生成、不善理解”或“短板效应”;其三,围绕重点应用场景推进系统工程化验证,在内容创作、工业视觉、教育科研、城市治理等领域开展可重复、可评估的试点,形成从研究到产品的闭环;其四,强化算力、算法与软件栈协同优化,降低多模态训练与推理成本,提高模型服务的稳定性与效率。
前景——统一自回归路线若持续成熟,有望推动多模态系统从“拼装式集成”迈向“原生式统一”,并进一步向理解物理世界的动态规律拓展。
值得关注的是,基于同一路径迭代的Emu3.5模型已展现对物理世界运行规律的初步学习与模拟能力,能够尝试预测场景下一步变化。
业内普遍认为,具备“对变化的理解与预测”能力,是通向更通用智能体的重要环节之一。
未来,随着统一训练框架、数据与算力条件持续完善,多模态大模型有望在更复杂环境中实现更可靠的感知、生成与决策协同,为智能化应用提供更坚实的底座支撑。
同时,相关技术也将对内容安全、版权治理、可靠性评估等提出更高要求,亟需在发展中同步完善规则与机制,确保技术进步与社会责任同向发力。
这项研究成果的发表,反映了我国人工智能基础研究正在从跟踪模仿向自主创新转变。
通过用统一的自回归方法打破多模态学习的技术壁垒,智源研究院不仅解决了一个困扰行业多年的难题,更为生成式人工智能的未来发展指明了方向。
随着Emu3.5等迭代版本展现出对物理世界规律的学习能力,我们有理由相信,更加通用、更加智能的人工智能系统正在逐步成为现实。
这一突破也提示我们,在人工智能这场全球竞争中,坚持基础研究、追求技术创新的重要性。
未来,如何将这些科学成果转化为实际应用,推动产业升级和社会发展,将是摆在我们面前的新课题。