我国多模态视频生成技术取得重大突破 昆仑万维发布全球领先音视频同步模型

近年来,视频生成能力已成为多模态大模型竞争的重点方向之一。相比静态图像生成,视频需要同时满足连续帧一致性、镜头表达、人物动作与口型匹配、背景稳定,以及音频与画面的时间对齐等多重约束,任何一项不足都可能明显影响成片可用性。产业端反馈也较为集中:一是音画不同步、口型不准等问题削弱人物表达与叙事可信度;二是高清、长时长生成算力开销大、耗时长、成本高;三是生成后的修复、替换、局部编辑常需多工具配合,流程割裂、效率偏低。基于此,昆仑万维集团旗下Skywork AI发布SkyReels V4,提出以统一框架打通“生成—修复—编辑”链路,并突出音视频同步生成能力。据公开信息,SkyReels V4采用双流多模态扩散Transformer架构,并行推进视频与音频两条生成路径,通过双向跨注意力机制实现对齐,从而提升人物口型、动作与声音的匹配程度。同时,该模型支持1080p分辨率、32帧每秒、约15秒时长的音视频同步生成,并提供基于参考图片与参考运动的主体替换、动作迁移、属性修改、背景更换、局部纹理调整等功能,目标是让“生成素材”更接近“可直接进入剪辑环节的素材”。从原因看,这轮视频大模型能力提升并非单点改进,而更像围绕成本与质量展开的系统工程。一方面,视频生成需要“时序一致性”和“细节清晰度”之间取得平衡,若一味追求高分辨率全序列生成,算力成本与时延会快速上升。SkyReels V4提出“低分辨率全序列+高分辨率关键帧”的联合策略:先生成低分辨率完整视频与高分辨率关键帧,再通过超分辨率与帧插值模块重构高质量输出,意在以更可控的算力投入换取更高质量、更长时长的效果。另一上,用户对“可编辑性”的需求正从后期软件向生成框架内部前移,统一范式有助于减少工具切换与格式损耗。其提出的通道拼接与时序拼接统一范式,意在把生成、编辑与处理能力整合进同一工作流,提高端到端效率。 从影响看,音视频同步与一体化编辑能力的提升,意味着视频生成大模型可能更快迈向规模化应用。对内容产业而言,短视频、短剧、广告电商、品牌传播等场景对节奏控制、镜头切换、音画一致性要求更高;一旦模型输出达到可用标准——将降低素材生产门槛——并推动“脚本—分镜—生成—精修—投放”的流程重构。对企业端而言,更低的算力消耗与更高的工作流整合度,有望推动工具普及与商业模式创新,带动面向垂直行业的定制化服务。对技术生态而言,第三方评测榜单的排名与对标正在成为竞争与传播的重要参照,也促使厂商在通用能力之外,更重视稳定性、可控性与合规能力建设。 另外,视频生成走向产业化仍需要系统性支撑。其一,建立更严格的质量评估与可控生成机制,提升人物一致性、镜头连贯性、语音与口型对齐等指标的稳定性,避免“样片效果好、批量表现不稳”。其二,强化数据来源管理、版权边界与标注规范,完善水印、溯源、风格相似度检测等配套能力,降低侵权与误用风险。其三,推动与剪辑、配音、特效、资产管理等软件生态的接口标准化,让模型能力更顺畅地进入企业内容生产线。其四,面向海外市场时,应同步考虑不同地区的合规要求与平台政策,围绕隐私保护、内容安全、版权治理与未成年人保护等建立完整的产品与运营体系,提升国际化的可持续性。 展望未来,视频生成大模型的竞争将从“能不能生成”转向“能否稳定生产、能否高效编辑、能否安全合规”。随着多模态理解、时序建模与生成控制能力持续提升,以及算力效率与工程化水平不断进步,国产视频大模型有望在内容生产、营销传播、教育培训、工业仿真等领域拓展更广泛的应用空间。谁能在质量、成本、生态与规则之间实现长期平衡,谁就更可能在下一阶段产业落地中占据主动。

SkyReels V4的推出展现了中国视频生成技术的研发进展,也提醒我们,技术突破只是起点。在全球AI竞争持续升温的背景下,中国企业在夯实核心技术的同时,需要更审慎地思考如何在国际规则框架下实现可持续发展。把创新能力与责任治理结合起来,才能在全球AI产业演进中赢得更稳固的增长空间。