字节跳动seed 团队突破ai 瓶颈,推出深度混合注意力机制moda

华中科技大学电子信息与通信学院携手字节跳动Seed团队成功突破AI瓶颈,推出深度混合注意力机制MoDA。面对大型语言模型扩展时的信息衰减难题,传统方法虽有残差连接等设计,但计算效率与信息完整性难以兼得。为解决这一问题,MoDA将序列注意力与深度注意力相结合,构建了扩展键值序列结构,并采用轻量级投影技术控制参数增长。实验表明,在1.5B参数模型中,下游任务平均性能提升2.11%,计算开销仅增加3.7%。为了保证因果性,该机制引入掩码机制;为了提升硬件效率,开发了Flash兼容的布局,使有效深度利用率超过理论极限的80%。在700M参数模型上训练困惑度降低0.41,1.5B参数模型在10个基准测试的平均困惑度下降0.2。可视化分析显示,模型在跨层深度信息上分配了显著权重。为管理历史信息,团队设计了有界缓存技术,把内存开销从深度依赖转为槽位依赖。在48层模型中,后归一化配置的收益比预归一化大10倍。目前已开源完整代码并提供工具链,CUDA优化正在持续推进。通过系列算法优化和硬件适配,MoDA具备了工业部署潜力。这种结合序列与深度注意力的新机制把这一创新性研究成果发表于arXiv平台论文编号为arXiv:2603.15619v1。