字节跳动seed 团队突破ai 瓶颈，推出深度混合注意力机制moda

华中科技大学电子信息与通信学院携手字节跳动Seed团队成功突破AI瓶颈，推出深度混合注意力机制MoDA。面对大型语言模型扩展时的信息衰减难题，传统方法虽有残差连接等设计，但计算效率与信息完整性难以兼得。为解决这一问题，MoDA将序列注意力与深度注意力相结合，构建了扩展键值序列结构，并采用轻量级投影技术控制参数增长。实验表明，在1.5B参数模型中，下游任务平均性能提升2.11%，计算开销仅增加3.7%。为了保证因果性，该机制引入掩码机制；为了提升硬件效率，开发了Flash兼容的布局，使有效深度利用率超过理论极限的80%。在700M参数模型上训练困惑度降低0.41，1.5B参数模型在10个基准测试的平均困惑度下降0.2。可视化分析显示，模型在跨层深度信息上分配了显著权重。为管理历史信息，团队设计了有界缓存技术，把内存开销从深度依赖转为槽位依赖。在48层模型中，后归一化配置的收益比预归一化大10倍。目前已开源完整代码并提供工具链，CUDA优化正在持续推进。通过系列算法优化和硬件适配，MoDA具备了工业部署潜力。这种结合序列与深度注意力的新机制把这一创新性研究成果发表于arXiv平台论文编号为arXiv:2603.15619v1。