国外工程师成功复现深度求索新架构技术性能表现超越原始论文报告

近期，围绕大模型基础架构的研究再度出现新动向。

继DeepSeek在元旦前后发布多流超连接架构mHC并引起广泛讨论后，FlowMode工程师Taylor Kolasinski对该方法进行了独立复现，并在公开的系列技术笔记中披露了实验过程与阶段性结果。

其称在租用8张H100算力的条件下，复现实验在若干测试指标上取得了优于原论文报告的表现。

消息发布后，技术社区持续跟进讨论，焦点集中在“训练稳定性如何保障”“新型残差结构能否成为通用改进方向”等问题上。

问题：规模化训练下的“信号放大”成为结构创新的硬门槛 Transformer自2016年以来的主流残差形式可概括为“输入直通+增量更新”，即x与F(x)相加形成单一残差流。

该结构简单、稳定，能够在深层网络中为梯度提供相对清晰的传播路径，是大模型可训练性的关键因素之一。

但随着模型规模、层数与训练策略的不断激进，传统残差结构在表达能力扩展方面也面临瓶颈，推动研究者尝试引入更强的路由与混合机制。

在此背景下，超连接（Hyper-Connections）提出将单一残差流扩展为多条并行信息流，并通过可学习的混合矩阵在不同流之间进行组合与分配，从而增强表达能力，且理论上计算开销增量有限。

然而，这一思路在规模化训练时暴露出突出风险：混合矩阵若缺乏必要约束，除了“路由信息”之外还可能“放大信号”，进而触发数值不稳定、梯度异常甚至训练崩溃。

相关复现实验显示，在较激进学习率等压力设置下，超连接会出现显著放大效应并最终失稳；原论文亦报告在更大参数规模下出现极端放大峰值，提示该问题具有随规模放大的倾向。

原因：无约束混合矩阵叠加，微小放大在深层与长训练中被指数复合从机制上看，多流结构引入的混合矩阵相当于在每一层、每一步训练中对信号进行重加权与再分配。

若矩阵的行列和、范数或谱特性不受控制，其最大放大倍数可能随着层数叠加而不断累积，导致原本可控的扰动被放大为全局不稳定。

尤其在大模型训练中，学习率、权重初始化、归一化策略以及优化器动态共同作用，使得早期微小偏差更容易被持续复合，最终表现为激活值爆炸、梯度溢出或损失震荡。

换言之，结构创新若只强调表达能力而忽视“恒等映射属性”的保护，往往会在大规模训练中付出稳定性代价。

影响：复现结果强化可验证性，也推动架构竞争从“能跑”走向“可控可扩” 独立复现并取得更优测试表现，释放出两方面信号：其一，mHC并非仅停留在理论或小规模演示，而具备在主流算力条件下被工程化实现的可行性；其二，复现者公开实验过程，有助于社区核对关键实现细节，降低“只在特定训练配方下有效”的不确定性。

对产业界而言，这类可复现、可对照的研究更容易沉淀为可用的训练策略或架构组件，进而在模型效率、收敛速度与稳定性之间寻找更优平衡。

与此同时，该事件也反映出当前大模型技术路线竞争的变化：从单纯追求参数规模与数据规模，逐步转向对基础架构、训练稳定性和工程可控性的系统优化。

尤其在算力成本高企、训练周期拉长的背景下，任何能降低“崩溃概率”、减少调参成本、提升训练可预测性的结构改进，都可能带来显著的综合收益。

对策：以约束换稳定，关键在于把“可学习”纳入“可控”边界 mHC的核心思路之一，是对多流混合矩阵施加结构性约束，使其不再任意放大信号，而是在受控空间内学习路由与组合关系。

公开信息显示，其采用Sinkhorn-Knopp等方法将连接矩阵约束到双拟随机矩阵相关的流形上，从而在一定程度上限制矩阵的放大能力，降低信号爆炸风险。

简言之，就是在“更强表达能力”与“稳定恒等映射”之间建立制度化约束，让多流结构在大规模训练中保持可训练性边界。

从工程实践角度看，后续工作仍需在三方面加强：一是完善可复现的训练配方与监控指标体系，特别是对矩阵放大系数、激活分布、梯度范数等关键量进行在线诊断；二是在不同模型规模、不同数据与不同任务上开展更广泛的对比实验，明确mHC收益的适用边界与可能的副作用；三是结合现有归一化、初始化、优化器与混合精度策略，形成一套兼容主流训练栈的“稳定性组合拳”，避免单点改动在大规模场景下出现新的耦合风险。

前景：从社区实验走向产业落地，仍需标准化评测与多方交叉验证总体看，mHC复现进展使得“多流残差+约束混合矩阵”的路线获得更多现实支撑，但其能否成为下一代通用架构组件，仍取决于跨组织、跨框架、跨任务的持续验证。

未来一段时间，行业可能围绕三个方向展开竞争：一是稳定性与效率的量化比较，特别是在相同算力与训练时长下的综合收益；二是与现有结构改进（如不同归一化策略、门控机制、稀疏路由等）的兼容性；三是面向推理端的部署代价评估，确保训练阶段的收益不会被推理复杂度与工程维护成本抵消。

如果后续更多复现者在公开基准上重复得到一致结论，并形成可复用的实现模板与监控规范，那么mHC类方法有望从“论文概念”走向“训练基础设施的一部分”。

反之，若收益高度依赖特定超参数或训练流程，其影响可能更多停留在研究探索层面。

科技创新往往源于对基础架构的重新思考。

mHC架构的突破不仅解决了具体的技术难题，更启示研究者：在追逐参数规模的同时，对模型底层设计的优化同样能带来质的飞跃。

当开源社区与学术机构形成良性互动，人工智能技术的发展必将迎来更多可能。

国外工程师成功复现深度求索新架构技术 性能表现超越原始论文报告

国外工程师成功复现深度求索新架构技术性能表现超越原始论文报告