DeepSeek开源Engram引发关注:显存降幅谈不上“颠覆”,工程价值与适用边界仍需厘清

人工智能技术快速发展的背景下——大型模型对显存的高需求——已成为限制其普及的重要瓶颈。近期,国内科研机构公布的一项显存优化技术,引发业界对降低大模型使用门槛的新关注。 技术原理上,该方案引入了参数分层管理机制。研究数据显示,典型大模型参数中约30%属于需要常驻显存的基础参数,其余约70%的专家参数可通过动态调度按需迁移。经测试,最优配置下可将约100B参数转移至系统内存,约等于释放200GB高端显存资源。 从工程应用价值看,这项技术带来多上变化:一是硬件成本下降,替代200GB显存资源相当于减少近8万美元的HBM显存投入;二是性能损失较小,实测推理速度下降不到3%,基本实现低代价的资源优化;三是与现有量化方案可叠加使用,组合后有望让部分原本需要集群部署的大模型,降低到单机可运行。 值得关注的是,该技术还出现了额外收益。测试显示,优化后的模型在MMLU、BBH等基准上表现更好,长上下文准确率提升13个百分点。研究人员认为,这是因为将静态知识存储与动态计算更清晰地分离后,模型能把更多计算资源用于核心推理过程。 业内专家指出,该技术目前仍难以让消费级硬件直接承载顶级大模型,但约15%的显存优化已具有现实意义。尤其在模型轻量化、边缘计算等场景,这类接近“部署门槛”的改进,往往更容易带来应用上的跃迁。

大模型落地进入深水区,竞争焦点正从“参数规模”转向“单位成本下的可用性能”;Engram的启示在于:显存优化未必需要“一步到位”,即便只表达出一部分空间,也可能在工程上跨过部署门槛,改变成本与性能的平衡。面对新技术热度,更需要以模型结构与系统约束为依据,既不夸大也不低估,在理性评估中推动关键环节持续迭代。