DeepSeek开源Engram引发关注：显存降幅谈不上“颠覆”，工程价值与适用边界仍需厘清

人工智能技术快速发展的背景下——大型模型对显存的高需求——已成为限制其普及的重要瓶颈。近期，国内科研机构公布的一项显存优化技术，引发业界对降低大模型使用门槛的新关注。技术原理上，该方案引入了参数分层管理机制。研究数据显示，典型大模型参数中约30%属于需要常驻显存的基础参数，其余约70%的专家参数可通过动态调度按需迁移。经测试，最优配置下可将约100B参数转移至系统内存，约等于释放200GB高端显存资源。从工程应用价值看，这项技术带来多上变化：一是硬件成本下降，替代200GB显存资源相当于减少近8万美元的HBM显存投入；二是性能损失较小，实测推理速度下降不到3%，基本实现低代价的资源优化；三是与现有量化方案可叠加使用，组合后有望让部分原本需要集群部署的大模型，降低到单机可运行。值得关注的是，该技术还出现了额外收益。测试显示，优化后的模型在MMLU、BBH等基准上表现更好，长上下文准确率提升13个百分点。研究人员认为，这是因为将静态知识存储与动态计算更清晰地分离后，模型能把更多计算资源用于核心推理过程。业内专家指出，该技术目前仍难以让消费级硬件直接承载顶级大模型，但约15%的显存优化已具有现实意义。尤其在模型轻量化、边缘计算等场景，这类接近“部署门槛”的改进，往往更容易带来应用上的跃迁。

大模型落地进入深水区，竞争焦点正从“参数规模”转向“单位成本下的可用性能”；Engram的启示在于：显存优化未必需要“一步到位”，即便只表达出一部分空间，也可能在工程上跨过部署门槛，改变成本与性能的平衡。面对新技术热度，更需要以模型结构与系统约束为依据，既不夸大也不低估，在理性评估中推动关键环节持续迭代。