我国科研团队突破智能计算瓶颈 专用芯片能效比提升超200倍

当前,个性化推荐、图像分析与信息聚类等智能服务快速普及,背后依赖计算系统在海量数据中进行高频迭代与实时决策。

随着模型规模扩大与数据量持续增长,传统数字芯片在速度提升与能耗控制之间的矛盾日益突出:一方面,串行或有限并行的数字计算在处理某些迭代型优化任务时耗时较长;另一方面,数据在存储与计算单元之间频繁搬移带来额外能耗,成为制约实时智能应用的重要瓶颈。

如何在保证精度的同时,提高特定任务的吞吐并降低能耗,成为新型计算架构的重要攻关方向。

从原因看,机器学习中大量核心算法属于约束优化或矩阵分解类问题,计算流程往往包含重复的矩阵乘加、归一化与迭代更新,数据路径长、访存密集。

以非负矩阵分解为例,它常用于从复杂数据中提取潜在特征结构,可应用于用户行为分析、图像像素拆解、主题发现等场景。

该方法需要同步求解两个矩阵并持续迭代,计算链条繁复,若完全依赖传统数字芯片的通用流水线,容易出现“算得动但算不快、算得快但能耗高”的矛盾,进而影响推荐系统训练与推理的时效性。

针对上述痛点,北京大学孙仲研究员团队将突破口放在模拟计算与存算融合方向,研制出基于阻变存储器阵列的非负矩阵分解模拟计算求解器,并形成专用硬件加速方案。

与通用数字芯片“一个架构应对多类任务”的思路不同,该方案面向特定核心计算步骤进行电路与算法协同设计,在阻变存储器阵列上构建紧凑模拟电路,并通过电导补偿等关键技术降低器件非理想因素带来的误差,使部分核心计算在硬件层面实现更高效的并行求解,进而在面积与功耗上取得优势。

相关成果发表于国际期刊《自然·通讯》。

从影响看,实验室原型系统的多组测试显示,该模拟求解器能够完成彩色图像的高质量分解,信噪比损失很小;在电影推荐数据集训练任务中,精度与数字芯片方案基本接近。

系统级评估进一步显示,在面向网飞规模数据集的推荐系统训练任务中,其计算速度较先进数字芯片提升约12倍,能效比提升超过228倍。

对行业而言,这一指标组合意味着在同等能耗预算下可支撑更高强度的训练与更新频率,或在同等性能目标下显著压降能耗与散热压力,为大规模在线服务的成本控制与响应速度提升提供了新可能。

从对策层面看,此类专用模拟计算芯片的价值不仅在于单点性能提升,更在于为“面向任务定制的计算架构”提供可复用的方法论:一是围绕高频核心算子进行硬件加速,减少冗余控制与数据搬运;二是加强器件、电路与算法协同,建立对误差、漂移等非理想因素的系统性补偿机制;三是推动原型系统向工程化演进,在可制造性、稳定性、寿命与一致性等指标上补齐短板,同时与现有数字系统形成异构协同,探索更易部署的软硬件栈与接口标准。

只有在可靠性与可规模化上取得进展,才能将实验室优势转化为产业应用的持续能力。

从前景判断看,随着智能应用向实时化、端侧化和低碳化方向发展,专用加速与新型架构的需求将持续上升。

非负矩阵分解等约束优化问题在推荐、图像、信号处理及科学计算等领域仍具广泛基础,若能在更多算法家族中形成可验证、可扩展的模拟求解框架,将有望拓展到更丰富的智能训练与推理场景。

同时,算力竞争正从单纯追求峰值性能转向“性能—能耗—成本”的综合比拼,高能效专用计算架构在数据中心降耗、边缘智能部署和绿色算力体系建设中具有潜在战略意义。

随着后续研究深化与产业化推进,此类技术有望在关键应用领域形成示范效应,并为我国在下一代智能计算关键技术上积累先发优势。

当今世界,算力已成为推动经济社会发展的战略性资源。

我国科研团队在新型计算芯片领域取得的这一突破,既是对传统计算架构的创新超越,也是对人工智能时代挑战的积极应对。

从通用芯片向专用芯片的转变,从数字计算向模拟计算的探索,体现了我国科研工作者在关键核心技术上的执着追求。

随着更多创新成果的涌现和产业化的推进,我们有理由相信,中国在智能计算领域的技术优势将不断巩固和提升。