深圳建成万卡级智算集群 国产算力实现全栈自主可控新突破

问题——算力需求快速上升与关键环节受制约并存 近年来,大模型训练与行业智能化应用加速落地,带来对高密度算力、稳定供给与低成本运行的迫切需求。一方面,算力成为数字经济与科技创新的重要底座;另一方面,高端芯片、基础软件、集群调度与系统工程能力等领域,仍面临“可用”向“好用”“易用”跨越的现实挑战。如何在复杂应用场景下实现规模化部署、稳定运行与高效训练,成为影响产业发展的关键课题。 原因——以系统工程突破带动全栈协同,形成可控可用的工程路径 深圳此次发布的智算集群以“全栈自主可控”为主要特征,覆盖从底层芯片到上层软件平台的关键链条。其意义不仅在于硬件替代,更在于通过架构设计、软硬协同、运维体系与工程化能力的系统集成,提升整体可用性与经济性。据介绍,该集群在可靠性、训练效率与能耗控制等形成若干工程指标:以较低日故障率保障长时间训练稳定性,通过大模型训练线性度等指标验证规模扩展能力,并采用液冷与自然冷源等节能方案降低能耗水平。业内人士指出——这类系统工程能力的提升——有助于把“单点可用”转化为“整体可用”,把“能跑起来”转化为“跑得稳、跑得省、跑得快”。 影响——为国产算力产业链打开增量空间,带动城市创新与产业升级 从产业层面看,万卡级集群的工程落地意味着国产芯片、服务器整机、网络与存储、调度软件、运维平台等环节有了高强度应用验证场景,可推动产品迭代与生态成熟,降低大规模部署的不确定性。从区域发展看,智算基础设施对人工智能企业集聚、算法创新与行业应用扩展具有明显带动作用,将更强化深圳在智能制造、智慧城市、金融科技、生物医药研发等领域的算力支撑能力。同时,低能耗的数据中心建设方向也为“绿色算力”提供样本,有助于在能耗约束趋严背景下探索可持续发展路径。 对策——以“生态化、标准化、市场化”提升算力供给质量 业内认为,推进国产算力高质量发展,需要从三上发力:一是强化软硬协同与生态建设,围绕主流框架、模型训练工具链、算子库与编译优化等关键环节持续投入,提升开发迁移效率,降低使用门槛;二是推动标准化与可验证体系建设,建立覆盖可靠性、能效、兼容性、安全性与可运维性的评估机制,让算力能力“看得见、测得准、用得稳”;三是完善市场化运营机制,通过算力租赁、按需计费、算力券等方式提高资源利用率,服务中小企业与科研机构,形成“供给—需求—迭代”正循环。同时,应推进网络、存储与数据要素配置,避免“有算力缺数据”“有芯片缺软件”的结构性短板。 前景——国产算力加速从示范走向规模化,但仍需警惕多重风险 随着“东数西算”等工程持续推进,叠加大模型训练与推理需求增长,算力基础设施建设有望从单点示范走向更大范围的复制推广。值得关注的是,产业发展仍面临三类不确定性:其一,技术迭代速度快,关键设备与先进工艺供给存在约束,要求企业持续投入研发与工程验证;其二,国际市场竞争激烈,价格与产品节奏变化可能影响国内供需与成本结构;其三,部分地区存在重复建设隐忧,若缺乏有效需求牵引与运营能力,可能带来资源闲置与投资回报压力。专家建议,地方在推进智算中心建设时,应更加注重“以用定建、以效评建”,把项目绩效、能效水平、利用率与服务能力作为核心导向。

深圳万卡级智算集群的建成,标志着我国在科技自主创新道路上迈出重要一步;这既是技术突破的体现,也是产业链协同的成果。未来,如何在全球化竞争中持续提升核心竞争力,将是国产算力产业面临的关键课题。此突破有望重塑全球算力格局。