中国信通院启动"方升"3.0体系 构建人工智能产业评测新标准

当前,全球人工智能正从能力快速迭代阶段转向产业化深耕阶段。

大模型在政务、金融、制造、教育等场景加速渗透的同时,也暴露出“能做什么、做得多好、成本多高、风险多大、是否可持续”等关键问题。

如何用一套公开、可复核、可对比的评测框架,为技术进步与产业落地提供共同语言,成为行业普遍关切。

问题方面,大模型评价长期存在三类突出矛盾:一是能力边界不清,模型在不同任务、不同数据条件下表现差异明显,单一指标难以刻画真实水平;二是落地可用性不足,许多测试停留在“答题式”比拼,难以反映真实业务流程中对工具链、可靠性、成本与协同的综合要求;三是评测口径分散,不同机构、不同榜单的测试集、评分规则与复现条件不一致,导致结果难以横向比较,既影响企业选型,也增加了重复投入和试错成本。

原因在于,大模型系统复杂度显著提升,评测对象已从“模型本体”扩展到数据、推理框架、算力资源、工具调用、部署方式及安全治理等完整链条;同时,应用场景高度多元,不同行业对准确性、时效性、可解释性、合规与成本约束的权重各不相同。

再加之技术迭代快、版本更新频繁,如果缺少稳定的基准与持续监测机制,产业很难形成可持续的比较体系与改进闭环。

影响层面,缺乏“统一标尺”会带来三方面后果:对企业而言,模型选型与采购评估缺少硬依据,容易陷入“参数竞赛”或“演示导向”;对行业而言,标准不统一会阻碍上下游协同,影响工具、数据、算力与应用的匹配效率;对监管与治理而言,风险评估、合规评测和责任边界难以量化,进而影响技术在关键领域的规范化落地。

针对上述痛点,中国信通院依托“方升”大模型测试体系持续迭代,最新版本提出覆盖基础属性、通用能力、应用能力、行业能力及未来智能等维度的综合评估框架,并形成常态化的结果发布与监测机制。

据介绍,该体系已沉淀大量测试数据,通过动态、自适应的测试方法,把推理成本、通用能力对标、智能体工作流、垂直行业适配以及面向更高阶智能的前瞻指标纳入同一框架之中,力求推动评测从“技术验证”走向“产业赋能”。

此次“方升”智测研讨会将以“1+6”形式组织,除主研讨会外,还将围绕更高阶智能、全模态与世界模型、智能体、代码能力、数据集质量、行业大模型等方向开展专题闭门研讨,聚焦评测工具链构建、自动化测试方法等关键议题。

会议还将推动建立面向金融、制造、教育等领域的“人工智能+行业”专属基准测试体系,意在以更贴近业务的指标与数据集,提升评测的公平性、可比性与可落地性。

对策方面,推动大模型产业健康发展,需要形成“标准—工具—生态”协同路径:其一,建立覆盖模型能力、系统性能、成本效率与安全合规的综合评价框架,避免“一张榜单”替代多维事实;其二,完善评测工具链与复现机制,强调数据来源、测试条件与评分规则的透明化,提高结果可验证性;其三,围绕重点行业共建专属基准,吸纳产业链上下游共同参与,缩短从评测到应用的距离;其四,形成持续监测机制,适应模型快速迭代特点,促使企业在真实约束条件下持续优化。

前景来看,随着大模型在关键行业加速落地,评测体系的作用将从“技术比拼”进一步转向“产业基础设施”。

一方面,更科学的基准有助于引导研发资源投向真实需求,推动从“堆参数”转向“提质量、降成本、控风险”;另一方面,行业基准的建立将促进供需对接与生态协作,为工具、数据、算力、应用之间的标准化接口与协同创新创造条件。

可以预见,围绕评测体系形成的共识与规范,将成为我国推动人工智能规模化应用、提升产业竞争力的重要支撑。

人工智能技术的产业化发展离不开科学、规范的评测体系支撑。

"方升"智测研讨会的召开,标志着我国在人工智能标准化建设方面迈出重要一步。

这不仅有助于提升我国在全球人工智能领域的话语权,也将为千行百业的数字化转型提供有力支撑。

未来,随着评测体系的不断完善,人工智能技术必将在更广阔的领域发挥更大价值。