中国信通院启动"方升"3.0体系构建人工智能产业评测新标准

当前，全球人工智能正从能力快速迭代阶段转向产业化深耕阶段。

大模型在政务、金融、制造、教育等场景加速渗透的同时，也暴露出“能做什么、做得多好、成本多高、风险多大、是否可持续”等关键问题。

如何用一套公开、可复核、可对比的评测框架，为技术进步与产业落地提供共同语言，成为行业普遍关切。

问题方面，大模型评价长期存在三类突出矛盾：一是能力边界不清，模型在不同任务、不同数据条件下表现差异明显，单一指标难以刻画真实水平；二是落地可用性不足，许多测试停留在“答题式”比拼，难以反映真实业务流程中对工具链、可靠性、成本与协同的综合要求；三是评测口径分散，不同机构、不同榜单的测试集、评分规则与复现条件不一致，导致结果难以横向比较，既影响企业选型，也增加了重复投入和试错成本。

原因在于，大模型系统复杂度显著提升，评测对象已从“模型本体”扩展到数据、推理框架、算力资源、工具调用、部署方式及安全治理等完整链条；同时，应用场景高度多元，不同行业对准确性、时效性、可解释性、合规与成本约束的权重各不相同。

再加之技术迭代快、版本更新频繁，如果缺少稳定的基准与持续监测机制，产业很难形成可持续的比较体系与改进闭环。

影响层面，缺乏“统一标尺”会带来三方面后果：对企业而言，模型选型与采购评估缺少硬依据，容易陷入“参数竞赛”或“演示导向”；对行业而言，标准不统一会阻碍上下游协同，影响工具、数据、算力与应用的匹配效率；对监管与治理而言，风险评估、合规评测和责任边界难以量化，进而影响技术在关键领域的规范化落地。

针对上述痛点，中国信通院依托“方升”大模型测试体系持续迭代，最新版本提出覆盖基础属性、通用能力、应用能力、行业能力及未来智能等维度的综合评估框架，并形成常态化的结果发布与监测机制。

据介绍，该体系已沉淀大量测试数据，通过动态、自适应的测试方法，把推理成本、通用能力对标、智能体工作流、垂直行业适配以及面向更高阶智能的前瞻指标纳入同一框架之中，力求推动评测从“技术验证”走向“产业赋能”。

此次“方升”智测研讨会将以“1+6”形式组织，除主研讨会外，还将围绕更高阶智能、全模态与世界模型、智能体、代码能力、数据集质量、行业大模型等方向开展专题闭门研讨，聚焦评测工具链构建、自动化测试方法等关键议题。

会议还将推动建立面向金融、制造、教育等领域的“人工智能+行业”专属基准测试体系，意在以更贴近业务的指标与数据集，提升评测的公平性、可比性与可落地性。

对策方面，推动大模型产业健康发展，需要形成“标准—工具—生态”协同路径：其一，建立覆盖模型能力、系统性能、成本效率与安全合规的综合评价框架，避免“一张榜单”替代多维事实；其二，完善评测工具链与复现机制，强调数据来源、测试条件与评分规则的透明化，提高结果可验证性；其三，围绕重点行业共建专属基准，吸纳产业链上下游共同参与，缩短从评测到应用的距离；其四，形成持续监测机制，适应模型快速迭代特点，促使企业在真实约束条件下持续优化。

前景来看，随着大模型在关键行业加速落地，评测体系的作用将从“技术比拼”进一步转向“产业基础设施”。

一方面，更科学的基准有助于引导研发资源投向真实需求，推动从“堆参数”转向“提质量、降成本、控风险”；另一方面，行业基准的建立将促进供需对接与生态协作，为工具、数据、算力、应用之间的标准化接口与协同创新创造条件。

可以预见，围绕评测体系形成的共识与规范，将成为我国推动人工智能规模化应用、提升产业竞争力的重要支撑。

人工智能技术的产业化发展离不开科学、规范的评测体系支撑。

"方升"智测研讨会的召开，标志着我国在人工智能标准化建设方面迈出重要一步。

这不仅有助于提升我国在全球人工智能领域的话语权，也将为千行百业的数字化转型提供有力支撑。

未来，随着评测体系的不断完善，人工智能技术必将在更广阔的领域发挥更大价值。

中国信通院启动"方升"3.0体系 构建人工智能产业评测新标准

中国信通院启动"方升"3.0体系构建人工智能产业评测新标准