问题:大模型从“能答题”到“能干活”仍存断点 近年来,大模型对话、写作、基础代码生成等场景迅速普及,但进入企业真实工作流后,依然普遍遇到“长链路任务不稳定、需要频繁人工介入、难以持续推进到可交付成果”等问题。尤其在软件工程、数据检索系统优化、复杂项目管理等场景中,任务往往包含计划拆解、工具调用、反复迭代、错误定位与修复等环节。如果模型无法在较长时间尺度内保持目标一致和执行稳定,就难以真正进入生产流程,更多仍停留在“助手”而非“执行者”。 原因:行业标准从榜单转向“续航与闭环”,工程化能力成为关键变量 智谱在此次发布中将“能独立工作多久”作为衡量新一代模型的重要指标,称GLM-5.1可在一次任务中持续运行超过8小时,完成规划、执行、定位瓶颈并迭代优化,形成工程级交付。业内观察认为,模型竞争正从单轮问答准确率、通用评测分数,转向“长程任务”下的稳定性与闭环能力: 一是任务链路更长,对上下文记忆、工具调用一致性和错误恢复能力提出更高要求; 二是企业更看重端到端产出,例如代码可运行、系统可维护、效率可量化; 三是随着模型规模、数据与训练方法迭代,领先优势越来越取决于工程体系、评测体系与产品化能力的综合效果,而非某一项单点指标。 影响:技术突破叠加商业调整,产业竞争逻辑出现新拐点 据智谱披露,GLM-5.1在衡量专业软件开发能力的SWE-bench Pro等基准测试中取得进展;在面向海量数据检索系统的编程测试中,也通过对大量操作步骤的自动化优化,实现运行效率提升。若对应的能力在更多场景中得到验证,可能带来三上影响: 其一,企业用模门槛下降。长程任务能力增强后,模型可承担从需求拆解到迭代修复的更多环节,减少“人工盯改”的成本,让中小团队也有机会获得接近“大团队工具链”的效率。 其二,应用形态升级。模型从“回答问题”走向“执行任务”,将推动研发、运维、数据治理等流程重构,并带动平台工具、插件生态、评测与合规体系加快完善。 其三,价格与价值重新对齐。智谱表示已上调相关服务价格,并认为低价竞争不利于行业长期发展。,云服务端也出现价格上调的共振,多家云厂商相继调整AI算力与相关产品价格区间。综合来看,模型能力提升、推理与训练成本仍较刚性、企业对稳定交付要求上升的背景下,“性能溢价、价值定价”或将逐步取代早期的“低价换量”。 对策:以可验证的能力指标、可控的成本结构与可持续生态应对竞争 专家建议,模型厂商与云服务企业在进入“价值定价”阶段时,应同步夯实三上基础工作: 一是建立更贴近产业的评测与验收机制。除通用榜单外,应面向研发、金融、制造、政务等行业构建可复现的长程任务评测,形成“可对比、可复核、可追责”的能力证明。 二是优化成本结构与交付体系。在价格上调背景下,更需要通过算子优化、推理加速、混合部署与资源调度提升单位算力产出,向客户提供可量化的投入产出比,并完善SLA、数据安全与权限管理等企业级能力。 三是推动开源与生态协同。开源有助于加速应用创新与安全审计,但也对治理提出更高要求。应通过版本管理、风险评估、使用规范与漏洞响应机制,推动“开放”与“可控”并行,降低安全与合规风险。 前景:长程任务能力或成下一阶段“分水岭”,产业将加速走向深水区竞争 从全球趋势看,大模型竞赛正在从“参数规模与单点能力”转向“长链路任务、工具使用与工程交付”的综合比拼。市场对“任务完成时间线”的关注度上升,反映出企业对模型自主执行能力的迫切需求。可以预期,未来一段时间,具备更强长程任务稳定性、更高可靠性与更低单位成本的模型,更容易进入企业关键系统;同时,算力、数据、工具链与行业知识的耦合度将继续提高,推动产业从“产品竞赛”走向“体系竞赛”。
从比拼榜单到比拼“持续交付”,从价格战到价值定价,大模型产业正在进入更强调真实生产力的阶段。能否在长时间、强约束、可审计的任务链中稳定产出,将决定技术红利能走多远。把能力做实、把标准立稳、把生态建强,才能让模型“工作更久”转化为产业“走得更远”。