智能技术迈入执行新阶段 专业领域人机协作格局面临重塑

一、技术突破:从"会说话"到"会干活" 长期以来,公众对人工智能的印象多停留对话助手:用户提问,系统回答,交互主要停在文字层面。如今,新一代技术正在改变该模式。OpenAI近期推出的新一代前沿模型,被其定位为面向专业工作场景能力与效率领先的模型之一。更关键的变化在于:模型把“计算机操作”作为原生能力整合进系统,而不是依赖外部插件或独立模块。系统可通过截图识别屏幕状态,并模拟鼠标、键盘完成文件管理、网页浏览、办公软件操作以及多应用协同等任务,过程可在较少人工干预下推进。 在业内较受认可的计算机操作评测基准OSWorld-Verified上,该模型以75%的任务成功率,首次超过72.4%的人类平均水平。其意义不止于“超过”,更在于表明:在部分操作型任务上,人工智能执行能力已接近甚至优于普通职场人员的水平。 在另一项评估中,该模型在83%的任务上达到或超过同领域人类专家表现,尤其在金融建模、演示文稿生成、法律文书撰写等场景更为突出。该评估并不考察问答能力,而是将模型成果与人类专家成果并列,由同职业专家盲审比较,更贴近真实工作标准。 二、背景分析:智能体赛道的范式转移 这次进展并非个例,而是行业整体转向的一部分。今年初,清华大学举办的人工智能前沿峰会提出,大模型竞争正从“对话”阶段迈向“智能体”阶段,自主执行能力将成为下一阶段竞争的关键,这一判断正在被市场快速验证。 另外,自主智能体项目OpenClaw在全球范围内迅速走红。其理念是系统不仅能理解指令,还能自行判断、规划路径并完成任务,被视作个人智能体的重要探索。今年3月,这一目在全球最大的开源代码托管平台上获得超过24万颗星,登顶榜首,超过多个长期占据前列的基础开源项目。随后,OpenAI将该项目创始人纳入团队,推进下一代个人智能体研发,外界普遍将其视为对智能体方向的明确加码。 有开发者指出,新发布模型的多项能力——包括原生计算机操控、超长上下文处理,以及工具调用带来的成本下降——与OpenClaw此前遇到的关键瓶颈高度契合,二者的协同效应已开始显现。 三、产业影响:国内企业加速跟进 这一趋势在国内也迅速传导。腾讯旗下安全工具产品已上线面向普通用户的智能助手功能;火山引擎推出开箱即用的云端智能体服务,把原本门槛较高的智能体能力以标准化产品形式提供给企业用户。 上海人工智能研究院技术中心主任林圆圆表示,当前人工智能迭代速度很快,“每天都有新变化”,一次重要更新就可能带来格局调整。密集的产品与技术更新,也反映出全球科技企业在智能体赛道上的紧迫感。 四、客观审视:能力边界不容忽视 但在关注突破的同时,也需要保持审慎。从多项评测数据看,新一代前沿模型在专业工作场景中的表现突出,但边界同样明确:在编程能力上落后于部分竞争对手的同期产品;在科学推理上,也有其他模型更强;在医疗健康等高度专业化领域,甚至出现小幅回落。 同时,OSWorld-Verified覆盖的369个任务是在特定条件下构建的标准化场景,与真实职场的复杂性和不确定性仍有差距。因此,单凭评测成绩就推断“智能体将全面取代人类白领”,并不充分。 大模型竞争也在进入更明显的差异化阶段:不同系统在不同任务类型上各有优势,单一模型难以在所有维度同时领先。未来的竞争,或将更多取决于场景适配与垂直深耕能力,而不是单纯的综合排名。

当技术从对话走向执行,改变的不只是某次版本更新,更可能是工作流程与组织方式的重新排列。智能体加速进入办公室,既带来效率提升和创新空间,也对安全合规与责任可追溯提出更高要求。以更高质量标准、更稳健治理和更主动的人才转型拥抱变化,才能让技术进步更好服务产业升级与社会发展。