智能技术迈入执行新阶段专业领域人机协作格局面临重塑

一、技术突破：从"会说话"到"会干活" 长期以来，公众对人工智能的印象多停留对话助手：用户提问，系统回答，交互主要停在文字层面。如今，新一代技术正在改变该模式。OpenAI近期推出的新一代前沿模型，被其定位为面向专业工作场景能力与效率领先的模型之一。更关键的变化在于：模型把“计算机操作”作为原生能力整合进系统，而不是依赖外部插件或独立模块。系统可通过截图识别屏幕状态，并模拟鼠标、键盘完成文件管理、网页浏览、办公软件操作以及多应用协同等任务，过程可在较少人工干预下推进。在业内较受认可的计算机操作评测基准OSWorld-Verified上，该模型以75%的任务成功率，首次超过72.4%的人类平均水平。其意义不止于“超过”，更在于表明：在部分操作型任务上，人工智能执行能力已接近甚至优于普通职场人员的水平。在另一项评估中，该模型在83%的任务上达到或超过同领域人类专家表现，尤其在金融建模、演示文稿生成、法律文书撰写等场景更为突出。该评估并不考察问答能力，而是将模型成果与人类专家成果并列，由同职业专家盲审比较，更贴近真实工作标准。二、背景分析：智能体赛道的范式转移这次进展并非个例，而是行业整体转向的一部分。今年初，清华大学举办的人工智能前沿峰会提出，大模型竞争正从“对话”阶段迈向“智能体”阶段，自主执行能力将成为下一阶段竞争的关键，这一判断正在被市场快速验证。另外，自主智能体项目OpenClaw在全球范围内迅速走红。其理念是系统不仅能理解指令，还能自行判断、规划路径并完成任务，被视作个人智能体的重要探索。今年3月，这一目在全球最大的开源代码托管平台上获得超过24万颗星，登顶榜首，超过多个长期占据前列的基础开源项目。随后，OpenAI将该项目创始人纳入团队，推进下一代个人智能体研发，外界普遍将其视为对智能体方向的明确加码。有开发者指出，新发布模型的多项能力——包括原生计算机操控、超长上下文处理，以及工具调用带来的成本下降——与OpenClaw此前遇到的关键瓶颈高度契合，二者的协同效应已开始显现。三、产业影响：国内企业加速跟进这一趋势在国内也迅速传导。腾讯旗下安全工具产品已上线面向普通用户的智能助手功能；火山引擎推出开箱即用的云端智能体服务，把原本门槛较高的智能体能力以标准化产品形式提供给企业用户。上海人工智能研究院技术中心主任林圆圆表示，当前人工智能迭代速度很快，“每天都有新变化”，一次重要更新就可能带来格局调整。密集的产品与技术更新，也反映出全球科技企业在智能体赛道上的紧迫感。四、客观审视：能力边界不容忽视但在关注突破的同时，也需要保持审慎。从多项评测数据看，新一代前沿模型在专业工作场景中的表现突出，但边界同样明确：在编程能力上落后于部分竞争对手的同期产品；在科学推理上，也有其他模型更强；在医疗健康等高度专业化领域，甚至出现小幅回落。同时，OSWorld-Verified覆盖的369个任务是在特定条件下构建的标准化场景，与真实职场的复杂性和不确定性仍有差距。因此，单凭评测成绩就推断“智能体将全面取代人类白领”，并不充分。大模型竞争也在进入更明显的差异化阶段：不同系统在不同任务类型上各有优势，单一模型难以在所有维度同时领先。未来的竞争，或将更多取决于场景适配与垂直深耕能力，而不是单纯的综合排名。

当技术从对话走向执行，改变的不只是某次版本更新，更可能是工作流程与组织方式的重新排列。智能体加速进入办公室，既带来效率提升和创新空间，也对安全合规与责任可追溯提出更高要求。以更高质量标准、更稳健治理和更主动的人才转型拥抱变化，才能让技术进步更好服务产业升级与社会发展。

智能技术迈入执行新阶段 专业领域人机协作格局面临重塑

智能技术迈入执行新阶段专业领域人机协作格局面临重塑