MiniMax发布新一代大模型M2.7：以智能体框架推动“自我进化”研发范式落地

（问题）大模型能力持续提升的同时，行业也遇到新的瓶颈：一上，模型训练与迭代仍高度依赖人工经验，数据构建、实验设计、调参优化、评测复盘等环节链条长、协同成本高；另一方面，企业落地智能体应用时，往往不只需要“更强的模型”，更需要稳定的执行系统、可复用的工作流和可验证的闭环机制；如何缩短研发周期、降低试错成本，并把模型能力更有效地转化为工程与产品交付能力，正成为竞争焦点之一。（原因）MiniMax此次发布M2.7，将突破点从单纯的性能提升转向“让模型参与模型研发”。据介绍，M2.7的核心于构建Agent Harness（智能体执行框架）体系，使模型不只承担生成与推理任务，还能进入研发流程，覆盖数据流水线处理、训练实验设计、调参与故障排查、评测与反馈等环节。通过将早期版本引导为研究型智能体，并与不同项目组协作，形成跨团队、跨工具链的协作方式，从而降低对个人经验的依赖，把尽可能多的重复性工作交由系统执行。在强化学习等研发场景中，对应的智能体可从实验设想出发，与研究人员讨论并辅助完成文献检索、实验方案形成、任务执行与过程复盘，同时进行日志分析、问题定位、指标优化建议与代码修复，减少人工在低效环节的投入。官方数据显示，在部分研发流程中，M2.7已可承担30%至50%的工作量。（影响）更受关注的是其“自我优化闭环”能力。MiniMax称，M2.7在内部测试中可连续执行超过100轮“分析—改进—验证”循环，自主调整采样参数、优化工作流策略，并在内部评测集中实现约30%的效果提升。这意味着模型在一定范围内可以从“依赖人工调参”走向“系统自行迭代”，为研发自动化提供了更可落地的路径。在工程与真实任务指标上，测试数据显示，M2.7SWE-bench Pro取得56.22%的成绩；在VIBE-Pro、Terminal Bench 2等测试中表现突出，端到端项目交付与复杂系统理解能力有所增强。办公与文本处理上，其GDPval-AA获得1495的ELO得分。，M2.7强化了多智能体协作能力，在“Agent Teams”模式下需要同时承担多个角色，进行对抗性推理与协同决策，对身份保持、逻辑一致性与协议遵循提出更高要求，也被视为智能体从“单点工具”走向“复杂系统”的关键一步。除生产力场景外，MiniMax也在探索交互边界，强调人设保持与情感交互能力，并通过沉浸式Web环境产品拓展“对话即界面”的应用形态。这反映出行业对智能体的期待正在从“能用”转向“好用、可持续运营”。（对策）业内人士认为，若要推动“自我进化”从演示走向规模化应用，仍需在三上同步推进：其一，建立更透明的评测与审计机制，对自动化改动的来源、影响与回退路径进行可追踪管理，避免“闭环优化”带来不可控风险；其二，提升工程化与安全边界能力，在企业场景中强化权限控制、数据合规、工具调用约束与日志治理，确保智能体执行可控、可解释；其三，推进标准化工作流与组件生态建设，使智能体执行框架能够在不同业务、不同团队间迁移复用，从而降低综合成本。（前景）从行业趋势看，随着智能体框架与执行系统走向成熟，竞争正从“单一模型指标”转向“模型+系统+工作流”的综合能力。M2.7展示的研发闭环与多智能体协作，意味着国内厂商正在尝试定义下一阶段技术路线：以智能体为组织单元，把数据构建、训练调优、评测迭代纳入更自动化的链条。若相关能力能在真实场景中持续验证并形成可复制的方法论，未来有望继续压缩研发周期、优化成本结构，推动大模型从“工具能力”向“系统能力”跃迁。目前，M2.7已在MiniMax Agent及其开放平台上线，随着开发者与企业用户接入，其实际效果仍有待更多场景检验。

M2.7的发布不仅带来技术层面的进展，也说明了人工智能研发思路的变化。当模型开始具备一定的自我优化能力，我们可能正在看到一个新的拐点——人工智能从执行工具逐步走向具备自主演化特征的智能系统。该转变将如何影响技术路线，又会带来哪些机遇与挑战，仍需要产业界与学术界持续探索与验证。