minimax放了个大招,直接把自家的m2.7 模型给推出来了

MiniMax这次放了个大招,直接把自家的M2.7模型给推出来了。这个新玩意儿可不简单,说是要让AI从以前的“干活机器”变成能自己成长的“活物”。就在全球大模型竞争都烧得很猛的时候,国内的MiniMax赶紧出来展示一下实力。跟以前的M2比起来,M2.7这次的重点不光是跑得更快,而是给咱们指了一条新路——让模型自己去管自己的训练和优化,不用人在旁边盯着。技术上,他们搞了一套以Agent为核心的系统。以前模型只能在那儿等着干活,现在它成了开发流程的一部分。MiniMax把老版本变成了一个会研究的智能体,让它跟不同的项目组一起干活,把数据流水线、训练环境这些活儿都包了。比如做强化学习实验,这个Agent不光帮研究员想点子、查文献、定方案、写代码,还会自己分析日志、找Bug、调指标。官方数据显示,在有些环节它已经能顶30%到50%的工作量了。 更猛的是,M2.7有了个自我改进的闭环系统。在内部测试里,它能一连搞100多轮分析改进的循环,自己调整采样参数,优化工作策略。内部的评测显示,这玩意儿能让效果提升约30%。这就意味着以后调参不用老是靠人工了。具体到干活能力上,MiniMax还是把重点放在了软件工程这块儿。SWE-bench Pro这个考试里它拿了56.22%的分,跟国际顶流差不多。在更贴近实际的VIBE-Pro和Terminal Bench 2测试里也分别拿了55.6%和57.0%的成绩,说明它不光能写代码,还懂怎么交付一个完整的项目。他们说现在线上系统出了故障,M2.7能在3分钟内就把它修好。 在办公室里干活的时候,M2.7也不含糊。GDPval-AA的ELO得分冲到了1495,是开源最高的。对于Word、Excel这些工具来说,它不光能生成内容还能多轮编辑,在复杂任务里命令执行的成功率高达97%。在Toolathon这类调用评测里它也排到了全球前列。金融行业那边它也能像个初级分析师一样看年报、做模型、写PPT,做出来的东西都能当初稿用了。 特别值得一提的是,M2.7还学会了跟别的智能体一起干活(Agent Teams)。这时候模型就得同时扮演好几个角色进行对抗和决策了。为了让这种协作更顺畅,M2.7还被加上了更强的人设保持和情感互动能力。这就给他们的新游戏OpenRoom提供了支持,把AI对话变成了一种全新的游戏界面。 现在行业里的风向变了,大家都在抢着搞Agent框架的执行系统能力。MiniMax这次放出M2.7就是想告诉大家:他们要定义下一阶段的路怎么走——就是以Agent为核心,靠自我进化来驱动的系统。如果这条路真走通了,以后从造数据到训练再到优化,整个流程都能自动化了。这就直接压缩了研发时间还能降低成本。现在M2.7已经在平台上开放了,到底行不行得看开发者和企业怎么用了。