大模型比拼2026年3月榜单,小米集团包揽前三

大模型的比拼到了2026年3月已经非常激烈,今天咱们就来看看这份成绩单。22款顶尖模型参加了这次考试,特别是Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)和OpenAI的GPT-5.4(xhigh),它们在总分上还是稳居前三甲。不过真正让人惊喜的是中国的表现,字节跳动的豆包大模型直接冲到了71.53分,成了国内第一,甚至排在了全球前列。这个分数跟GPT-5.4相比只差了不到一分,说明中国的模型在综合能力上已经跟全球最顶尖的水平差不多了。特别是在智能体任务规划这种考验逻辑的地方,豆包更是直接反超了不少海外模型,冲进了前五。 除了字节跳动,小米集团这次也表现不错。他们的MiMo-V2系列两款模型都进了榜单。那个叫MiMo-V2-Pro的模型得了60.67分,在闭源模型里算是很厉害的了。而且它在数学推理上拿了84.03分,这个单科成绩非常亮眼。它的轻量级开源版MiMo-V2-Flash虽然总分没那么高,但在代码生成这些细分领域也有潜力。 这次测评里的开源模型更是把海外选手甩在了后面。Kimi-K2.5-Thinking和Qwen3.5-397B-A17B-Thinking等国产选手包揽了前三名。无论是闭源还是开源赛道,“中国力量”都展示了很强的硬实力。SuperCLUE的这份3月榜单不光是成绩单,更是给大家看的宣言书:中国大模型现在已经能全方位撼动旧秩序了。