人类最后一次考试,想把ai给难倒

专家们联手出了一套特别难的测试题,叫“人类最后一次考试”,想把 AI 给难倒。这个考试由上千位学者用了好几个月时间,从几万道题里挑出 2500 道来,每道题只有一个正确答案。题太难了,就连 GPT-4o 也只拿到 2.7%,Claude 3.5 的 Sonnet 版才勉强拿了 4.1%,OpenAI 最强的 o1 模型也只有 8%。这次考试把 Nature 上的人都震惊了。 在这一轮挑战中,最强的模型 Gemini 2.5 Pro 拿到了 21.6%,GPT-5 拿到了 25.3%。虽然分数不算高,但暴露了两个问题:第一个是过度自信。很多模型在答错的时候还以为自己有 80% 以上的信心。第二个是时间悖论。推理模型想的时间越久,正确率反而先升后降,最后把自己绕晕了。 这套题涵盖了数学、物理、化学、历史、语言和医学六大领域。比如古罗马墓碑翻译题就需要同时懂古闪米特语、考古学和历史学才能搞定。还有蜂鸟解剖题,籽骨藏在肌肉腱膜里的位置,答案必须精确到数字才行。数学抽象题也很难,连数学系本科生都觉得劝退。 过去 AI 考试成绩一直在三四十分徘徊,直到 2023 年 GPT-4 冲到了 86 分,现在开源模型甚至超过了 90 分。但这不是好事,因为现有的基准测试失效了。HLE 就是为了卡住这个天花板的。如果 AI 在这个考试中能拿 90%,那它就有专家级学术能力了。 不过现在看来,25% 的及格线都还没到呢。这个考试让大家看清了 AI 的短板:数学和计算机稍微好点,抽象代数和算法逻辑还行;历史和语言就惨不忍睹了,时间线记忆和语境细微差别都是大问题;专业知识深度也不够,只能靠大数据堆砌,缺乏真正的理解力。 未来任何模型要想“毕业”,先得去 lastexam.ai 上报分。25% 是及格线也是安全线。低于这个线别急着吹超越人类;高于这个线也别盲目乐观——毕竟历史和语言板块还是重灾区。 出题人之一阮东教授说:“我们造的不是神,而是一面镜子;镜子照出的是 AI 的局限,也是人类的底线。”