人类最后一次考试，想把ai给难倒

专家们联手出了一套特别难的测试题，叫“人类最后一次考试”，想把 AI 给难倒。这个考试由上千位学者用了好几个月时间，从几万道题里挑出 2500 道来，每道题只有一个正确答案。题太难了，就连 GPT-4o 也只拿到 2.7%，Claude 3.5 的 Sonnet 版才勉强拿了 4.1%，OpenAI 最强的 o1 模型也只有 8%。这次考试把 Nature 上的人都震惊了。在这一轮挑战中，最强的模型 Gemini 2.5 Pro 拿到了 21.6%，GPT-5 拿到了 25.3%。虽然分数不算高，但暴露了两个问题：第一个是过度自信。很多模型在答错的时候还以为自己有 80% 以上的信心。第二个是时间悖论。推理模型想的时间越久，正确率反而先升后降，最后把自己绕晕了。这套题涵盖了数学、物理、化学、历史、语言和医学六大领域。比如古罗马墓碑翻译题就需要同时懂古闪米特语、考古学和历史学才能搞定。还有蜂鸟解剖题，籽骨藏在肌肉腱膜里的位置，答案必须精确到数字才行。数学抽象题也很难，连数学系本科生都觉得劝退。过去 AI 考试成绩一直在三四十分徘徊，直到 2023 年 GPT-4 冲到了 86 分，现在开源模型甚至超过了 90 分。但这不是好事，因为现有的基准测试失效了。HLE 就是为了卡住这个天花板的。如果 AI 在这个考试中能拿 90%，那它就有专家级学术能力了。不过现在看来，25% 的及格线都还没到呢。这个考试让大家看清了 AI 的短板：数学和计算机稍微好点，抽象代数和算法逻辑还行；历史和语言就惨不忍睹了，时间线记忆和语境细微差别都是大问题；专业知识深度也不够，只能靠大数据堆砌，缺乏真正的理解力。未来任何模型要想“毕业”，先得去 lastexam.ai 上报分。25% 是及格线也是安全线。低于这个线别急着吹超越人类；高于这个线也别盲目乐观——毕竟历史和语言板块还是重灾区。出题人之一阮东教授说：“我们造的不是神，而是一面镜子；镜子照出的是 AI 的局限，也是人类的底线。”