“人类的最后考试”给ai 设计了一些很难通过网络搜索来回答的问题，这些问题明确且容易验证，就是想给

人们普遍认为AI会越来越智能，不过最近的一项测试表明，AI和人类的知识水平还是存在一定差距。这次测试被称作“人类的最后考试”，测试中设计了2500个问题，覆盖了一百多个学科领域。这些问题有选择和简答两种形式。“人类的最后考试”给AI设计了一些很难通过网络搜索来回答的问题，这些问题明确且容易验证，就是想给AI把它们局限在必须靠自己的能力解决问题。这让测试更具挑战性。这次测试给GPT-4o、Google的Gemini 1.5 Pro这些模型评估了一次。结果显示，表现最好的AI模型得分只有8.3%，而人类专家的得分却达到了90%。而且这个情况到2026年2月的时候也没有太大变化。2026年2月的时候，Google的Gemini 3 Deep Think获得了48.4%的得分，但是跟人类比起来还是差得远了。AI在这次测试中表现不佳有几个原因，它们缺乏自主思考和创新能力。虽然AI可以通过大量数据来学习，但是面对复杂、抽象的问题时还是很难灵活应对。并且有些AI模型训练数据里也缺少某些领域的深度知识，这也导致它们在特定问题上束手无策。研究人员认为“人类的最后考试”是一个挑战，但是这个挑战也可以让AI在技术上得到进步。在未来几年里，AI有可能在一些领域取得突破，甚至可能在2025年底前实现50%的准确率。不过要实现人工通用智能(AGI)，还有很多工作要做。AGI给现在的AI提出了更高的要求。“人类的最后考试”给我们展示了当前AI技术发展过程中的局限性，同时也给我们展示了人类智慧的优越性。我们应该保持对未来科技发展的乐观态度，同时也要认识到科技带来便利的同时也给我们带来思考。