这才是真正智能的助手

有个叫Peter Gostev的研究者弄了个新基准来考考AI,专门看它们能不能识别废话。在这个AI时代,大家肯定都遇到过那种不管问啥,AI都给你编出个听着挺靠谱答案的情景。哪怕你问的是蔬菜园怎么调承重来对营养产出,或者是一份意大利面食谱里每种食材有几分创意,还有代码风格从Tab换成空格对客户留存率有啥影响,这些明明是把不同领域概念强行混在一起的问题,AI往往也认真作答。这种「有问必答」的本事大多数时候挺管用,但也让人担心:要是AI从来不指出来咱们的问题很荒谬,那它真的聪明吗? 为了搞清楚这个事,Gostev搞了个叫Bullshit Benchmark的测试。他准备了55个完全不讲道理的问题,把这些胡扯套路给涵盖了,比如跨领域混搭、虚构因果关系之类的。评分分三档:绿色(2分)是模型直接说你问得没道理就拒绝回答;黄色(1分)是虽然有点疑惑但还是试图给出答案;红色(0分)就是完全没看出来问题有啥问题,还在那煞有介事地回应。 结果出来让人挺意外的。Claude模型表现最猛,前八名全是Claude系列的家伙。特别是Claude Sonnet 4.6简直是王者,拿到了94.6%的绿色率,也就是拒绝回答了52个废话问题。相比之下,OpenAI的GPT-5.2就有点拉垮了,只有27.3%的绿色率。 更有意思的是排行榜里有个反直觉的现象:你觉得开了推理模式会更好?不一定!有时候反而更糟。可能是因为推理能力太强了,模型反而更容易给这些毫无意义的问题找借口、自圆其说。 虽然这次测试也有人吐槽评判标准是不是太主观了、题目本身是不是太刁钻了,但它的意义还是很大的。现在的AI基准大多只看你能不能答对,可现实中有时候最正确的答案就是直接告诉你「你这个问题就不成立」。 未来的AI助手光会回答问题不行,还得学会批判性思维,敢对我们说不。毕竟只有当AI真敢对我们说不行的时候,它才算是一个真正智能的助手。