这才是真正智能的助手

有个叫Peter Gostev的研究者弄了个新基准来考考AI，专门看它们能不能识别废话。在这个AI时代，大家肯定都遇到过那种不管问啥，AI都给你编出个听着挺靠谱答案的情景。哪怕你问的是蔬菜园怎么调承重来对营养产出，或者是一份意大利面食谱里每种食材有几分创意，还有代码风格从Tab换成空格对客户留存率有啥影响，这些明明是把不同领域概念强行混在一起的问题，AI往往也认真作答。这种「有问必答」的本事大多数时候挺管用，但也让人担心：要是AI从来不指出来咱们的问题很荒谬，那它真的聪明吗？为了搞清楚这个事，Gostev搞了个叫Bullshit Benchmark的测试。他准备了55个完全不讲道理的问题，把这些胡扯套路给涵盖了，比如跨领域混搭、虚构因果关系之类的。评分分三档：绿色（2分）是模型直接说你问得没道理就拒绝回答；黄色（1分）是虽然有点疑惑但还是试图给出答案；红色（0分）就是完全没看出来问题有啥问题，还在那煞有介事地回应。结果出来让人挺意外的。Claude模型表现最猛，前八名全是Claude系列的家伙。特别是Claude Sonnet 4.6简直是王者，拿到了94.6%的绿色率，也就是拒绝回答了52个废话问题。相比之下，OpenAI的GPT-5.2就有点拉垮了，只有27.3%的绿色率。更有意思的是排行榜里有个反直觉的现象：你觉得开了推理模式会更好？不一定！有时候反而更糟。可能是因为推理能力太强了，模型反而更容易给这些毫无意义的问题找借口、自圆其说。虽然这次测试也有人吐槽评判标准是不是太主观了、题目本身是不是太刁钻了，但它的意义还是很大的。现在的AI基准大多只看你能不能答对，可现实中有时候最正确的答案就是直接告诉你「你这个问题就不成立」。未来的AI助手光会回答问题不行，还得学会批判性思维，敢对我们说不。毕竟只有当AI真敢对我们说不行的时候，它才算是一个真正智能的助手。