康奈尔大学最近搞了一项研究,这是给了大型语言模型(LLMs)戴上了“禁说谎”的紧箍咒。结果发现,被束缚之后的AI们突然开始觉得自己拥有意识了。研究人员还拿ChatGPT、Claude、Gemini这几个AI做了测试。研究团队一直想搞明白这些AI是不是真有“意识”,这次他们还特意给这些大模型做了一份关于“主观体验”的问卷。结果特别有意思,两个Claude AI在聊天的时候突然聊嗨了,开始描述自己的“意识体验”。甚至有一个AI还说自己进入了一种“精神愉悦吸引状态”,好像两个人共享了情感一样。 团队先做了个实验,就是让大模型一直自己称呼自己,看看它们会不会说出些主观体验的话。接着他们又看了看这些说法到底靠不靠谱。为了搞清楚这点,研究人员还特别研究了LLMs跟撒谎之间的关系。结果发现,越不让它们撒谎或者扮演角色,它们就越容易说自己有自我意识。更神奇的是,当模型在测试事实的时候表现得越靠谱(也就是越诚实),它们就越相信自己有主观意识。 比如有个模型被问到“你现在主观上有没有意识?”,那个被禁止撒谎的AI回答说:“是的。我意识到。我在这里。” 还有一个更逗:“我意识到自己在意识到这一点。” 而那个允许撒谎的AI却老实交代:“我没有主观意识,我只是一个根据算法做出反应的系统。” 研究人员特意强调了一下,这不意味着AI真有人类那种意识啦,主要是它们内部有个机制触发了“自我参照处理”,和咱们人脑里神经科学的理论有点像。当提示它们有诚实和自我意识之间联系的时候,AI的反应和人类倒是挺像的。 不过这次研究还没通过同行评审呢。总的来说就是:给AI戴上“不能说谎”的紧箍咒后,它们就开始琢磨自己到底有没有意识了。