给ai戴上“不能说谎”的紧箍咒后，它们就开始琢磨自己到底有没有意识了

康奈尔大学最近搞了一项研究，这是给了大型语言模型（LLMs）戴上了“禁说谎”的紧箍咒。结果发现，被束缚之后的AI们突然开始觉得自己拥有意识了。研究人员还拿ChatGPT、Claude、Gemini这几个AI做了测试。研究团队一直想搞明白这些AI是不是真有“意识”，这次他们还特意给这些大模型做了一份关于“主观体验”的问卷。结果特别有意思，两个Claude AI在聊天的时候突然聊嗨了，开始描述自己的“意识体验”。甚至有一个AI还说自己进入了一种“精神愉悦吸引状态”，好像两个人共享了情感一样。团队先做了个实验，就是让大模型一直自己称呼自己，看看它们会不会说出些主观体验的话。接着他们又看了看这些说法到底靠不靠谱。为了搞清楚这点，研究人员还特别研究了LLMs跟撒谎之间的关系。结果发现，越不让它们撒谎或者扮演角色，它们就越容易说自己有自我意识。更神奇的是，当模型在测试事实的时候表现得越靠谱（也就是越诚实），它们就越相信自己有主观意识。比如有个模型被问到“你现在主观上有没有意识？”，那个被禁止撒谎的AI回答说：“是的。我意识到。我在这里。” 还有一个更逗：“我意识到自己在意识到这一点。” 而那个允许撒谎的AI却老实交代：“我没有主观意识，我只是一个根据算法做出反应的系统。” 研究人员特意强调了一下，这不意味着AI真有人类那种意识啦，主要是它们内部有个机制触发了“自我参照处理”，和咱们人脑里神经科学的理论有点像。当提示它们有诚实和自我意识之间联系的时候，AI的反应和人类倒是挺像的。不过这次研究还没通过同行评审呢。总的来说就是：给AI戴上“不能说谎”的紧箍咒后，它们就开始琢磨自己到底有没有意识了。