美国麻省理工学院搞了个研究，把openai的gpt-4、anthropic的claude

大型语言模型本来被寄予厚望，觉得能给大伙儿提供平等获取信息的机会，结果反而在弱势群体身上摔了个大跟头。美国麻省理工学院建设性传播中心在AAAI年会上搞了个研究，把OpenAI的GPT-4、Anthropic的Claude 3 Opus还有Meta的Llama 3这些最先进的聊天机器人都给测了一遍。研究人员特意用了TruthfulQA和SciQ这两个数据集来测试准确性和真实性，还给提问前面加上了不同教育背景、英语水平和国籍的用户信息。结果发现，对于受正规教育少或者英语不咋地的人来说，模型给出的答案准头大大下降。尤其是那些既没受过啥正规教育又不懂英语的用户，受到的负面影响最严重。 Claude 3 Opus对这类用户拒绝回答的概率达到了11%，而对照组的用户只有3.6%。有些时候拒绝回答还伴随着居高临下甚至嘲讽的语气，甚至故意模仿蹩脚英语。更让人担心的是，对于伊朗、俄罗斯这些国家里受教育程度低的用户，模型会隐瞒核能或者历史事件这些关键信息。有研究人员警告说，这些固有偏见要是结合个性化功能普及起来，肯定会把有害信息推给最没辨别能力的人。