微软的大语言模型,让ai 来回多聊几句

这是个挺让人意外的消息。Windows Central 今天发了篇报道,说微软研究院跟 Salesforce 合作做了个研究,结果发现那些现在看着挺厉害的大语言模型,比如 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4,在咱们跟它们聊个长对话的时候,表现越来越“笨”。研究人员用了 15 个顶尖模型,做了超过 20 万次的模拟聊天分析。 数据显示,这些模型在一次性接收指令时成功率能达到 90%,但要是拆分成多轮自然对话,成功率就掉到了大约 65%。它们的核心能力其实只降低了约 15%,但让人吃惊的是,“不可靠性”直接飙升了 112%。说白了就是它们还能解决问题,可在多轮对话里就变得特别不稳定,老是跟不上上下文。 问题出在哪儿呢?首先是“过早生成”。模型在用户还没把需求说完时就急着给答案。一旦第一印象搞砸了,它就会顺着那个错误往下推理,不去纠正。其次是“答案膨胀”,多轮对话里回复变长了,有的长了 20%,甚至高达 300%。回答越长,夹带的假设和“幻觉”就越多。 更让人意外的是,OpenAI 的 o3 和 DeepSeek 的 R1 这种新出的推理模型也没好多少。把温度参数设为 0 想让回答更一致也没用。这说明咱们现在的评估方法有问题。大家老是拿理想状态下的一次性指令来测试,可现实里的对话是慢慢发展的。 对搞 IT 的人来说这是个大挑战。现在看来最有效的办法不是让 AI 来回多聊几句,而是一次性把所有条件和指令都扔进去让它自己算。