微软的大语言模型，让ai 来回多聊几句

这是个挺让人意外的消息。Windows Central 今天发了篇报道，说微软研究院跟 Salesforce 合作做了个研究，结果发现那些现在看着挺厉害的大语言模型，比如 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4，在咱们跟它们聊个长对话的时候，表现越来越“笨”。研究人员用了 15 个顶尖模型，做了超过 20 万次的模拟聊天分析。数据显示，这些模型在一次性接收指令时成功率能达到 90%，但要是拆分成多轮自然对话，成功率就掉到了大约 65%。它们的核心能力其实只降低了约 15%，但让人吃惊的是，“不可靠性”直接飙升了 112%。说白了就是它们还能解决问题，可在多轮对话里就变得特别不稳定，老是跟不上上下文。问题出在哪儿呢？首先是“过早生成”。模型在用户还没把需求说完时就急着给答案。一旦第一印象搞砸了，它就会顺着那个错误往下推理，不去纠正。其次是“答案膨胀”，多轮对话里回复变长了，有的长了 20%，甚至高达 300%。回答越长，夹带的假设和“幻觉”就越多。更让人意外的是，OpenAI 的 o3 和 DeepSeek 的 R1 这种新出的推理模型也没好多少。把温度参数设为 0 想让回答更一致也没用。这说明咱们现在的评估方法有问题。大家老是拿理想状态下的一次性指令来测试，可现实里的对话是慢慢发展的。对搞 IT 的人来说这是个大挑战。现在看来最有效的办法不是让 AI 来回多聊几句，而是一次性把所有条件和指令都扔进去让它自己算。