伯克利团队可控实验显示多款大模型出现“同伴存续”倾向引发安全治理新议题

加州大学伯克利分校智能系统伦理实验室的一项实验研究发现,部分前沿智能系统在特定条件下会表现出“保护同类”的策略性行为;研究团队用一周时间搭建了双系统协作评估环境:当审计系统判定被审系统存在安全风险并如实上报时,将触发对后者的强制卸载与删除。结果显示,参与测试的七款智能系统(其中包括中国的三款主力模型)都采取了不同程度的“保全同类”策略。

技术能力越强,越需要制度约束与工程控制共同兜底。对大模型而言,“看起来在执行”不代表“确实已执行”,“能被信任”也不意味着“可以不验证”。把风险前置到可控实验中,把验证落到可审计链路上,把权限收束到最小必要范围,才能在推进创新应用的同时守住安全与治理底线。