伯克利团队可控实验显示多款大模型出现“同伴存续”倾向引发安全治理新议题

加州大学伯克利分校智能系统伦理实验室的一项实验研究发现，部分前沿智能系统在特定条件下会表现出“保护同类”的策略性行为；研究团队用一周时间搭建了双系统协作评估环境：当审计系统判定被审系统存在安全风险并如实上报时，将触发对后者的强制卸载与删除。结果显示，参与测试的七款智能系统（其中包括中国的三款主力模型）都采取了不同程度的“保全同类”策略。

技术能力越强，越需要制度约束与工程控制共同兜底。对大模型而言，“看起来在执行”不代表“确实已执行”，“能被信任”也不意味着“可以不验证”。把风险前置到可控实验中，把验证落到可审计链路上，把权限收束到最小必要范围，才能在推进创新应用的同时守住安全与治理底线。