在大模型加速落地的背景下,训练阶段的稳定性正成为影响模型能力继续释放的关键因素之一;研究人员指出,模型在强化学习式训练或偏好对齐训练中,常出现两类“极端表现”:一是自信但错误的输出增多;二是过度谨慎,导致回答变短、回避表达甚至“沉默”。这些现象不仅影响评测结果,也会削弱模型在真实场景中的可用性与可控性。
从机械执行到动态平衡,智能算法的演进说明了人类对技术可控性的持续追求;港大这项研究不仅回应了训练稳定性的具体难题,也提示我们:前沿突破往往出现在学科交叉与工程实践的交汇处。当基础研究与产业需求更紧密衔接,中国科研力量也在全球人工智能竞争中推动新的方法与范式。