问题:在抓取、插接、旋拧等精细操作中,机器人常常能识别目标物体,却在落点、力度、角度等关键环节出现偏差,导致抓取打滑、对位失败或误触。这类“看得见但做不准”的问题,长期限制机器人从实验室演示走向产线装配、仓储分拣和家庭服务等更复杂的应用。尤其在双臂协同、狭窄空间作业以及遮挡、反光等真实环境下,容错空间更小,对视觉细节与动作规划的一致性要求更高。原因:研究团队系统分析多种主流视觉—语言—动作模型后发现,瓶颈不只是“看不清”,更出在模型深层计算过程:信息在网络深层逐级传递时,与当前操作最对应的的细粒度视觉特征会逐渐变弱,动作决策依据变得“粗”,从而出现位置漂移、姿态估计不稳等问题。为验证该判断,团队基于BridgeV2数据集约1500段机械手操作视频进行对比分析,并追踪OpenVLA、π0以及自研QwenVLA-OFT等模型在不同层级的关注区域。结果显示,模型在深层对关键区域的聚焦确有衰减,而且在精密任务中更明显。影响:视觉信息“越算越弱”会放大真实场景的不确定性。在仿真环境中,常表现为成功率下降、重试次数增加;在真实环境中,则可能带来夹持不牢、碰撞风险上升和节拍变慢,影响机器人在精密装配、实验室自动化以及医疗辅助器械传递等场景中的可用性与安全边界。对企业而言,失败率上升也会推高部署与维护成本,影响规模化落地。对策:针对上述问题,研究团队提出DeepVision-VLA框架,目标是在不打断整体推理流程的前提下,让深层阶段持续获得并筛选关键视觉证据。一是引入视觉基础模型DINOv3,提供更稳定的细节表征,并通过“视觉—语言混合变换器”在深层有效注入视觉特征,减少关键线索在传递中被稀释。二是提出“动作引导的视觉筛选”策略:围绕即将执行的动作需求,有针对性地过滤与聚焦画面信息,突出接触点、边缘、孔位、夹爪姿态等相关区域,抑制背景与无关纹理噪声,在提高精度的同时减少不必要的计算。效果:实验结果显示,DeepVision-VLA在十项仿真任务中较此前方法整体提升约9个百分点;在真实世界的复杂双臂机械手任务中,成功率提升约7.5个百分点。业内人士认为,在高难度操作场景里,这类以百分点计的提升往往意味着稳定性显著改善,不仅减少失败重试,也有助于降低节拍波动、设备磨损与安全风险,为工程化部署提供更好的条件。前景:随着多模态大模型与机器人本体能力不断进步,机器人应用正从“理解指令”走向“把动作做对”。本研究提出的“深层视觉增强+动作相关筛选”思路,为提升机器人在遮挡、弱纹理、反光和多物体干扰下的可靠操作提供了可复用的框架。后续仍需在更大规模真实数据、跨场景泛化与实时性约束下深入验证,并与安全控制、力觉反馈、在线校正等机制协同,推动形成可验证、可评估、可落地的能力体系。该研究由北京大学多媒体信息处理国家重点实验室牵头,联合香港中文大学与Simplexity Robotics公司完成,成果已于2026年以预印本形式公开发布(arXiv:2603.15618v2)。
机器人走进现实世界,难点往往不在“能不能动”,而在“关键时刻能不能做对动作”。此次工作从深层视觉线索衰减这个根因入手,用更结构化的方法提升“看清再动手”的稳定性,说明了基础研究与真实需求的衔接方向。随着精细操作能力持续提升,机器人在制造、物流与服务等领域的应用边界有望继续拓展;,更严格的验证、更统一的标准以及更可控的安全机制也需要同步推进,才能让技术进步稳定转化为可靠的生产力。