我国科研团队攻克机器人视觉操作关键技术精密作业准确率明显提高

问题：在抓取、插接、旋拧等精细操作中，机器人常常能识别目标物体，却在落点、力度、角度等关键环节出现偏差，导致抓取打滑、对位失败或误触。这类“看得见但做不准”的问题，长期限制机器人从实验室演示走向产线装配、仓储分拣和家庭服务等更复杂的应用。尤其在双臂协同、狭窄空间作业以及遮挡、反光等真实环境下，容错空间更小，对视觉细节与动作规划的一致性要求更高。原因：研究团队系统分析多种主流视觉—语言—动作模型后发现，瓶颈不只是“看不清”，更出在模型深层计算过程：信息在网络深层逐级传递时，与当前操作最对应的的细粒度视觉特征会逐渐变弱，动作决策依据变得“粗”，从而出现位置漂移、姿态估计不稳等问题。为验证该判断，团队基于BridgeV2数据集约1500段机械手操作视频进行对比分析，并追踪OpenVLA、π0以及自研QwenVLA-OFT等模型在不同层级的关注区域。结果显示，模型在深层对关键区域的聚焦确有衰减，而且在精密任务中更明显。影响：视觉信息“越算越弱”会放大真实场景的不确定性。在仿真环境中，常表现为成功率下降、重试次数增加；在真实环境中，则可能带来夹持不牢、碰撞风险上升和节拍变慢，影响机器人在精密装配、实验室自动化以及医疗辅助器械传递等场景中的可用性与安全边界。对企业而言，失败率上升也会推高部署与维护成本，影响规模化落地。对策：针对上述问题，研究团队提出DeepVision-VLA框架，目标是在不打断整体推理流程的前提下，让深层阶段持续获得并筛选关键视觉证据。一是引入视觉基础模型DINOv3，提供更稳定的细节表征，并通过“视觉—语言混合变换器”在深层有效注入视觉特征，减少关键线索在传递中被稀释。二是提出“动作引导的视觉筛选”策略：围绕即将执行的动作需求，有针对性地过滤与聚焦画面信息，突出接触点、边缘、孔位、夹爪姿态等相关区域，抑制背景与无关纹理噪声，在提高精度的同时减少不必要的计算。效果：实验结果显示，DeepVision-VLA在十项仿真任务中较此前方法整体提升约9个百分点；在真实世界的复杂双臂机械手任务中，成功率提升约7.5个百分点。业内人士认为，在高难度操作场景里，这类以百分点计的提升往往意味着稳定性显著改善，不仅减少失败重试，也有助于降低节拍波动、设备磨损与安全风险，为工程化部署提供更好的条件。前景：随着多模态大模型与机器人本体能力不断进步，机器人应用正从“理解指令”走向“把动作做对”。本研究提出的“深层视觉增强+动作相关筛选”思路，为提升机器人在遮挡、弱纹理、反光和多物体干扰下的可靠操作提供了可复用的框架。后续仍需在更大规模真实数据、跨场景泛化与实时性约束下深入验证，并与安全控制、力觉反馈、在线校正等机制协同，推动形成可验证、可评估、可落地的能力体系。该研究由北京大学多媒体信息处理国家重点实验室牵头，联合香港中文大学与Simplexity Robotics公司完成，成果已于2026年以预印本形式公开发布（arXiv:2603.15618v2）。

机器人走进现实世界，难点往往不在“能不能动”，而在“关键时刻能不能做对动作”。此次工作从深层视觉线索衰减这个根因入手，用更结构化的方法提升“看清再动手”的稳定性，说明了基础研究与真实需求的衔接方向。随着精细操作能力持续提升，机器人在制造、物流与服务等领域的应用边界有望继续拓展；，更严格的验证、更统一的标准以及更可控的安全机制也需要同步推进，才能让技术进步稳定转化为可靠的生产力。

我国科研团队攻克机器人视觉操作关键技术 精密作业准确率明显提高

我国科研团队攻克机器人视觉操作关键技术精密作业准确率明显提高