强化学习如何提升视觉推理能力?马里兰大学团队用“解剖重组”揭示模型的层级分工

问题——性能提升“看得见”,能力来源“说不清”。 随着视觉语言模型快速发展,越来越多系统能够同时处理图像与文本,图表解读、场景问答、数理推断等任务中显示出更强的综合能力。近年研究表明,引入强化训练可显著提高模型在视觉推理基准测试中的得分。但业内长期面临一个关键难题:分数提升究竟来自“看得更准”(视觉感知更强)、“想得更深”(逻辑推理更强),还是“看与想衔接更顺”(跨模态协同更好)?若无法区分能力来源,就难以判断模型在关键应用场景中的可靠性,也难以为后续优化提供明确方向。 原因——传统评测偏重总分,难以刻画“能力构成”。 研究团队指出,现有评测往往强调最终答案是否正确——类似只看“总成绩”——忽视过程与模块贡献。视觉推理任务本身是复合链条:先从图像中提取信息,再在语言空间组织表达,随后完成计算、比较、归纳等推理步骤。任何一环变化都可能带来分数上升。若缺少针对不同环节的诊断工具,就可能把“视觉更敏锐”误判为“推理更强”,或把“对图像关注更多”误认为“理解更深入”,从而造成训练策略与应用部署上的偏差。 影响——提出“拆解重组”式诊断路径,揭示强化训练的共性行为变化。 据论文披露(arXiv:2602.12395v1,2026年2月发布),研究团队借鉴“拆开看结构、装回看作用”的思路,构建一套面向视觉语言模型的分层功能定位与干预评估方法,尝试给模型绘制一张“功能地图”。 一上,研究者通过模型处理过程的不同阶段替换图像关键信息,观察输出是否随之改变,从而定位哪些层级更依赖视觉输入、何时进行关键视觉读取。实验采用成对图片设计,即两张图片只在单一细节上不同(如数量、位置或文字差异),其余保持一致;在特定处理阶段“替换”视觉表征后,若模型答案明显偏转,说明该阶段正在使用对应视觉线索。研究结果显示:模型早期与中期层对视觉信息更敏感,早期层偏向基础识别,中期层更多承担计数、定位、读图中文字等较复杂的视觉分析。 另一上,研究者以纯文本推理题为材料,对模型不同层级进行逐步“屏蔽”或削弱,观察推理能力受损程度,以此定位推理关键区域。结果表明,后期层对逻辑推理贡献更为突出,承担“整合—推断—决策”的关键作用。这个发现与视觉语言模型的工程直觉相吻合:越靠后越接近语言输出与高阶推断,越需要稳定的推理表征。 更值得关注的是,研究团队对比多种训练设定时观察到一个一致现象:经过强化训练的模型在推理过程中倾向于更频繁地回到图像信息,表现为对视觉内容的再次检索与反复核对增加。这种“回看”行为可能意味着模型更重视证据对齐与中间验证,也可能反映其在某些环节仍存在不确定性,需要通过多次读取来降低错误风险。研究者强调,仅凭这一现象仍难直接断定能力进步的本质,必须结合分层定位与任务诊断共同判断。 对策——从“单一指标”走向“结构化评估”,为训练与应用建立可验证链条。 业内人士认为,面向多模态大模型的评估体系亟需升级:一是把视觉、语言与推理拆分为可测的能力单元,形成可复用的诊断套件;二是将“过程证据”纳入评价,如模型是否读取了关键区域、是否在关键步骤保持一致性,从而降低“猜对题”的偶然性;三是强化训练不应只追求得分,还要约束其证据使用方式,防止出现依赖数据偏见、绕开视觉理解的投机路径。研究团队提出的分层干预与替换实验,为建立这类结构化评估提供了可操作样例。 前景——可解释性评估或成多模态系统走向可靠应用的“基础设施”。 在智能问答、教育辅助、工业质检、医疗影像提示等场景中,视觉推理的可靠性直接关系到使用安全与决策质量。未来,围绕“模型到底凭什么得出结论”的研究将与性能提升同等重要。一上,分层功能图谱有助于更精准地制定训练策略:若问题出视觉读取,可加强中期视觉分析;若问题出在推理链条,可强化后期推断能力与一致性约束。另一上,这类方法也为监管与测试提供工具基础,使模型在进入高风险领域前能够接受更细颗粒度的能力审计与压力测试。随着多模态系统规模扩大、应用边界拓展,评估从“看结果”转向“看结构、看证据、看机制”将成为趋势。

这项研究为理解AI系统的"黑箱"开辟了新路径;在技术快速迭代的当下,深入解析模型机制不仅是性能突破的基础,更是确保技术安全可靠的关键。该成果标志着认知科学研究正进入更精细化的新阶段。