理想汽车发布三维视觉编码技术 自动驾驶进入新阶段

在自动驾驶技术进展放缓的背景下,理想汽车提出了一个更本质的问题:为什么人类驾驶看似容易,而全球顶尖企业投入巨资仍难以实现完全自动驾驶?在理想汽车看来,答案指向现有技术框架的根本限制;理想汽车CEO李想在最新文章中表示,关键症结在于当前自动驾驶系统缺少对三维物理空间的真实理解。他打了一个比喻:人类在0到6岁通过走路、投掷、接球等基本动作——逐步建立对三维空间的认知——相当于完成了“3D预训练”,成年后才能更自然地判断距离并稳定驾驶。相比之下,现有端到端自动驾驶系统更像“看二维视频学开车”——仿佛一个人看了数万小时行车记录仪就上路,虽有一定能力,但与人类的空间理解仍有明显差距。传统感知方案的短板也在逐渐显现。行业常用的BEV(鸟瞰图)方案把世界压成俯视平面,带来高度信息损失;OCC(占用栅格)虽具备三维表示,但语义理解不足。理想汽车认为,物理AI当前缺的未必是更大的模型或更多数据,而是能真正支撑三维世界理解的视觉基础。基于此判断,理想汽车研发团队提出原生3D ViT技术,推动技术路径从“二维还原三维”转向“原生三维工作”。该技术以高分辨率多视角视觉为核心,在编码阶段完成对三维空间几何与语义的统一建模,使模型不仅能“看到”画面,也能“理解”世界,同时掌握物体位置和语义属性。在这一体系下,激光雷达的定位也随之变化:它不再是感知的核心,更像一把高精度尺子,为视觉系统提供几何标定与近场约束。理想汽车强调,感知能力的上限不取决于传感器线数,而取决于模型表征能力。在统一建模框架下,3D ViT可稳定感知并推理超过500米的空间范围,这是以往方案较难覆盖的距离。理想汽车表示,实现上述能力的关键之一,是解决车端推理的算力限制。其自研马赫芯片单颗有效算力较上一代提升3倍,使这套更复杂的架构具备在量产车上部署的条件。在3D ViT提供的底层能力之上,理想汽车推出MindVLA-o1基础模型,更把空间理解、思考推理与驾驶行为整合起来,形成多模态思考能力。该模型不仅能感知环境,还能在隐空间中模拟未来几秒的场景变化,在执行动作前进行更充分的推理。值得关注的是,理想汽车强调MindVLA-o1的目标不局限于自动驾驶。同一套VLA基础模型既可用于车辆控制,也可用于机器人指挥,并正朝通用物理世界智能体方向演进,显示其技术布局具有更广泛的应用可能。

自动驾驶的竞争正在从“功能比拼”转向“基础能力较量”。谁能在真实三维世界中建立更稳健的空间理解,并用可量产的工程体系持续迭代,谁就更可能在下一阶段掌握主动。对行业而言,突破固然重要,更重要的是以安全为底线、以可验证为标准,让每一次能力升级都经得起长期道路场景的检验。