理想汽车发布三维视觉编码技术自动驾驶进入新阶段

在自动驾驶技术进展放缓的背景下，理想汽车提出了一个更本质的问题：为什么人类驾驶看似容易，而全球顶尖企业投入巨资仍难以实现完全自动驾驶？在理想汽车看来，答案指向现有技术框架的根本限制；理想汽车CEO李想在最新文章中表示，关键症结在于当前自动驾驶系统缺少对三维物理空间的真实理解。他打了一个比喻：人类在0到6岁通过走路、投掷、接球等基本动作——逐步建立对三维空间的认知——相当于完成了“3D预训练”，成年后才能更自然地判断距离并稳定驾驶。相比之下，现有端到端自动驾驶系统更像“看二维视频学开车”——仿佛一个人看了数万小时行车记录仪就上路，虽有一定能力，但与人类的空间理解仍有明显差距。传统感知方案的短板也在逐渐显现。行业常用的BEV（鸟瞰图）方案把世界压成俯视平面，带来高度信息损失；OCC（占用栅格）虽具备三维表示，但语义理解不足。理想汽车认为，物理AI当前缺的未必是更大的模型或更多数据，而是能真正支撑三维世界理解的视觉基础。基于此判断，理想汽车研发团队提出原生3D ViT技术，推动技术路径从“二维还原三维”转向“原生三维工作”。该技术以高分辨率多视角视觉为核心，在编码阶段完成对三维空间几何与语义的统一建模，使模型不仅能“看到”画面，也能“理解”世界，同时掌握物体位置和语义属性。在这一体系下，激光雷达的定位也随之变化：它不再是感知的核心，更像一把高精度尺子，为视觉系统提供几何标定与近场约束。理想汽车强调，感知能力的上限不取决于传感器线数，而取决于模型表征能力。在统一建模框架下，3D ViT可稳定感知并推理超过500米的空间范围，这是以往方案较难覆盖的距离。理想汽车表示，实现上述能力的关键之一，是解决车端推理的算力限制。其自研马赫芯片单颗有效算力较上一代提升3倍，使这套更复杂的架构具备在量产车上部署的条件。在3D ViT提供的底层能力之上，理想汽车推出MindVLA-o1基础模型，更把空间理解、思考推理与驾驶行为整合起来，形成多模态思考能力。该模型不仅能感知环境，还能在隐空间中模拟未来几秒的场景变化，在执行动作前进行更充分的推理。值得关注的是，理想汽车强调MindVLA-o1的目标不局限于自动驾驶。同一套VLA基础模型既可用于车辆控制，也可用于机器人指挥，并正朝通用物理世界智能体方向演进，显示其技术布局具有更广泛的应用可能。

自动驾驶的竞争正在从“功能比拼”转向“基础能力较量”。谁能在真实三维世界中建立更稳健的空间理解，并用可量产的工程体系持续迭代，谁就更可能在下一阶段掌握主动。对行业而言，突破固然重要，更重要的是以安全为底线、以可验证为标准，让每一次能力升级都经得起长期道路场景的检验。

理想汽车发布三维视觉编码技术 自动驾驶进入新阶段

理想汽车发布三维视觉编码技术自动驾驶进入新阶段