汽车行业深度报告:当自动驾驶与机器人共振:详解VLA与世界模型
- 2025-07-08 08:11:02上传人:天若**老。
-
Aa
小
中
大
投资要点:VLA模型具备成为具身智能基础模型潜力。视觉-语言-动作模型(VLA)代表一类旨在处理多模态输入与输出的模型,通用性是VLA模型的核心特点之一,体现在其以多模态大语言模型为底座,具备“理解万物”的能力,VLA模型的理解能力和多任务泛化能力让模型在不同的应用场景中具备出色表现,展现出超越自动驾驶乃至机器人
- 1.自动驾驶模型范式由数据驱动向知识驱动升维
- 1.1.自动驾驶两大趋势:模型数据驱动转向知识驱动、模型功能至上迈向驾乘体验优先7
- 1.2.传统基于规则的模块化算法核心缺陷在于无法Scaling
- 1.3.端到端模型:自动驾驶从数据驱动向知识驱动演进
- 1.3.1.数据驱动的端到端模型面临数据瓶颈
- 1.3.2.多模态大语言模型引入是端到端模型实现知识驱动的关键
- 2.VLA模型是自动驾驶端到端架构的演进方向
- 2.1.VLA推动自动驾驶从功能迈向体验
- 2.2.自动驾驶VLA模型构建与工程部署面临的主要问题及解决方法
- 2.2.1.3DGS或是车端实时获取良好3D中间特征的途径
- 2.2.2.强化长时序记忆能力将提升VLA模型长程任务规划与解决能力
- 2.2.3.优化模型架构与推理机制可以提高端侧计算效率
- 2.2.4.利用世界模型构建云端仿真环境是模型闭环测试、强化学习的关键
- 2.3.自动驾驶典型VLA架构
- 2.3.1.WaymoEMMA:开创性的端到端多模态自动驾驶模型
- 2.3.2.OpenDriveVLA框架的贡献在于模型3D环境感知和交互
- 2.3.3.小米ORION框架引入QT-Former模块实现了长时序记忆
- 2.3.4.理想MindVLA:深度融合空间、语言及行为智能
- 3.具身智能本质是自动驾驶的升维问题,构建数据闭环是关键
- 3.1.机器人VLA架构的发展历程
- 3.2.应用场景与任务的差异决定了车端VLA与机器人VLA的核心差异
- 3.2.1.机器人VLA训练所需的数据规模或远超车端
- 3.2.2.硬件方案未收敛与本体高自由度限制了真实数据收集
- 3.2.3.算力解放是技术进步的前提
- 3.2.4.构建可供机器人使用的仿真环境需要注重可交互性建设
- 3.2.5.关于机器人VLA落地可能面临问题的总结
- 3.3.人形机器人典型VLA架构
- 3.3.1.OpenVLA:首个开源且具备商业潜力的机器人VLA模型
- 3.3.2.Helix:首个人形机器人上半身高速连续控制的开源模型
- 3.3.3.智元ViLLA:实现大规模互联网异构视频数据高效利用
- 4.受益公司梳理
- 4.1.理想汽车:从汽车到AI,VLA范式引领汽车智能化升级
- 4.2.小鹏汽车:底层自研、全链自主打造“智驾端到端四部曲”
- 5.风险提示
- 请务必仔细阅读正文之后的评级说明和重要声明 第5页/共46页
- 源引金融活水润泽中华大地
- 图表1:百度Apollo算法架构具备典型感知、预测、规划、控制模块化特征
- 图表2:不同阶段的自动驾驶算法演进
- 图表3:端到端方案与传统模块化方案的对比
- 图表4:模仿学习导致因果混淆
- 图表5:模型学习的鲁棒性挑战(长尾问题、数据分布偏移、数据迁移问题)
- 图表6:LLM模型在自动驾驶流程中的应用
- 图表7:典型的MLLM模型架构,包含编码器、连接器(对齐模块)、LLM、生成器..12
- 图表8:VLA模型的总体架构,包含编码器、解码器和输出动作
- 图表9:3DGS与其余三维重建技术的区别
- 图表10:3DGS场景重建效果更优
- 图表11:小米QT-Former模型架构
- 图表12:模型量化使模型计算效率翻倍
- 图表13:理想MindGPT模型中MOE网络有E1-E88个专家
- 图表14:自动驾驶模型开环评估与闭环评估的结构对比
- 图表15:自动驾驶中的世界模型综述
- 图表16:理想世界模型相关论文方案总结
- 图表17:理想OLiDM模型LiDAR数据生成流程
- 图表18:理想DriveDreamer4D模型生成效果与传统方式的比较
- 图表19:理想ReconDreamer模型长距离街景生成效果与传统方法的比较
- 图表20:理想相关生成模型场景刻画与场景实时编辑
- 图表21:EMMA模型架构
- 图表22:OpenDriveVLA模型架构
- 图表23:引入条件车辆运动预测任务后,预测通过时延更低
- 图表24:小米ORION模型架构
- 图表25:理想MindVLA模型架构
- 图表26:理想MindVLA后训练环节世界模型框架
- 图表27:具身智能VLA模型发展历程
- 图表28:机器人智能化模型数据金字塔
- 图表29:人形机器人与汽车所面临的场景、任务丰富度不同
- 图表30:不同人形机器人本体构型尚未确定
- 图表31:PartRM模型框架,通过观察预测形变与真实形变的差值进行隐式学习
- 图表32:不同机器人传感器的优缺点比较
- 图表33:OpenVLA模型架构
- 图表34:OpenVLA模型在多项任务测评中相较于前代模型取得了更好的效果
- 图表35:Helix模型架构
- 图表36:搭载Helix模型的机器人实现上半身连续控制与双机器人任务协作
- 图表37:Helix模型的泛化性能与抽象概念理解能力
- 图表38:智元GO-1机器人ViLLA模型架构
- 心组件
- 图表40:理想汽车、小鹏汽车盈利预测