不久前华为智能汽车解决方法 BU CEO 靳玉志表示,走 VLA 技术路线的企业,觉得目前大伙是通过 Open 人工智能 等各种语言大模型,把网上的信息学了一遍将来,将语言、所有些学习转换成 LM 的方法学会常识。如此的路径看上去取巧,其实并非走向真正自动驾驶的路径。华为更重视 WA,这个路径现在看着很难,但能达成真正的自动驾驶。那样,华为选择的WEWA构造,到底是什么,有哪些“神奇”之处呢?
x
第一大家要了解什么是WEWA构造,WEWA构造分为两部分,WE world engine世界引擎,它主要负责云端,WA则是world action model世界行为模型,主要掌管的是车端。
咱们先来唠唠云端那点事儿啊。自从端到端开始,数据练习量就看上去非常重要,采集到的人类驾驶数据,可以说99%都是正常驾驶相对来讲简单场景的数据,像很复杂、少见的长尾场景,那数据量是少之又少。不信你就跟身边儿的老司机打听打听,问问他开车这么多年,危险复杂的场景能有几次。这种数据量上不去,那辅助驾驶中长尾场景的处置就一直会有问题。而负责云端的世界引擎,就是来解决这个问题的。
第一,人工智能通过现有些环境数据,先在云端模拟一个现实世界,把真实世界很细节的还原到云端世界里。之后它依据已经看过的人类驾驶视频,生产出此路段场景不同状况的视频,或者同状况不同路段的视频,并且可以自概念困难程度等级。就譬如,这个人工智能学习到的是路上忽然窜出只小狗,那它可能自己塑造出路上忽然窜出羊群、长颈鹿大象等场景,甚至可以在你想做避让的车道安排上别的汽车,提高困难程度。如此做有哪些好处就是大家喂给人工智能 10个少见视频,它可能自己延展出成千上万种状况。就如此延展下来,优质高困难程度的场景数据,是真实世界的一千倍。而负责规控的模型在云端世界里疯狂刷不同高困难程度的场景进行练习。这就是用人工智能练习人工智能。
喂给模型很多人类驾驶员的数据素材,里面一定会包括一些不安全不正确的驾驶数据,什么闯红灯啊走非机动车辆道啊,并且一有人工智能,幻觉是无法避免的,无论是低水平数据还是幻觉,都会干扰模型练习发买卖外,更何况WEWA构造中,每一步都有人工智能的参与,那如何才能减少幻觉防止错误危险的规控,保证安全呢。
于是,华为为模型练习设置了奖惩函数。简单来讲华为把工程师团队和人工智能组成了一个陪审团,这个陪审团的工作就是为场景规控下安全等级打分,大全每一位成员的分数得出来综合评分,那一定评分越高它越安全,通过这个评分让模型理解什么才是安全行为规控。
好了聊完了云端,下面是车端的事儿了。那视频开始前说过,VLA是从大语言模型修改来的,它的强项是语言辨别与文字推理能力,就像是一个文科生。但辅助驾驶是在物理世界运行,那WEWA构造的world action model世界行为模型就更像是一个理科生,并无需完全了解语言类的内容,善于的就是物理世界的空间感知和行为推理。
讲到这,你就想吧,人类驾驶数据加上人工智能生成数据,模型再去反复练习,出色数据再由人工智能扩写场景模型再练习,这一个个循环那得处置多少的数据,那是否车端的芯片算力需要要比带动VLA的芯片算力更高呢?
其实并非,第一VLA/VLM是从LLM大语言模型修改蒸馏来的,这个大语言模型包括的内容信息可就太多了,各种语言数字诗词歌赋中英日法语那都算在内,换句话说大语言模型本身就不是专门为辅助驾驶工作的,但华为的世界行为模型可是辅助驾驶专用的模型,没那样多无需的信息数据需要处置,所以它的算力集中在像交通参与者的速度地方的空间推理和行为预测。
另外,华为还塑造了MoE多专家决策,就好比医院里的专家会诊,每一个专家都只研究自己负责的特定场景。譬如暴雨有雨战专家,窄路有穿缝大师,被加塞有博弈高手,分工很明确,简单的场景就出那样一两个专家解决,复杂场景多专家一块会诊。你想啊,全模型的练习可能得用3个月,MoE里每一个专家只用练习它负责的部分,差不多1周就能上线,什么场景对应不同专家出战,也会节省算力。
好了,以上就是WEWA构造的介绍了,那之前我也试驾到了m8 EV,简单体验了一下ads 4.0。那最明显感觉它侧重安全部分的就是在村镇这段路。在前方有人行横道两侧停满临停车时,SR界面会显示视线遮挡减少行车速度,这也防止了有行人或非机动车辆鬼探头的状况。但它并非每一个人行横道都会减速,在车道两侧没临停车,感知系统能看得见周围道路参与者状况下,它会以正常行车速度通过人行横道。
那无论是WEWA构造这种世界模型还是VLA,本质上都是在将“大模型”引入智能驾驶,只不过方法不同。VLA天生就是多模态融合的产物,视觉和语言等信息在模型内部被打通,而世界模型路线则在泛化上则提供了另一种思路,用无限生成的数据去弥补有限经验。Corner Case在统计学上的小概率世界,而世界模型则是把小概率事件变成练习中的“高频事件”。 可以说世界模型赋予的是空间和数据层面的泛化力,先求稳再求巧,而VLA赋予的是常识和认知层面的泛化力,触类旁通,擅长学习新东西。二者目的相似,路径有别。那各位观众老爷们,你们更看好哪种路径呢?其实从技术融合趋势看,世界模型和VLA正在彼此借鉴,走向合流。或许不久的以后,汽车的大脑将同时拥有“想象力”+“语言智慧”呢。