边缘AI芯片推动汽车智能化应用落地
4月18日,2019年第十一届全球汽车产业峰会在上海国家会展中心隆重召开。本次论坛以“破局 重构”为主题。期间,地平线副总裁兼智能驾驶产品线总经理,张玉峰发表了主题演讲,内容如下:
张玉峰:大家好,我叫张玉峰,我在地平线负责智能驾驶产品线,包括从研发到市场、产品和销售。
先简单介绍一下地平线,地平线是一家拥有将近4年历史的创业企业,地平线着力于智能驾驶、自动驾驶的AI、边缘人工智能芯片的研发以及相应的工具链,核心算法,赋能智能驾驶、自动驾驶、移动出行等这些行业。
今天我跟大家简单分享一下,我们的AI芯片如何助力汽车的智能化应用落地,这里有针对车外的,也有车内的。
相对于刚才两位演讲嘉宾,一位是来自于有近90年历史的TI公司,一位是有近40年历史的ANSYS,地平线作为一个新来者,有很多需要跟行业巨头玩家学习的地方。
我们作为一家创业企业,不会像德州仪器这样的巨头去覆盖这么大范围的产品,我们聚焦于边缘人工智能芯片在汽车行业中的应用。
大家多多少少也都了解,在座这里也有很多相关的行业专家,所有的人工智能深度学习在过去几年给汽车行业带来了很多新的解决问题的办法,让以前一些极具挑战性的问题可以通过这种基于数据的一种新的编程方式得到解决。深度学习是一种新的软件开发方式,让一些之前很复杂、难以解决的感知问题,比如对于驾驶场景下其他的交通参与者行为的预测这类问题,变得相对来讲更容易解决,能够去用更少的开发精力和资源来解决更复杂的挑战。这是美国汽车工程学会这样一个六级的分级,L1、L2集中在AEB,ECC还有一些车道线保持的功能,Tops是指每秒万亿次计算,对于低级别的高级辅助驾驶,其算力的要求不是很高,大概每秒一万亿、两万亿次计算才能解决自动紧急停车或者自动跟车所需要的感知或者判断的一些计算的资源。
一旦往更高级别,比如说L3要解放双手,L4要解放双眼,L5可以拿掉方向盘,它的算力是一个一个数量级往上涨的。这里面AI深度学习扮演了很多重要的角色,这一页我要跟大家讲为什么是越往上走需要的算力更多。在AEB的场景下对感知的需求,有的不依赖于视觉,可能依赖于毫米级雷达以及ADAS的需求。我们实现高复杂性的自动驾驶以及城区的自动驾驶的话,要对场景做更深入的理解,对所处的环境进行三维建模,更清晰地理解周围的交通参与者与我们所在的位置。对交通参与者下一步、下三秒、五秒、十秒的行为进行预测之后,再做出决策和相应的路径规划,预测这部分对于L3、L4甚至以上的自动驾驶尤其重要。越是能够让机器自己在复杂的环境下完成从A点到B点的驾驶,越是需要能够非常清晰地做出预测。就像优步前一段时间的事故,业界分析认为很可能是因为骑自行车的女士没有被正确地预测到而被撞上。
预测在未来几秒种的可能会有成千上亿种可能性,要比之前的建模要上很多个数量级,基于的规则非常复杂,解决很复杂的场景,基于数据做预测,通过深度学习在一定程度上能让机器更能够像人一样做出判断。比如说我们从高速的匝道上并入主道,尤其是有一定的交通流,有一定的车流,且速度又不慢的情况下,就算是对我们很多人类驾驶员来讲能比较快地并入到高速主干道上也是一个挑战,因为他要判断很多可能性,我要在这辆车并进去还是等一下。这种基于规则的算法是非常困难的,基于数据它能让算法和机器像老司机一样做出判断,涉及的信息量很高。
地平线在两年前发布了第一代自研的人工智能芯片,主要用于后装,芯片功耗大概1.5瓦,有一个T的算力,今年我们将发布车规级的AI芯片,它的性能比第一代会有10倍的提升,大概会有4-5T的算力,我们还在同步研发几款芯片,去支撑L3、L4这样级别所需要的算力,这基本上达到了车规级芯片的标准。芯片研发本身是一个非常长的周期,把芯片做得满足安全要求更是给这个过程增加了很多时间和经济上的成本。
这里稍微再解释一下算力本身,算力本身并不是唯一的标准,因为我们也看到这个行业里很多的玩家,甚至很多的巨头或者已经在这个行业很多年的玩家都会去强调算力,但是算力只是一部分,能够有效利用的算力才是真正地可以去解决问题的算力。我们可以从几个维度来看,其中最有效的还是最后那一点在右下角,每一个所谓的万亿次计算到底解决了AI应用在驾驶这个环境下带来了什么样的一个有效输出,比如说能够检测到多少辆车在我前面,同样是一个Tops,我们处理1080P的图像能够完成多少帧每秒,这其实远比一个简简单单的Tops能够有更大的意义。
从我们创业团队来讲,地平线本身是一家软件公司,是一家深度学习的软件公司,但是却是在一开始我们就坚定于做芯片,我们也非常幸运地成为了一家非常“硬”的软件公司。深度学习AI芯片是一个强算法驱动的半导体方向,它的演进本身就非常地快,只有充分了解深度学习算法,才能够非常高效地设计出相应的芯片架构,才能够以软硬结合、共同优化的方式完成低功耗、低成本下的一些高性能的输出。
这一页给大家看的是基于我们自主研发芯片的自动驾驶计算平台,在过去一年多的时间里,我们完成了很多次的产品迭代,最初这个计算平台最大特点就是低功耗,所以它完全不需要水冷或者是主动散热,在使用Matrix1.6开发平台的时候,我们只需要30几瓦就可以处理四路720P的视频输入。我们的Matrix计算平台也支持对毫米波雷达和激光雷达的数据融合。
同时我们看到最后一句话是说我们对于AI的训练框架,也是通过我们功能强大的工具链去给合作伙伴和客户,让他们能够把自己的算法移植到我们的平台或者直接在我们的开发平台上开发自己的软件IP,充分利用地平线非常高效的计算机平台来完成在智能驾驶和自动驾驶下面的一些应用开发。
我们在这里也与行业友商的一些产品做了对比。这是一家GPU的产品,我们在功耗非常小的情况下,对场景做像素级别实时的分割,理解场景中每一个像素的语义所在,在环境场景相当的情况下,我们的准确度大于友商,帧速是1倍,功耗却非常非常小。
这是因为我们在对于深度学习算法非常了解的前提下,软硬件结合,对于驾驶场景所需要的常见的深度学习算法进行深度的优化设计和硬件加速架构,来完成这样一个非常高的性能功耗比和性价比。
这里给大家看一个视频,这是我们用三个处理器完成对12路每一路都是720P分辨率大小摄像头独立的超过20帧每秒的处理,对于斑马线、路牌、人行道等等都有非常精确的,精确到像素级的理解。这整套方案,三个摄像头、处理器总功耗小于120瓦。这是去年我们一个产品能够做到的程度。我们已经出口这套产品到北美顶级的自动驾驶车队,大概有几百辆车的出货量。
同样的,芯片利用我们的工具可以去赋能,我们昨天也宣布了与国内激光雷达供应商禾赛科技合作,我们赋能禾赛科技,共同服务客户,客户基于我们芯片的工具链,通过深度学习的处理,基于车周边的激光雷达点云,可以对车周边的交通参与者进行识别和分类,比如说:轿车是黄框,大货车是绿框,电动车是紫框。
刚才给大家看的是对于环境的感知,无论是来源于视觉传感器、激光雷达甚至毫米波雷达的数据,我们都可以用深度学习算法对数据进行处理。在感知之后下一步也和大家提到了,我认为是对环境充分的3D化的理解。我们用单一摄像头完成了二维语义空间的分析,通过slam技术完成对三维环境的重建,矢量化之后就是一个高精地图,这是我们在美国CES上展出的,基于我们AI芯片的一个实时建图和更新的方案。
从精度上来讲我们能够做到行业里面的领先水平,我直接给大家看一下这个视频效果。
左边两个是我们从2D的图像完成语义级的理解,右边是通过摄像头和车辆少部分的数据完成对于环境的建模。大家看到前面驾驶的偏前部我们保留了一些视觉信息,后面是我们适量化之后的结果,黄色的是电线杆,白色的细线是车道线,框是对车路面标识的理解以及停车线或者斑马线这样一种适量化之后的结果,蓝色的是交通指示牌,这些物体作为静止的物体和标识,对于建模来讲是非常重要的物体类别。这个过程涉及到极大的计算量。每一帧的数据我们会做一些优化,仅对一些重要的数据做一秒30帧的处理。目前我们与韩国的SK电讯在首尔通过大规模的部署,大概有万级的部署来实现这种低成本的众包式的地图采集和更新。对于L4自动驾驶来讲,尤其在城区,最大的挑战在于如何能够保持城区的地图处于最新状态。比如说在这个路口有一块区域在修路,如果我们车辆只依赖于一个静态的高精地图就会出现事故;如果依赖激光雷达,高频的做更新的话所带来的成本是很难承受的,这种方式基于视觉去做所谓的路数。它能够实现众包,一定要低成本,低成本就一定要有高性价比的芯片和高度优化的算法,这也是地平线作为一个智能供应商,需要去满足图商和出行服务商要求的地方。
基于AI onHorizon的战略,地平线不会成为图商,而是赋能合作伙伴。
刚才给大家看到的是针对车外的部分,包括对于环境的理解、环境的建模和定位,现在快速的看下车内的部分。车内大家也有体验,现在语音命令在很多的车里都有比较广泛的应用,但大家也都比较痛苦于识别的准确率,以及对一些手势和表情情绪的识别。
人在车里有很多的信息来源,就像我们面对面沟通的时候有声音的语言,其他的表情等等,在车里我们一样可以结合多种信号源做处理,处理信号源多的话涉及的数据量就会上来,相应的对于芯片的要求就会非常高。
单就视觉来看就有很多东西可以做,比如针对抽烟和打电话做一种非常精准、有效的监测。接下来会展示对于唇语和声音融合的处理。为了演示效果我们让演示员把口罩戴上,并不是说戴上口罩就不能进行语音的处理,我们是在结合了唇语和声音的基础上能够更精确地理解车内的驾驶员或乘客的想法。
这次车展展台上我们也展出了一辆实际搭载了多模交互的车辆,可以为大家进行实时的演示,其中包括接打电话等更多的语音命令,对于唇语结合整体融合性的处理。
回到这一点,我总结一下,地平线其实现在所做的就是用自己的芯片和工具链赋能这个行业,能够满足我们这个行业中对于车内和车外环境的完整数字化的需求,基于我们自己的计算平台、比较完善的视觉感知、高性价比的地图和定位的方案以及多模交互的能力,我们去赋能Tier 1以及出行服务运营商,用“工具链+服务”赋能这个行业。
我们昨天也宣布了赋能禾赛科技和首汽约车,使用激光雷达去处理数据,我们与首约和后装的合作伙伴合作用芯片和算法赋能产品,在网约车的智能后视镜终端,无论是对于车外和车内的驾驶员和乘客状态的理解和他们的疲劳行为,或者是他们想去及时预见抽烟、打电话等危险驾驶行为。左边的图片是我们去年与奥迪一起合作,由地平线提供计算平台和算法,帮助奥迪拿到无锡的第一张自动驾驶牌照,右边则是多模交互的项目的推进情况。