自动驾驶是AI落地的重要场景之一,2012年之后深度学习技术快速发展带动自动驾驶技术迅速进步,近年来Transformer大模型等技术进一步提升了自动驾驶算法能力,2022年开始落地的大算力芯片及车厂自建AIDC的趋势也为大模型提供了底层支持,我们看好中长期自动驾驶行业的发展,在数据端具备优势的厂商有望率先实现突破。
摘要
深度学习是自动驾驶技术发展的分水岭,近年来Transformer大模型是重要产业趋势,算法是各大厂商大力布局的核心能力。深度学习作为“软件2.0”,是自动驾驶发展的核心驱动力,在感知层面大幅提高图像识别准确率,在决策层面深度强化学习有效提升算法能力。我们认为未来深度强化学习与传统专家规则将会广泛共存。以Transformer为代表的大模型由于在海量数据预训练、鲁棒性、泛化能力方面较CNN优势明显而成为主流路线,其出现也使得掌握数据优势的企业能形成高效的数据闭环,有望为自动驾驶算法带来颠覆性突破。
数据是决定量产能力的胜负手。深度学习是数据驱动的AI,需要海量数据“喂养”。数据获取依赖车载传感器:特斯拉坚持选择视觉摄像头主导的传感器方案,完成数据闭环,构建深厚壁垒;其他厂商选择激光雷达、摄像头等多传感器融合方案,激光雷达降价速度是行业发展关键,我们认为未来激光雷达作为安全冗余具有现实需求。此外,数据量是两类方案竞争的核心要素,数据标注的自动化水平、标注质量和效率是关键竞争点。
算力现阶段决定自动驾驶技术上限,巨头纷纷先行布局。高级自动驾驶中算力先行于算法,目前自动驾驶AI芯片呈以英伟达为主导的“一超多强”格局,特斯拉引领域控制器架构变革,催化芯片厂商格局变化与量产进程,2022是自动驾驶大算力芯片开启的元年。我们预计未来芯片竞争中大算力与能效比为首要竞争要素,开放性生态的重要性日趋提升。云端层面,AIDC提供处理大量回传数据所需的大算力,对于训练大模型至关重要,特斯拉等巨头在技术和资金方面具备天然优势。类似自有电商业务需求孕育了亚马逊、阿里巴巴等CPU时代云计算巨头,我们认为自动驾驶等AI巨头具备GPU/ASIC云计算市场的天然先发优势。
风险
技术进步不及预期、行业竞争加剧、政策风险。
正文
算法:深度学习为自动驾驶发展分水岭,大模型是重要趋势
深度学习是自动驾驶技术发展的分水岭及底层推动力
自动驾驶算法架构:感知、决策、执行
算法对于自动驾驶的效果至关重要。自动驾驶作为人工智能技术重要应用场景之一,其技术体系由算法、算力、数据三部分构成,其中算法的有效性影响自动驾驶的每一个环节,从感知环节的特征提取到神经网络的决策,都需要依赖算法改进来提高障碍物检测准确性和复杂场景下的决策能力。典型的自动驾驶技术架构包括感知(定位)、决策、执行三部分:
► 感知是自动驾驶车辆的“眼睛”,通过各类传感器对行驶路径进行识别,定位和追踪车辆周围物体以获取车辆环境信息,并融合、处理环境信息及车内信息。用于自动驾驶感知的传感器主要包括激光雷达、毫米波雷达、超声波雷达及视觉传感器,其中视觉传感器又包括单目和多目彩色摄像头。
► 决策是自动驾驶车辆的“大脑”,对道路拓扑结构信息、实时交通信息、交通参与者信息和车辆自身状态等感知数据进行进一步分析,做出决策和预测后给出车辆控制策略并发出相应指令,决策系统主要包括车辆行为决策模块及轨迹规划模块。
► 执行是自动驾驶车辆的“手脚”。接收决策系统给出的指令,通过车辆稳定系统ESC、线控制动eBooster、线控转向EPS等执行机构精确地控制加速程度、制动程度、转向幅度、灯光控制等驾驶动作。
深度学习驱动自动驾驶技术进入加速发展期
自动驾驶技术的发展分为三个阶段,1970年代兴起于自科研机构,2000年科技巨头入局,但发展进程较缓。2012年以Hindon在ImageNet大赛中引入深度学习算法为节点,深度学习进入蓬勃发展期。随后自动驾驶作为AI的重要落地应用之一,进入高速发展快车道。
深度学习是自动驾驶技术发展的核心驱动力,2012年为深度学习元年。2012年深度学习率先在图像识别领域产生标志性突破,由Geoffrey Hinton课题组通过其构建的深度神经网络AlexNet成功将图片识别错误率降低了10.8pcts,引起了全球业界的高度关注,随后几年深度学习产业飞速发展,2015年斯坦福人工智能实验室主任李飞飞团队在ImageNet开放数据集上识别准确率首次达到人类水平,也使得相关领域大规模的商业化落地成为可能。
自动驾驶在深度神经网络算法出现后开启了加速式发展。目标检测及图像识别作为自动驾驶的关键技术,高度受益于深度学习算法的突破,成为人工智能算法率先落地的场景之一。特斯拉人工智能总监Andrej Karparthy认为深度学习为代表技术是软件2.0,即以神经网络训练的形式编写的代码软件,而软件1.0则是由人类编写的逻辑代码的传统方式。以特斯拉为例,其自动驾驶深度学习网络HydraNet包含48个神经网络,能够同时检测1,000种物体,并正在越来越多地使用以神经网络训练的形式编写的代码软件2.0代替人类编写的逻辑代码软件1.0,来构建其自动驾驶策略。
感知算法:在过去10年充分受益于深度学习带来的性能红利,高速发展。感知模块是目前自动驾驶中深度学习应用最广泛的模块,深度学习拥有多层非线性神经网络结构,能够将低层特征变换成更为抽象的高层特征,并以无监督或有监督的方法对输入特征进行变换,从而提升了分类或预测的准确性。尤其在计算机视觉感知领域,深度学习能够提取出拥有自适应特性的高层特征,有效适应待识别目标的外观变化,模型鲁棒性和泛化能力得到大幅提高。
决策算法:深度学习与强化学习结合蕴含巨大想象空间,赋能决策算法。传统强化学习在感知与求解能力瓶颈明显,无法对大规模输入进行抽象表征,有效求解策略的能力不足,因此应用场景较为受限。随着综合高维数据抽象感知能力的深度强化学习算法(Deep Reinforcement Learning,DRL)兴起,2013年人工智能研究团队DeepMind提出深度Q网络(Deep Q Network,DQN)和蒙特卡洛树搜索算法。基于该算法的围棋程序,“AlphaGo”以4:1战胜世界冠军李世石。近年来,深度强化学习在自动驾驶中的车道保持、超车决策、主动制动、交通流调度等多场景落地应用,并不断拓展其范围边界。
Transformer等大模型是人工智能产业的重要趋势
大模型是人工智能产业的重要发展方向。由于人工智能的细分场景和细分应用过多,传统开发模式下针对每一个特定场景都定制一套全新算法,行业开发工作冗余、效率低且成本高。大规模预训练模型能够解决以上痛点,成为重要发展趋势,在谷歌、特斯拉等国际巨头中形成共识,即先使用海量数据预训练大模型,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练;在特定领域落地时,通过大模型蒸馏出小模型,大幅降低对新场景中数据量的需求,使得模型小样本学习能力和泛化能力大幅提升。从业界大模型参数量来看,目前全球多家人工智能实验室和巨头均在持续提升大模型的规模。
大模型提高AI模型的智能程度,提升了AI模型的通用性。根据OpenAI的研究人员对GPT-3的计算能力测试,在十项计算能力测试中,小模型的性能明显差于大模型,即使是130亿参数的模型处理二位数加减法的准确率也只有50%左右,处理其他运算的准确率还不到10%,远低于1,750亿的GPT-3完整版模型。此外,通过压缩大模型批量化生产小模型的方式能生产大量的、覆盖不同场景的模型,无需针对每个场景都单独定制生产,提高各个行业的AI模型生产效率。
以Transformer为代表的大模型是自动驾驶算法的重要发展方向。Transformer最早由谷歌在2017年提出,主要被用于机器翻译的神经网络模型。Transformer通过一维卷积和注意力机制的设计,实现了出色的算法并行性,适合CPU的运行环境,因此迅速在自然语言处理(NLP)领域流行起来。目前Transformer模型几乎取代了基于RNN的算法在NLP中的地位,并逐渐被引入计算机视觉(CV)领域。特斯拉和毫末智行已经宣布将Transformer引入自动驾驶系统中,来实现自动驾驶系统感知智能和认知智能的大幅优化。
Transformer具备强大的序列建模能力、全局信息感知能力,在大规模数据训练、鲁棒性、泛化能力等方面表现突出,因而在自动驾驶领域较传统CNN优势明显。Transformer使用多头注意力机制,能够理解不同区域语义元素之间的关系。Transformer早期主要被用于NLP,由于其超强的序列建模能力和全局信息感知能力,它几乎取代了基于RNN的算法在NLP中的地位,近年来逐渐被引入到CV领域。
由于Transformer可以很好地在空间-时序维度上进行建模,且在多模态融合方面具备较大优势,目前特斯拉和毫末智行等行业龙头通过Transformer在感知端提升模型效果。特斯拉从安装在汽车周围的八个摄像头的视频中用传统的ResNet提取图像特征,并使用Transformer、CNN、3D 卷积中的一种或者多种组合完成跨时间的图像融合,实现基于2D图像形成具有3D信息输出。毫末智行的AI团队正在逐步将基于Transformer的感知算法应用到实际的道路感知问题,如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。
除感知环节外,Transformer同样有望在决策规划等环节提升模型效果。Transformer不仅能处理各类视觉检测任务(车辆检测、车道线检测、交通标志检测、红绿灯检测等)、各类分割任务(可行驶区域检测、全景分析等)和3D点云的检测和分割(障碍物的检测等)任务,也有潜力提升后续的规划和控制的相关技术。我们认为,Transformer技术的进一步应用,有望为自动驾驶的各类算法落地带来成倍的效率提升,并快速提升各项视觉性能指标。
Transformer为代表的大模型能充分发挥大数据价值,特斯拉、毫末等具备数据优势的企业均选择大模型路线。我们认为,在自动驾驶逐渐从L2级辅助驾驶向全自动驾驶进步的过程中,用于训练的数据量是关键,拥有数据多的公司更容易在模型迭代过程中领先,Transformer的出现使得掌握数据的企业能形成高效的数据闭环,使用大量数据持续升级其大模型。目前特斯拉拥有200万辆级的量产车,根据毫末智行官方网站,其辅助驾驶系统HWA预计未来3年内有望搭载100万辆长城汽车。百万级的搭载量意味着每年数百亿级里程,有望为自动驾驶算法带来颠覆性突破。
感知算法:多传感器数据融合+定位,实现车辆环境感知
感知算法实现类同人眼视觉的部分功能。感知算法利用传感器收集环境数据,完成行驶路径识别及周边物体识别的任务。具体而言,感知算法需要对道路交通标志标线、交通设施以及车辆、行人、地面其他物体进行识别和辨认。常用自动驾驶车辆感知器主要包括超声波雷达、毫米波雷达、激光雷达、视觉传感器等,不同传感器的感知性能及适用情形存在差异。超声波雷达适用于短距离测距,毫米波雷达用于测距及速度,激光雷达适合于为环境3D建模收集数据,视觉传感器则对行人、交通标志标线等细节有更强的感知能力。
多传感器融合是感知系统的主流发展方向。多传感器方案融合使用摄像头及毫米波雷达乃至激光雷达。视觉摄像头能够提升系统的细节感知及推理能力,例如通过分析摄像头提取行人的面部表情、身体方向及运动姿态,预判行人的潜在意图。与此同时,雷达传感器能够弥补摄像头在作用距离、测距精度及特殊场景下的性能劣势,实现高精度探测。根据特斯拉CEO马斯克,特斯拉坚持使用视觉主导的方案,即采用摄像头作为主要传感器。除特斯拉外,其他车企及自动驾驶厂商均选择包含激光雷达的多传感器融合系统。
特斯拉通过多种模型分别实现特征提取、多摄像头融合、时序特征提取、多任务联合学习等功能,进而组合形成感知网络。近年来,特斯拉等自动驾驶技术能力排名前列的厂商越来越多的在感知算法层面采用神经网络模型,通过构造包含48个神经网络的HydraNets多任务神经网络系统,特斯拉目前能够实现同时检测1,000种物体。其整体模型主要分为四大部分,每部分均采用深度学习相关模型构建:
► 图像特征提取:主干网使用RegNet对单传感器采集到的原始图像进行分级处理,提取图像的多层次特征,而后使用BiFPN模型对多层次特征进行融合。
► 多摄像头融合:使用Transformer网络对多摄像头数据进行融合以构建周围环境的矢量空间,实现图像数据从Image space到Vector space的转换。特斯拉的Transformer神经网络能够同时接收8个摄像头的数据输入,不仅能有效提升矢量空间数据集精度,提升了模型训练速度,还能产生更具可解释性的模型,因而Transformer模型也是特斯拉感知算法结构的核心。
► 时序特征提取:利用RNN(Recurrent Neural Network)提取时序特征,将时间维度加入周围环境的矢量空间,基于过往发生的经验来处理任意时序的输入序列,预测环境物体即将发生的动作,例如行人是否要过马路。
► 多任务联合学习:构建了带有时间标记的周围环境矢量空间后,不同任务可以利用矢量空间数据开展学习任务,例如车道线检测等。整套网络采用了多种已存在的模型结构的创新组合,提高了模型的学习能力。
决策算法:自动驾驶中的核心挑战与难点
决策层是自动驾驶系统中难度极高的部分,需要高效的AI模型和大量训练数据。决策层指依据感知到的道路信息、交通信息、车辆自身信息来进行决策判断,选择适当工作模型并制定相应控制策略,对底层控制执行模块下达指令。在车道保持、车道偏离预警、车距保持、障碍物警告等场景中,决策系统需要预测本车及相遇的其他车辆、车道、行人等在未来一段时间的状态,且不同人对不同情况所做出的驾驶策略也有所不同,因此决策算法的优化需要高效的人工智能模型和大量的训练数据,以覆盖各种各样的长尾场景。
自动驾驶的决策系统主要包括行为决策、路径规划两大部分。行为决策系统对车辆涉及的交通参与者进行建模并预测其行为,再将各方信息汇总后交由路径规划系统做出决策。决策系统按照层级一般可划分为认知层、任务层、规划层三层,分别负责驾驶情景认知、驾驶行为决策、局部路径规划,最终决定车辆形式的最优路径。
驾驶情景认知
场景感知是感知和决策交汇环节,向决策环节输出场景的语义表达和物体的结构化表达。根据下面的自动驾驶任务划分流程图,感知模块与决策模块各被分为三部分,场景感知位于两者的交汇环节。感知层算法的核心任务是将各种摄像头、雷达等传感器的输入数据转换成计算机能理解的车辆所处场景的语义表达、物体的结构化表达,包括物体检测、识别和跟踪、3D环境建模、物体的运动估计等。
驾驶行为决策
感知模块连接行为决策、路径规划模块。在感知系统完成对环境的特征识别之后,通过四个流程操控控制规划系统,即输入数据-形成矢量空间-输出给神经网络-输出给规划控制系统,最终由规划控制系统向车辆输出转向、加速等指令。此外,控制规划系统同时具备多个目标,如特斯拉自动驾驶规划控制技术的核心目标是在安全、舒适、效率三者之间实现最佳平衡。
决策规划算法主要分为三种类型。决策系统融合了多传感器信息,再根据驾驶需求进行任务决策,在特定的约束条件下,规划出两点之间的多条安全路径,之后在这些路径当中选择一条最优路径,作为车辆行驶轨迹。目前自动驾驶汽车常用的决策算法主要有三种类型:基于神经网络的决策、基于专家规则“if-then”、和两者的混合路径。
深度强化学习、模仿学习是决策领域热点趋势。目前以强化学习和模仿学习为代表的决策方法是热点趋势,强化学习指通过将驾驶问题建模为马尔可夫决策过程来学习如何从环境表示中给出最优解。简言之,该策略通过将自动驾驶策略建模成从环境的状态到动作的实时映射,驾驶策略通过输出动作并应用在驾驶环境中,得到下一时刻的状态和奖励。
特斯拉采用“粗略搜索+凸空间内的连续优化”的混合规划系统,实现平滑的运动轨迹。特斯拉采用混合规划系统,首先让感知数据通过向量空间的粗略搜索,然后经过凸空间内的连续优化,形成平滑舒适的运动轨迹。具体流程包括接收矢量数据集、粗略搜索结果、投射为线性模型、解决线性问题四大流程。特斯拉借助这种高效混合算法,可以在1.5毫秒中作出2,500次的不同情况模拟,并快速选择最舒适、安全、高效的行为规划。
随着神经网络在规划控制使用上越来越多,处理复杂规划的能力持续提升。近年来,在视觉识别、语音识别、语音合成、机器翻译等程序中的神经网络越来越多,规划控制也已经开始引入神经网络。如特斯拉逐渐在规划控制中引入更多的神经元网络策略来应对开放、无序的道路场景,实现了规划控制试错次数的大幅减少。
最后,整车的软硬件结合架构设计是高级别自动驾驶的难题。由于自动驾驶系统复杂度高,涉及到很多传感器的交互融合,每一个硬件的可靠性都会影响到自动驾驶系统的整体可靠性。在进行整车软硬件结合架构设计时,往往需要整车厂和自动驾驶提供商深度合作,一旦涉及设备种类和数量的调整,往往会对整个系统的运行产生较大影响,因此需要大量的测试和验证。
数据:决定量产能力的胜负手
深度学习是数据驱动的AI,数据积累是现阶段自动驾驶核心竞争点
深度学习是数据驱动的AI
底层技术决定了数据要素在深度学习中的核心地位。在深度学习时代,数据、算法、算力是构造AI的三大要素。由于深度学习的理论基础保证了当输入数据量足够大时,深度神经网络能够逼近任意的函数,且样本数越多,模型越能够收敛至数据背后的真实函数,因此数据要素是深度学习的核心。
深度学习需要海量数据“投喂”,未来较长时间内数据积累都将是自动驾驶核心竞争点。深度学习是自动驾驶算法的核心,而深度学习依赖于数据的反馈。若自动驾驶产品无法在大量的车队上实现量产,就难以发现深度学习算法网络存在的问题,自动驾驶算法的迭代也将停滞。因此我们判断,未来较长一段时间内,数据的持续积累将是各大自动驾驶厂商的核心竞争点。以毫末为提出的自动驾驶能力发展曲线为例,其产品力核心迭代动力来自于数据规模。
数据积累依赖感知层面传感器的配置。目前市场上存在两类配置方案:一类为使用摄像头作为主要传感器、不采用激光雷达感知数据的视觉方案,目前仅特斯拉一家使用,百度2021年底发布的ANP系统也采用了该方案;第二类为以激光雷达为主导的多传感器配置方案,Waymo等L4厂商及其他L2厂商均选择该技术路线。
视觉vs激光雷达?算法、成本、数据综合作用下的最优解
摄像头、激光雷达等各类传感器配置方案各有优劣。自动驾驶技术主要包括感知、规划控制、决策、执行等环节,感知环节主要包括以Waymo为代表的激光雷达主导方案,与以特斯拉为代表的视觉主导方案两类技术路线。激光雷达方案全方位测距能力强,尤其是对深度的探测能力;视觉方案分辨率更高,在当前阶段成本优势明显。
纯视觉路线:特斯拉坚持“第一性原理”,打造类人的自动驾驶系统
特斯拉坚持“第一性原理”,认为视觉主导是实现L4自动驾驶的可行路线,且成本优势明显。2021年5月,特斯拉在美国销售的Model 3/Y车型取消毫米波雷达,完全使用纯视觉解决方案。马斯克坚持“第一性原理”,认为自动驾驶感知过程能仅通过摄像头模拟人眼功能来实现。
特斯拉自动驾驶技术逻辑:将自动驾驶系统看作生物体,摄像头是眼睛,AI算法模型与芯片构成神经与大脑。特斯拉选择数据富余的摄像头作为“眼睛”,并持续开发自己的“神经”及“大脑”——深度人工神经网络算法以及于2016-17年开始自研FSD芯片。此外,特斯拉通过建设自动驾驶的超算集群不断训练能力更强的“大脑”,而仿真系统则类似人类在驾校学习的过程,最终通过大量车队的影子模式不断反馈迭代,特斯拉的自动驾驶的“大脑”可以不断学习实际驾驶过程中的经验,提升驾驶水平。
特斯拉路线的关键是通过车辆销量支撑的海量数据,而采用低价的摄像头才能实现车辆销售放量,获得海量数据积累。特斯拉自动驾驶自成闭环:行驶在道路上的每辆特斯拉都是“数据收集器”,通过车载摄像头收集数据并上传云端,形成庞大且真实的自有数据池。数据输入自建的神经和大脑——自研芯片及自动驾驶算法,实现软硬件的同步优化。Autopilot的“影子模式”完成该学习闭环,影子模式下若用户驾驶行为与Autopilot的决策对比不一致,该场景数据将会被传回云端,进行算法修正。特斯拉闭环模式的重点是高销量,而当前阶段激光雷达价格仍远高于摄像头,安装激光雷达的车辆价格高昂,难以实现特斯拉百万量级的车辆销量。
特斯拉积累的物体标签数据量达1.5PB,远超其他自动驾驶厂商。根据特斯拉人工智能总监Andrej在CVPR 2021上的发言,截至2021年6月底,特斯拉拥有百万量级的车队,已经收集了100万个36帧10秒时长的高度差异化场景视频数据,约占用了1.5PB的存储空间,获得了60亿个包含精确深度、加速度的物体标注,共进行七轮影子模式迭代流程。特斯拉纯视觉版本自动驾驶系统已经积累了近1,500万英里的数据,其中170万英里在Autopilot启动情况下收集。这个数据远远领先于其他自动驾驶厂商,也是特斯拉路线优势的极大体现。
激光雷达路线:众多厂商布局,降价速度是核心,数据融合是趋势
激光雷达能够精准感知速度和距离,具备高可靠性,是大部分自动驾驶厂商发力的方向。与摄像头相比,激光雷达的速度、距离探测能力较强。通常激光雷达的角速度不低于0.1mard,即能够分辨3km距离上相距0.3m的两个目标;其距离分辨率可达0.1m,速度分辨率能达到10m/s以内。此外,激光雷达还具备较强的抗有源干扰能力,可靠程度高。在高级别自动驾驶系统中,高精度速度和距离感知能力是必备能力,因此众多厂商都选择将激光雷达作为高级别自动驾驶的感知方案。
成本高昂是使用激光雷达的痛点,未来激光雷达降价速度成为该技术路线能否大规模应用的关键。激光雷达并非完美解决方案,成本高昂是其应用的最大障碍,且不仅体现车辆生产中,后续对激光雷达这一基础硬件进行更新升级的成本也同样是痛点所在。根据中金研究汽车组调研,每台可量产激光雷达成本已由2017年的US$75,000下降至2021年的US$1,000,未来激光雷达的大规模应用将依赖于成本的进一步下降。
数据、算法、算力、成本综合作用下的最优解
从技术角度看,视觉主导与激光雷达技术路径之争,本质上是AI算法+硬件逼近人脑能力的速度,与激光雷达等可选硬件对数据量、算法弥补程度及其降价速度之间的竞争。对于具备数据优势的特斯拉路线,其技术重点在于提高深度神经网络大脑的辨识能力、语义分辨和可靠性,同时证明视觉信息具备不逊色于激光雷达点云数据的目标测速和测距潜能。而对于多传感器融合的激光雷达技术路线,我们认为,首先,激光雷达降价速度是核心扰动因素,未来激光雷达的大规模应用将依赖于成本的进一步下降;其次,快速处理激光雷达的结构化数据,大幅度降低视觉信号对于后端算法处理的压力,形成更优的组合感知方案是该路线研发的重中之重。
需求端:考虑到消费者对于生命安全愿意付出溢价,激光雷达作为安全冗余在很长时间都具备现实需求。对于消费者来说,自动驾驶安全性是其底线诉求。即使视觉主导路线实现完全自动驾驶技术可行,消费者仍然会追求激光雷达辅助的安全冗余。从这个维度我们判断,未来较长一段时间内激光雷达都存在现实需求。
供给端:大多数自动驾驶厂商不具备明显数据量优势,仍寻求多传感器融合方案。特斯拉视觉主导路线的基础是百万级别销量与1.5PB真实行车数据。商汤科技、毫末智行等其他自动驾驶厂商的数据存量和积累速度无法与特斯拉匹敌,难以满足视觉主导方案需要海量数据量“投喂”的需求,因此,几乎都选择激光雷达、毫米波雷达、摄像头等异源传感器融合方案作为发展方向。
数据体系的自动化水平、效率是关键竞争点
自动驾驶从L2向L4的迭代,非结构化数据依赖大量人工标注。目前自动驾驶主流算法模型主要以有监督的深度学习为主,因此数据质量决定自动驾驶系统模型质量的上限。由于无监督学习尚不成熟、产出模型质量较低,在自动驾驶这类安全性要求极高的场景可用性较低。使用AI进行数据标注也较为困难,只能实现简单场景下的数据处理,因此目前AI模型的训练数据生产仍然需要依赖人工标注,标注内容包括可行驶区域、各类障碍物、建筑、植被、各类车辆、车道分界线、红绿灯等。
数据体系的自动化水平及相关技术对于解决训练数据生产的成本、效率问题至关重要,壁垒较高。高自动化水平的数据体系具有较高的研发门槛,大部分数据标注公司难以进行自动化标注系统的研发,需要专业的研发人员和行业knowhow。自动驾驶的自动化标注方案往往需要包括场景数据库、定制化数据采集标注、数据标注和数据管理平台等服务。以云测数据为例,其自动驾驶标注工具集历经多年研发,包括点云融合跟踪、点云语义分割、图像全景分割、点云智能贴合、点云多帧复制、多边形切割等各类智能辅助工具。以毫末数据智能体系MANA为例,数据收集、处理、标注和AI训练的成本和速度对自动驾驶系统的成本和迭代速度至关重要。
目前自动驾驶企业在数据处理环节较多依赖第三方数据标注厂商。由于对自动驾驶训练数据的标注和筛选需要消耗大量的资源,很多智能驾驶企业和车企都选择将数据标注交给第三方企业完成。第三方厂商可以通过自建数据场景实验室、数据标注基地,自研数据标注系统、数据采集系统,开发数据生产流程,为智能驾驶领域的企业提供定制化的数据采集、数据标注服务,从而同时满足数据标注效率、质量和隐私安全性,加速自动驾驶产业化落地进程。
以特斯拉为代表的车厂不断打造自研数据标注平台,提高自动化水平,正在逐渐使用自动标注替代手工标注。采用第三方标注具有效率低、反馈慢等痛点,导致标记、分析、处理训练数据的延迟较高,特斯拉自建超过一千人的数据标注团队,分成人工数据标注、自动数据标注、模拟仿真、数据规模化四个团队,技术层面已经完成了从2D标注到4D标注和自动标注的进阶,自动标注工具可以通过一次标注就实现所有摄像头多视角、多帧画面同步标注,同时也能就时间维度进行标注。
通过自研的离线数据自动标注和自动训练框架,特斯拉实现无人工干预的识别网络。特斯拉对高难度的标注任务,采用名叫“Operation Vacation”的流程处理。将对应物体的识别网络的设计、训练、测试和放入Data Engine平台的相关工作,系统直接对其进行操作,无需外部人工干预。不同图像的识别标记任务虽然是独立的,但是其中具备大量性质相同的处理流程和环节,可以直接调用上游任务识别的原型。因此,特斯拉自动驾驶团队可以将大部分的工作交给Data Engine和大量已经存在的Prototype来处理,而优化和参数调优,也放在大循环内执行,人工只进行极少的干预,且只会在模型训练效果差、无法收敛等异常状态下发挥作用。
根据特斯拉AI Day,目前特斯拉数据生产主要包括三个阶段:
► 手动标记:1,000人的标记团队与工程师合作,手动标记照片(2D)、三维图像(3D)和三维图像视频(4D)中的信息;
► 自动标记:通过大量特斯拉测试车辆以及用户车辆行驶产生的图像数据,上传到服务器对同一地点进行深度学习与自动标记,完善特斯拉数据库;
► 模拟迭代:通过虚拟环境进行学习,通常用在测试极端情况、难以标记的复杂环境、闭塞路况等现实世界中案例极少的情况,进一步提高自动驾驶系统应对复杂情况的能力。
特斯拉通过“影子模式”针对corner case搜集大量类似案例数据进行修正,形成数据、训练、部署的模型优化闭环,从而不断解决Corner case问题。在“影子模式”下,自动驾驶电脑进行实时同步计算,但不参与车辆控制,当驾驶员的操作和自动驾驶模型的判断出现分歧,特斯拉的自动驾驶电脑记录案例并上传给总部,通过这种方式收集大量数据再进行场景分类和训练。此外,人类司机的操作数据可以为神经网络提供质量更高的半监督学习或监督学习引导。以这种方式快速参考大量corner case,使得云端的自动驾驶神经网络模型得到快速锻炼和修正,这也是特斯拉自动驾驶技术的竞争壁垒。
“影子模式”导致对云端做标记的算力和人力要求大幅提升,需要提高数据闭环自动化比例。影子模式针对corner case的处理方法,导致特斯拉在云端必须具备足够的人力进行标记工作,以处理短期内大量的上报数据,否则上报数据的错误标注会导致已有的自动驾驶模型恶化。因此,数据标注、模型训练的自动化比例决定Autopilot算法自我演进的速度。
特斯拉Autopilot的识别网络能够识别接近一千种目标并作出目标预测。特斯拉纯视觉算法HydraNets可以基于不同摄像头的视觉内容进行识别,进行端到端的训练和推断。特斯拉Autopilot的HydraNet包含至少48个具体的神经网络结构,可以同时执行超过1,000个不同的识别、预测任务,进行一次充分训练所需要的周期是7万GPU小时。
通过自动数据标注等全套流程,特斯拉实现FSD模型能力的不断进化。特斯拉通过基于海量的道路视频信息进行无监督学习,将结构化的、语义的道路信息用来训练autopilot;结合基于视觉的自监督学习,进行视觉信息基础上的深度信息推断;根据历史信息对未来进行预测。基于自动驾驶神经网络模型-大量数据-数据处理-云端数据训练的闭环,特斯拉实现FSD模型能力的持续进化。
算力:大算力芯片元年开启,AIDC助力大模型能力跃升
车端:2022开启大算力芯片落地元年
自动驾驶算力先行,芯片格局“一超多强”
高级自动驾驶中算力助力算法但先行于算法,大算力是竞争焦点。自动驾驶汽车一般以多传感器融合的方式采集数据,处理数据需要强大的AI芯片提供算力支撑。自动驾驶级别越高,数据采集、传输、处理量指数级提升,对AI芯片算力要求随之提升。据高工智能汽车研究,L2/L3/L4/L5级别自动驾驶芯片的算力最低要求分别约为10/100/320/1,000 TOPS(TOPS:每秒万亿次操作)。从AI算力现状来看,特斯拉FSD 1.0提供72 TOPS,其对应HW 3.0计算平台采用双芯片设计,可提供144 TOPS算力,超越主流芯片厂商,但仅可满足L2/L3级别自动驾驶需求,未来大算力芯片成为自动驾驶升级体验感的核心竞争点。
AI芯片算力前置冗余存在必要性。自动驾驶车辆对感知的需求较高,像素和数据量均对算力提出了不断攀升的要求。此外,硬件迭代远慢于软件,整车出厂时定义为L2或L2+级别自动驾驶,后期可通过软件的升级迭代支持各种附加功能,需要额外算力支持,因此算力需较算法需求具备前置冗余性。
自动驾驶AI芯片竞争格局呈以英伟达为领导者的“一超多强”之势。
► 英伟达:英伟达入局自动驾驶行业最早,于2014年布局AI芯片,先发优势明显。依托于GPU龙头地位、完善的CUDA生态建立了AI芯片上的领先地位。由于自动驾驶软硬件的高耦合性,英伟达通过发布软件平台进一步巩固了其先发优势。2015年英伟达率先推出自动驾驶平台DRIVE PX/PX2,又在2019年推出自动驾驶统一架构DRIVE和为汽车量产设计的Orin计算平台,成为自动驾驶芯片领域的领导者。
► 英特尔Mobileye:英特尔于2017年收购PC芯片巨头Mobileye入局L2自动驾驶市场。Mobileye以视觉感知技术为基础,推出了算法+EyeQ系列芯片组成的一系列解决方案,能帮助客户快速完成自动驾驶系统的研发,帮助车企实现从L0级的碰撞预警到L2级的ICC集成式巡航等ADAS功能。
► 高通:高通打造自动驾驶软硬件的整合方案。硬件方面,高通在消费级芯片和座舱芯片上处于领导者地位,其自动驾驶芯片具备更高的性价比和更丰富和生态系统,在ASIC对GPU的替代趋势下,高通在自动驾驶芯片领域持续追赶。软件方面,高通发布Snapdragon Ride平台,和中科创达等软件服务商合作推进该平台的落地,并收购自动驾驶公司Veoneer旗下Arriver业务,将其感知及决策软件系统纳入ADAS解决方案中增强综合实力。
► 特斯拉:电动化+智能化的先行者,践行视觉AI路线,积累海量视频数据和算法模型,自研FSD芯片,完成数据、软件平台、硬件的全栈式自研。特斯拉曾采用Mobileye和英伟达的AI芯片,之后由于对算力需求较高转而自研FSD芯片,并在2019年量产入车。
► 地平线:地平线专注于边缘人工智能芯片研发,推出国内首款车规级芯片,打破海外巨头垄断,是国内极少数实现量产的车规级AI芯片企业之一,截止2021年9月,芯片出货量已突破50 万片。
2022开启大算力自动驾驶芯片量产元年
2022年为自动驾驶芯片量产元年,竞争格局变化为主因。根据英伟达、高通等头部厂商对其芯片的量产时点预测,英伟达Orin、高通Snapdragon Ride、地平线征程5等多款大算力芯片均计划于2022年量产入车,我们认为2019-2020年自动驾驶竞争格局发生剧变,叠加1-2年芯片厂商与车厂的合规、测试验证期,为2022年集中量产的背后原因:
► 特斯拉作为感知技术自研的先行者,引领域控制器架构,催化芯片厂商格局变化。特斯拉于2017年启动自研,改变传统硬件架构,从雷达、摄像头分别计算再融合,引领自动驾驶域控制器架构,并通过自研感知算法进行融合和决策。在特斯拉的带动下,大量车企开始自研感知技术,摄像头或雷达系统内部的计算芯片不再必需,但传感器的种类和数量增加对域控制器内的计算芯片提出了更高的要求,自动驾驶计算架构也向集中计算架构转变。这一变革下,高通于2018年入局,特斯拉自研芯片于2019年搭载Model S等3款车型量产,英伟达也推出Orin系列大算力芯片,并于2021年抢占造车新势力卡位。
► 与车厂适配和测试需1-2年,周期较为刚性。2020-2021年为芯片厂商发布大算力芯片与计算平台的集中区间,也是与车厂OEM就未来车型建立合作卡位的时机,考虑到适配和测试周期较为刚性,2022年为竞争格局开启的元年。
未来智能驾驶芯片格局研判:从强算力到开放性生态
大算力与能效比是首要竞争要素。自动驾驶AI芯片发展水平相较当下量产的L2/L3需求具备一定冗余,但尚不满足L4/L5级别需求,因此大算力依旧是核心竞争要素。激光雷达的广泛应用,将大大增强自动驾驶感知能力的精度和确定性,激光雷达与机器视觉组成的AI感知技术与大算力的深度融合,将会进一步提升自动驾驶感知、认知模块的运行效率。此外,地平线、高通分别采用ASIC芯片、ASIC与SoC结合路径,具备更高能效比,同为重要竞争要素。
除算力比拼之外,开放性平台提供的丰富软件生态成为又一核心竞争要素,英伟达和高通生态具备天然优势,国内厂商地平线和华为紧随其后。建立丰富生态的意义在于,支持视觉、毫米波雷达、超声波雷达、激光雷达等多种传感器输入,并结合各类软件开发工具降低客户的开发难度,也可以灵活调整与客户的合作模式。
云端:AIDC提供强算力后盾,助力算法模型能力快速提升
自动驾驶为什么需要AIDC?
大算力能够处理大体量的回传数据,构建高精度模型训练壁垒,催化性能边界突破。当数据量较大时,需要大规模计算中心进行分布式并行训练,否则训练的耗时将无法接受。同时,大算力也足以支撑训练更精细的模型。依据特斯拉人工智能与自动驾驶视觉部门主管卡帕蒂,截至2021年6月,特斯拉需要对60亿个物体的距离、速度、加速度等进行标注,数据量高达1.5PB。对于此类数据量大、神经网络参数高的模型进行训练,模型的高精度和高效率需要大规模云端超算中心提供算力支持。
此外,大模型路径是人工智能产业趋势,大模型迭代速度远高于硬件算力,催生大算力需求。近五年模型参数和复杂度近指数级增长,GPU算力则远远滞后。依据Percy Liang、李飞飞[1]等学者论文,计算机系统硬件是数据和大模型拓展的关键瓶颈。MIT计算机科学家Charles Leiserson于《Science》发表的一篇文章[2]中指出深度学习正在逼近现有芯片的算力极限,目前计算能力提高10倍相当于三年的算法改进,因此随着算力持续提高,硬件成本、训练成本将越来越高。
特斯拉专注于神经网络优化的人工智能计算集群总算力达1.1 EFLOPS,与谷歌、商汤同为当下第一梯队。谷歌于2021年5月发布新一代ASIC人工智能芯片TPU v4,主要以pod形式应用,单个pod由4,096个TPU v4单芯片构成,可提供1 EFLOP的算力(对应每秒10^18次浮点运算)。截至2021年,商汤的超算集群可以提供1.1 EFLOPS算力(BF16,较低精度口径),临港AIDC建成后总算力超4.8 EFLOPS。相比于谷歌、商汤的通用AIDC,特斯拉的Dojo超级计算机则专注自动驾驶视频处理,可实现1.1 EFLOPS算力,以全球第一梯队实力支持自动驾驶大算力需求。
超算中心对于训练大模型、降低算法成本至关重要,巨头具备天然资本和技术优势。由于超算中心是支持大模型算力的关键,谷歌、特斯拉等巨头依托于资金优势,近几年大力投入AIDC基础设施建设,我们预测耗资十亿美元以上。对于自动驾驶,自研超算中心能实现高稳定性、低时延、大带宽、软硬件兼容性高等技术特点。新一代AI算法发展大背景下,Transformer等大模型技术需要大算力技术平台做支撑,超算中心将会支持自动驾驶技术进入新阶段。
类似自有电商业务需求孕育了亚马逊、阿里巴巴等CPU时代云计算巨头,我们认为自动驾驶等AI巨头具备GPU/ASIC云计算市场的天然先发优势。相对于成熟的x86服务器市场,GPU服务器规模仍较小,且GPU服务器目前阶段更多基于本地部署,基于GPU服务器的云计算市场仍处在发展初期阶段,且相关技术仍并未完全成熟,在大规模GPU并行计算的效率及稳定性等领域存在较多挑战,技术壁垒较高。回顾CPU时代云计算发展历史,正是自有业务的需求推动亚马逊、阿里巴巴等电商巨头前瞻地发展云计算相关技术,并在业务发展实践中不断打磨技术的效率及稳定性,从而形成先发优势。而GPU/ASIC时代底层技术变化较大,目前仍处在萌芽期,未来随着GPU/ASIC云计算市场持续发展,我们认为具备自有需求支撑的自动驾驶龙头、AI龙头有望复制这一发展路径,在GPU/ASIC云计算市场发展中占据先发优势。
[1] https://arxiv.org/pdf/2108.07258.pdf
[2] https://www.science.org/doi/10.1126/science.aam9744
文章来源
本文摘自:2022年1月27日已经发布的《人工智能十年展望(三):AI视角下的自动驾驶行业全解析》