中国自动驾驶挑战特斯拉的终极武器来了！毫末智行MANA数据智能体系来了

来源：时间：2021-12-23 22:55:03 阅读：-

自动驾驶的终极竞争是基于“量产+数据智能”的汽车大脑之争，欲与特斯拉匹敌的中国自动驾驶公司首先需要面对百万级的量产门槛。

12月23日，毫末智行CEO顾维灏在HAOMO AI DAY上首次披露了该公司的数据智能体系MANA，中文名“雪湖”，并宣布筹建毫末超算中心。在“未来三年毫末辅助驾驶系统可搭载超100万台乘用车”的预期下，MANA所代表的数据智能能力被媒体广泛关注。顾维灏表示，数据智能是毫末的思想钢印。

顾维灏介绍说，MANA“雪湖”出自于《三体》，是破解三体危机方法的空间代名词，“这个名字代表了毫末以AI通向自动驾驶梦想的思考，是未来毫末智行能力进化的核心动力。”

在HAOMO AI DAY上，顾维灏从感知、认知、标注、仿真、计算五大能力全面介绍了MANA。MANA由BASE、TARS、LUCAS、VENUS四个子系统组成。BASE包括了数据的获取，传输，存储，计算，以及新的数据分析和数据服务；TARS是一些关于计算的核心算法原型，用于感知、认知、车端建图和验证的实践；LUCAS是对算法在应用场景上的实践，包括高性能计算、诊断、验证、转化等核心能力；VENUS是数据可视化系统，包括软件和算法的执行情况，对场景的还原，以及数据洞察等能力。

“数据是人工智能最大的驱动力，也是智能进化过程中最大的成本，数据智能的核心是降低成本、提高迭代速度。”顾维灏表示，在自动驾驶能力发展曲线“F=Z+M（X）”中，F代表产品的产品力，Z代表第一代产品，M是一个把数据转化为知识的函数，其中的变量X便是数据规模。“如果产品没有量产，如果量产不到数万的规模，很难意识到自动驾驶的问题，也就无法以此迭代算法，不断提高智能化水平。”数据显示，成立至今，两年时间，搭载毫末智行辅助驾驶系统的乘用车车型已达到5款，无人物流车车型5款，无人跟随设备2款，毫末智行已经成为了中国自动驾驶公司的量产王。其中搭载了毫末智行辅助驾驶系统的乘用车包括了魏牌摩卡、坦克300城市版、魏牌玛奇朵、魏牌拿铁、哈弗神兽等热门车型，用户辅助驾驶行驶里程已经突破400万公里。

另据透露，2022年，MANA的“超级能力”将直接应用在用户产品中。2022年中旬将推出的城市NOH，将使用届时全球最大算力的辅助驾驶域控制器小魔盒3.0，其单体算力可以达到360T。而2022年下半年毫末智行将推出全场景NOH，并在2023年推出毫末自动驾驶HSD（HAOMO Self-Driving），MANA的技术力量正在显现。

以下为顾维灏演讲实录：

这次我来分享毫末在AI上的实践和规划。

首先我们的全家福，又添新成员。对毫末认识早的同学会了解，毫末的风车战略，一个数据智能中心，三个业务方向，包括乘用车、末端无人物流车、智能硬件。在乘用车方向，这个季度增加了三款车型，魏牌玛奇朵、魏牌拿铁、哈弗神兽，至此，毫末成立2年的时间里，搭载毫末产品的乘用车车型达到5款，无人物流车车型5款，无人跟随设备2款。毫末同学用疯狂的工作热情，在24个月内打造了12款产品，为客户创造了巨大价值。

我们乘用车业务的第一款产品，魏牌摩卡，在今年车展后开始逐步量产，在这6、7个月里，用户非常喜爱我们提供的辅助驾驶功能，到目前为止，小魔盒辅助驾驶里程已经突破400万公里。我们计划三年内搭载100万量设备，创造更多的社会价值，让驾驶更安全。

更多的使用人数，更多的行驶里程，都代表了更多的信任和更大的责任。我们会用数据智能的“思想钢印”，用更低的成本和更快的迭代速度，提供更安全、更好用的产品给用户。

为什么叫思想钢印？我们四次开放日，出现了四次“数据是人工智能最大的驱动力”，数据也是这个进步过程中最大的成本，自动驾驶产品的完善是个漫长的进化过程，就像是智人在漫长的历史过程中，一定要找到用最低能量消耗维持生命的方法，开发智力和积累经验进化人类文明。所以我们数据智能的核心，也是降低成本，提高迭代速度。

在这400万公里的使用中，我们发现了大量的，量产前想不到的情况。发现现实世界远远比我们想的复杂。不一样的天气、道路、交通参与者、交通流密度、约定俗成的行驶习惯，构成丰富的现实世界。很多场景，我们人类开车都会很有挑战。需要小心从盲区走出的行人，需要和交通参与者互相的博弈，还需要面对不守规矩的交通参与者。

在我们目前系统的用户使用中，我们发现，三大主要用户接管的场景：大车通行带来的压迫感、道路施工带来的不规则路段、周边车辆的非规则切入，每一个场景都值得我们仔细应对。

在这个进化过程中，我们总结了自动驾驶能力发展曲线，他是个与数据规模相关的函数，F=Z+M（X）。其中F代表产品的产品力，Z代表我们坐在办公室里设想的第一代产品，M是一个把数据转化为知识的函数。包括：数据获取、数据表达、数据存储、数据传输、数据计算，数据验证，所有的这些考虑点，又要加上对成本和速度的影响。

这些因素，如果产品没有量产，如果量产不到数万的规模，都是很难意识到的问题。从自动驾驶开始，人类已存的数据结构，将会有巨大的结构性变化。现在人类存储内容中，文本数据的价值占主导地位，移动互联网时代加入了很多照片，在未来影像数据所占的比例会越来越大。这将会影响到很多行业的发展，我后面还会讲到一些。

所以这个M，面对的数据是以影像为主的数据，面对的问题，是很多新问题，会有很多新挑战。获取，包括了数据的记录，数据的选取与数据的压缩。表达，包括了数据的定义，数据的关联。存储，比较好理解，但是当数据量快速增加的时候，在当前存储机制下，将会面对不同性价比的存储方案。传输，这个可以稍微展开下，包括了芯片内的片内数据传输，包括在同一个硬件内部异构芯片间的数据传输，也包括从端到云的数据传输。计算，这里会有我们算法的概念，会有所有AI算法为了完成特定的任务所进行的计算。验证，包括了对计算结果的比对验证和仿真验证。M是复杂的，我们在实践和思考和沉淀了很多，今天我们把最核心的数据智能体系M，拿出来与大家分享。

毫末的数据智能体系，雪湖系统，我们称之为MANA。MANA包括了我刚才提及的所有思考点，由BASE、TARS、LUCAS、VENUS四个子系统组成。BASE包括了数据的获取，传输，存储，计算，以及新的数据分析和数据服务；TARS是一些关于计算的核心算法原型，用于感知、认知、车端建图和验证的实践；LUCAS是对算法在应用场景上的实践，包括高性能计算、诊断、验证、转化等核心能力；VENUS是数据可视化系统，包括软件和算法的执行情况，对场景的还原，以及数据洞察等能力。MANA将作为毫末AI的底层系统，作为毫末能力进化的核心动力。

接下来，我将从感知、认知、标注、仿真、计算五个方面，对于我们的实践作进一步的分享。首先是感知，我们在上次开放日也与大家分享了很多。我们目前核心的感知设备，是camera和lidar，所以核心问题是如何让1+1≥4。对于camera的影像，我们用一个公用的backbone网络（resnet），计算好基础数据，然后生成两个neck，一个是特征的fpn neck，基于这个neck可以引出8个head，分别来计算lane，stop line，road boundary，segmentation，和vidar，vehicle，traffic light，和vru。另一个neck生成用于free space和场景识别。

对于lidar的点云，我们用pointpillar算法，它的特点是计算快。首先把点云数据降维进行伪二维化，之后使用一般图像的方法进行backbone的计算，最后多head进行3d box的检测和一些障碍物的检测。这种分别识别结果，然后作结果融合的方法，比较标准，我们也在使用，取得了很多不错的效果。但在使用的过程中，我们发现这不是最高效的方法。

因为这种方法，我们是在孤立的看传感器。过去，算力不够，安装的传感器也不多，这种方法还可以。但是，今天不一样了，车上传感器个数和种类都越来越多，我们明年量产的车里就有12个摄像头，2个激光雷达，5个毫米波雷达。如果还是孤立的对待传感器，就会发现，很多传感器个体，看到的都是障碍物的片段，不完整，这样就不能准确的对现实世界进行刻画。

另外一个角度是，我们现实世界是连续的，不是离散的，我们不能继续停留在对世界的静态快照中，必须引入时间的维度，让车辆回到四维的世界中。

所以，设计了更高效的方法。不做结果融合，而是做两种数据源的过程融合。我们最终的目标是把现实世界反应出来，反应到我们的tensor map里。这两年AI算法突飞猛进，跨模态算法和时间序列算法也得到了很大的进步。

首先把从camera和lidar的数据在backbone中进行计算，然后经过Transformer的多模态融合把数据映射到tensor space中。再经过一层特征提取后，我们加入时间的特征，在这个过程中我们了使用rnn和光流slam进行时空融合。这样我们就有了时空一体的模型，在此基础上再进行多head的计算，计算出所需要的结果。

我们相信，这种多数据源的时空融合，会快速拉升我们的感知能力，让我们能够更准确的刻画现实世界。

介绍完感知智能，我们接着看认知智能。感知要解决的是从传感器信号中重建客观世界的问题，而认知要解决的是从客观世界到驾驶动作的映射问题。认知和感知最大的差别在于：感知有一个清晰的标准——完全真实的反应客观世界即可，越真实越优秀。评价标准是完全白盒的，没有歧义，剩下的就是用巨量的数据去保证覆盖掉所有的corner case。

认知则没有这样可解释的，可量化的，且共识的评价标准。我们认为认知的三要素是：安全、舒适、高效。CSS是我们的安全模型，我们希望不只局限在从纯机械的角度保证自己不主动犯错，而是充分考虑从数据中学习到的对其他交通参与者行为的理解和超时空的历史经验，以此来促进整个社会的交通安全。CSS就是把我们的安全目标、安全原则和实现方法做了约定。安全底线之上，我们同样从数据中学习舒适和高效的量化标准，以及这三要素之间的制约关系。

接下来我们从宏观到微观，逐步认识下自动驾驶的认知智能。首先是如何表达我们在特定场景下的驾驶行为，在这方面我们做了很多研究。影响我们驾驶行为的细节很多，可以从宏观上分成几个影响因素：天气、道路结构、交通参与者、交通流密度、彼此方位、主车路线、碰撞风险和碰撞时距。我们从已有的数据中挖掘和表达这些属性，然后再进行聚类和分类，以找到更加舒适和高效的解决方案。从这个图中，我们可以看到分类的结果，如此就将驾驶场景做了一个宏观维度的划分。

之后我们进入认知的微观，举个最简单的例子，就是跟车启停。这是我们开车再普遍不过的场景了。当我们把时间粒度切细，还是可以发现很多不同。把启停分成四个阶段，看看用户的心理变化：

1. 稳态跟车：用户关注的安全距离，不恐慌

2. 前车减速时：用户关注安全距离以及过程中的体感

3. 前车刹停：用户关注刹停后距离和体感

4. 前车起步：关注启动时机是否满足预期+起步体感

这是两类用户的开车习惯，激进的用户制动和加速的加速度大，有推背感；另一类用户会感受上会更平缓一些。场景和动作被数字化后，我们就可以做更多事情了。

首先，我们在研究一种端到端的模拟学习，就是从一种数字化的场景，根据之前的事例作为指导，得到具体的本车动作。模拟学习，需要更大的数据样本，特别是标注好的数据，然后从数据中学习得到规律。我认为这是自动驾驶的最好的模拟学习用武之地，最为直接，因为所有的场景都可以被数字化感知，所有的标注都已经在我们自己开车的过程中自己被标注。我们需要做的，就是挑选更符合要求的司机驾驶行为，在不同场景下持续的训练。

图中不同颜色的方块，代表一个时序范围内障碍物的运动，看似一个静态图片其实表达了一段动态的影像，红色是开始的时间，每个色块代表一个时间范围。主车根据模仿学习的算法，可以直接生成驾驶决策。这个方向我们做了很多实践，也有了一些收获。

另外，我们也实践了很多深度强化学习。我们首先定义好得分的目标函数，它是一个概率函数，表征了在某个场景下人类动作和交通规则约束下该做的动作的概率。根据前几页讲到的细分场景分类，训练自车动作和全局最优的网络。我们实践了6种强化深度学习的算法，发现RSAC更适用于我们研究的场景，能够更快收敛，能够得分最高，能够走的更远。

介绍完认知，我们再来看看人工智能的养料。我们都了解，很多人工智能的算法，比如感知的进步需要很多标注的数据。面对大规模量产，尤其要关注这个问题。比如，Tesla标注了60亿个物体，包括精准的3D信息、深度、速度。我们现在也有几百人，在帮助我们做标注，但是如果做到这60亿，达到如此的精度，按照今天市场的价格计算，我们要再融几次资，这样的方法并不高效。

所以必须要换个方法，我们要像做用户产品一样，做标注系统，做一个高效的标注系统。我们也把闭环的思路用上，把无监督自动标注算法用上。比如车道线识别，我们目前大部分是通过自动标注完成的。性能是市场上很多家的几倍，但这还远远不够。我们还会加大力度，做的更好。

我们再来看下验证，现在有种流行的说法叫自动驾驶元宇宙。验证有很多层面，比如这个是对感知的泛化验证，我们看到的这些照片，是在同一场景下不同光照、不同天气，不同曝光下生成的。大家以为我们为了拍摄这风霜雨雪下的同一场景化用了多久？1年？其实只有0.01秒。我们知道感知对场景非常敏感，光影、强度都会对识别有影响。如果我们只是在自然界中采集，相对就会低效。所以，我们就在仿真系统中，在我们的元宇宙中生成这些目标图片，然后进行感知的效果验证。

大家这两天在我们的公众号上，看到了一些城市辅助驾驶的测试视频。今天开场的时候大家也看到了一个完整版，11公里，24个路口，27个人行横道，5个无保护人行横道，22个红绿灯，2个四岔环岛，全程34分钟无接管。

很多人惊讶于毫末的速度，如何在技术上能有快速的迭代？除了刚才的介绍外，我们还有个秘密工具，就是元宇宙级的验证。大家再看下这个短视频，左侧是原始视频，右侧是1:1的在元宇宙的还原。我们现在技术上还有些不足，还不能100%的完全复制，但是对我们的帮助也很大了。我们将每一次路侧都还原为仿真中的元宇宙，然后对算法进行快速迭代，进行云端并行仿真，这样就可以大幅提升我们的进步速度。

这张图是晴天的，我们在元宇宙中还可以呼风唤雨，看看下面这个，在不同的光照，天气、道路摩擦系数下，也可以快速完善我们的算法迭代。也许未来有一天，我们坐在车上，在这个元宇宙中，就可以完成与外界的交互和连接？但是我们对更准、更快的思想钢印依然起效果，是不是，还可以迭代更快？

我们认为在接下来的十几年里，在智能汽车的推动下，人类存储的数据将发生结构性的改变。影像数据会越来越多。我们过去经历了文本的pc时代，在移动互联网时代手机拍照方便了，我们每台设备平均每天拍几张照片，在人类的数据中也就存储一些照片。现在已经开始进入到智能汽车时代，每个车上有8～12个摄像头，每个摄像头每秒钟都要处理30张照片，拍照的频率变得更快，需要处理的影像数据变得更多。

由于数据类型的转变，对计算的要求也在发生改变。我们会更看重深度学习的计算能力，会更看重数据传输的带宽，会更看重数据搬运的效率。

同时，我们看到深度学习带来的算力增加。在过去四五年中，算力也在以每年几十倍的速度增加，我们在使用的Transformer大模型会随着数据的增加，消耗越来越多的计算资源。

所以，我们准备筹建，毫末超算中心。以此来更适合我们的计算场景，更快的帮助我们进行智能的迭代。我们将MANA打造的超级能力，赋能我们所有的的产品。特别是我们在明年中旬即将推出的HPilot的城市NOH功能。这个新功能，将使用届时全球最大算力的辅助驾驶域控制器，小魔盒3.0，单体算力可以达到360T。同时，将针对城市交通情况做专项优化。我们可以这么来理解城市NOH，他比高速NOH要复杂很多，比如城市道路是多样性的，规则或者不规则的路口，表现各异的红绿灯，多变少和少变多的车道，清晰度不一的车道线，用锥桶和围挡圈起来的临时道路；比如城市交通参与者是多样性的，包括电动车，三轮车，自行车，异行车；城市交通流也更为复杂，早晚高峰的拥堵，大家换道频繁，启启停停，非机动车和机动车的混行等等。这就要求，自车有更快、更及时的感知能力和响应能力。我们的团队现在也在日夜打磨，期待交付给大家一个最好用的产品。

当然从长期来看，我们的产品能力也会持续进步。在明年中旬交付城市NOH后，我们在下半年也计划交付全场景的NOH，在2023年，大家也将看到我们的新产品HSD（haomo self driving）。未来，MANA将作为毫末能力进化的核心动力。

返回江苏热线首页>推荐阅读>旗龙

图文推荐

江苏热线版权及免责声明：

1、凡本网注明 “来源：***（非江苏热线）” 的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

2、如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。