News - Page 9 - Nullmax

泊车不断在升级，以后停车so easy

对于开车出行的人来说，停车难和堵车苦一样，是一个永远都无法避开的话题。虽然这些年来出现了很多的辅助性技术，但是实际的停车体验仍谈不上尽善尽美。在很多时候，司机朋友们不得不在停车场前大排长队，或是在停车场内“刷圈”找空位，偶尔还得在“夹缝”中将车辆送进车位……路上半小时，停车20分钟，是很多人都曾有过的经历。如果再停到远一点的地方，“栉风沐雨”地取车也是难免。】= 可以说开车出行所带来的便捷，常被这样耗神费力的停车经历冲淡不少。不过，这样的日子真就没有尽头吗？答案当然是NO。从自动泊车说起早在几年前，不少新车就装上了一项叫做自动泊车的功能，率先向停车难问题发起了挑战。司机将车开到空车位前面，就可以使用这项功能将车停进车位中，过程中只需要在驾驶座上简单操作几步，然后监视车辆周围环境不出问题就行。在这个过程中，车辆主要是靠超声波雷达来感知环境，也是靠它来发现空着的停车位。当汽车低速经过停车位边上的道路时，它能探测出旁边是否有一块尺寸符合车身要求的“空地”，然后慢慢完成泊车。但是由于技术本身的限制，自动泊车并没有将很多人从停车难的“苦痛”中解救出来。这项功能非常基础，仍需要司机把车开到空车位旁边，它的车位识别率并不高，通常只支持垂直和水平车位，不能识别划线的车位，需要有汽车、墙面等参照物，不能识别各种各样的障碍物并避障……泊车过程中司机需要持续注意车内和车外的情况，主动或被动地进行一些操作。因为车辆仅使用超声波雷达作为环境感知的传感器，获取到的信息十分有限，所以也就只能实现基础的泊车辅助。本质上来说，自动泊车也只是部分地解决了“倒车入库难”和“侧方停车难”，它的自动化程度并不高，远没有到达自动驾驶的地步。视觉技术的魔力要想汽车的泊车功能聪明得像人一样，首先要做到的就是它能像人一样可以看见和看懂周围的世界，而这背后的关键就是以计算机视觉为代表的一系列感知技术。对于汽车来说，摄像头是极为“明亮”的眼睛，它能提供丰富的环境信息，从各不相同的颜色到千奇百怪的形状……几乎是所有泊车用得到的环境信息，而不再只是简单地探测距离。当车辆获取到的信息越充足，它能够完成的事情也就越多了，这使得泊车功能的可用性大大提高。借助车上的摄像头，车辆不仅可以在泊车功能中应用VSLAM技术，还可以实现对各种车位的检测，可以检测车辆的通行空间，可以检测行人和车辆等障碍物并进行避障…… 过去司机所遇到的排队“进场”、苦寻空车位、停车“左支右绌”、停车位距离远等等问题，都能在这个更为先进的自主泊车功能上得到改善。量产的自主泊车 Nullmax采用以视觉为主融合超声波雷达的低成本单车智能自主泊车方案。在不少人看来，停车场及周围因为环境相对封闭、车速相对较低，在自动驾驶量产方面具有很大的优势，但是这并不等同于实现自主泊车的量产应用难度就不高。实际上，自动驾驶在这个特定的应用场景下也有着并不妥协的技术要求，比如定位的精度和稳定性、障碍物检测的准确率和速度，等等。如果在室内停车，或是在高楼林立的园区穿行，车辆的卫星定位性能可能会急剧下降；泊车过程中如果遇到爬坡，车辆可能因为有仰角而无法看到障碍物；在车辆、立柱、路口较多的停车场存在不少盲区，容易突然出现近距离的障碍物……而这些只是量产中需要解决的一小部分问题，自主泊车的挑战可以说一点也不小。实现自主泊车需要完成一系列的工作，从建图、导航、寻找车位到车辆的泊入和驶出，必须样样都经得住考验。Nullmax的泊车方案支持水平、垂直、斜向车位的自动泊车，完成精准泊入。除了常见的车位类型，它同样也能够识别砖草车位、夜间车位、模糊车位等特殊的车位，具有很高的车位检出率和检准率。为了安全地处理各类工况，尽可能地提高泊车体验，Nullmax为车辆提供了360°全方位的感知能力。依靠配备的传感器，车辆在泊车场景下可以稳定检测50米远的行人，150米远的车辆，在巡航、泊车的过程中实现无死角的自主避障，并且做到随停随走。而视觉和超声波融合检测可通行区域，也让车辆的感知没有盲区，定位精度可以达到厘米级。处理各种的极端情况，如PV管、垃圾桶、纸箱等未定义障碍物。对于突然出现的近距离障碍物，系统可以触发紧急制动保障安全。除此之外，通过HMI系统也可实现包括选择车位、智能召唤、紧急制动等功能在内的智能友好的人机交互。 Nullmax的泊车方案采用视觉方法建立地图，通过视觉输入的语义信息和地图构建模块，实现高效、高精、低成本的建图。而专研的泊车导航系统，也能让决策规划的结果更可靠，结合泊车场景下多急转弯、岔路口的特点，在相应工况做出调整车速、重点关注两侧来车等针对性的决策。在室内和室外，以及上下坡地段，Nullmax的泊车方案可以实现厘米级的定位精度，并且场景鲁棒性高，能够适应光线、天气变化等情况，消耗内存少、稳定性高。这样一套实用易用、安全稳定、成本够低的泊车方案，能够为很多司机在平常上下班的时候提供不少方便。融合一体化方案事实上，自动驾驶车辆在泊车过程中，一定会遇到方方面面的难题。这些停车场有的是地下，有的是地上，有的则是多层；它们有的是直接在马路边上，有的则是在院区或者园区内；除了常见的多种车位外，还会遇到很多的非标车位。而且在路上和车位中，也随时可能遇到各种各样的障碍物。这些方方面面的难题，都对自主泊车的性能，尤其是感知的性能，提出了很高要求。软件算法和硬件配置的不断升级，让汽车变得越来越“聪明”，并且持续进步，但与此同时在车端以外布置设备，让停车场也“聪明”起来，也是一条可选的路径。在一些复杂的停车场景中，人车密度大，行人、普通车辆以及自动驾驶车辆混合在一起，环境复杂且变化快，单一技术存在功能失效的风险。而融合一体化的方案可以形成多传感器前融合的车载感知新系统，让场内设备与车上的感知、通讯模块融合，来实现在极端复杂泊车场景下的泊车功能，并且实现停车场间的智能化调度和停车场内车位的动态规划。融合一体化的泊车方案可以使用车辆原有的视觉避障和自主泊车配置，对规划控制系统进行升级，增加少量新的配置，就能够将泊车的体验进一步完善。随着自动驾驶的出现，停车难和堵车苦一样，这个存在了很久、困扰无数司机的用车难题，正在一步步得到解决。相信在以后，无论是怎样的停车场和停车位，都很难再“为难”大家！

23 2020/07

Blog

纽劢研习社 | 深度图的「非深度讲解」

对很多人来说，自动驾驶早已不是一个陌生的名词，但是深度图（Depth Map）的话，相信不少人还是第一次听说。顾名思义，深度图是用来反映深度信息的图像，而其中的深度信息指的就是距离信息。它用来描述相机拍摄到的场景图像中每个像素点到相机的深度，计算环境中物体到相机的距离。 [caption id="attachment_1125" align="aligncenter" width="640"] （图1：深度图示意效果。颜色越浅的部分深度越小，距离越近。）[/caption] 01 深度图的基础知识在自动驾驶中，如果车辆能够稳定可靠地获取场景中各点的深度信息，那么它的作用是显而易见的，比如进行像素级的测距，3D目标检测，未定义障碍物的检测，等等。从而可以实现路面上所有突出障碍物的检测，以及任意障碍物的测距。另外，将相机图像结合深度信息充填RGB色彩也可以生成像素级点云，实现类似于激光点云的效果。虽然它的测距准确性不及激光雷达，但点云远比后者稠密，而且RGB着色不需要人工进行同步、校准等工作。 [caption id="attachment_1124" align="aligncenter" width="640"] （图2：视觉方法生成的像素级点云效果示意）[/caption] 可以说，深度图在自动驾驶领域有着相当广阔的应用前景。业界求深度图方法的有很多种，归纳起来可以分为三类： 1）双目相机结合立体图像，模拟人眼的立体视觉，将同一点在左右两幅图像不同位置进行匹配后，结合相机外参求得深度。 2）单目相机结合单幅图像，直接进行深度推理。将单目的照片结合单目的深度图或激光点云，放入Encoder-Decoder模型中直接进行学习。 3）单目相机结合时序图像，用前后时间图像上的点进行匹配，运用一些SLAM的假设求出相机位姿和周边环境中各点的深度。双目方法较为常用，它将两个相机横向严格放置，预先通过标定获取焦距和基线长度，在知道某点在左右两幅图上的横向位置后便可计算出视差，然后利用相似三角形的原理求出深度。 [caption id="attachment_1123" align="aligncenter" width="320"] （图3：双目匹配的原理）[/caption] 就像目标检测有mAP、检准率、召回率这些指标一样，深度图同样也有一些评估的方法和指标。目前比较常用的有KITTY D1 error，它计算的是匹配失准的像素比例，以及EPE（end-to-end point error）和一些深度图定量评价指标，如平均相对误差、均方根误差、均方根对数误差、平方相对误差、精确度。在深度图方面，主流的公开数据集有三种类型： 1）合成数据集，它先进行3D建模，然后用虚拟相机捕捉图像。优点是精度非常高，成本非常低，也能实现一些复杂的功能。缺点在于成像不真实，场景不真实。 2）激光雷达和CAD数据集，它的优势是精度和真实性高，劣势是点云稀疏，对快速移动的障碍物难以补偿，成本相对较高。 3）传统算法生成的数据集，比如用SGM或者是SFM+SGM生成，它的优势在于零成本，缺点是可靠性极差。 [caption id="attachment_1122" align="aligncenter" width="480"] （图4：不同类型数据集）[/caption] 02 不同的技术路径在这些年的发展当中，求深度图的方法衍生出了很多不同的技术路径，既有传统方法，也有诞生于深度学习不同时期的一些方法。正是在这些技术方向的共同突破，让深度图应用到量产自动驾驶方案上成为可能。传统方法传统方法的性能一般，但是当中一些具有代表性的经典算法，提供了很多有价值的思路。以SGM为例，它求深度图的过程可以分为匹配代价计算，代价聚合，视差计算和视差优化，这一经典思路和其中的不少细节为之后的很多算法所借鉴。 [caption id="attachment_1121" align="aligncenter" width="640"] （图5：SGM算法示意）[/caption] 传统方法的不足之处在于，面对弱纹理、重复纹理、明暗失调、遮挡等情况时会出现难以匹配的问题。因此它的效果并不理想，求得的深度图通常连续性差，或者轮廓不清晰，甚至是存在明显的深度错误。在一些环境和场景可控的工业领域传统方法尚且适用，但是对于场景繁多的自动驾驶感知环境而言，传统方法非常具有局限性，难以胜任。早期深度学习方法相比之下，早期的深度学习方法在性能上就要好上不少。早期深度学习方法是在传统方法基础上做了一步改进，那就是在匹配代价计算中不再用传统的手工提取特征方法进行计算，而是改用深度学习。早期深度学习方法的特点是，性能不错但耗时较长。在2015年，像MC-CNN这样的卷积神经网络的KITTI 2015 D1 Error已经可以达到3.6%，而传统的SGM算法是10%左右。在运行时间几乎普遍以分钟计的早期，MC-CNN的运行时间也是略多于1分钟。 [caption id="attachment_1120" align="aligncenter" width="640"] （图6：MC-CNN示意）[/caption] 值得一提的是，MC-CNN在高峰期时的变体非常多，主要的思路包括有提升网络性能，增加感受野，处理多尺度特征，简化训练过程，等等。早期深度学习方法的思路是先用深度学习的方法求两点的相似度，然后构建3D的匹配代价体，余下部分全是传统方法去做，所以耗时很高。当前深度学习方法在2017年一些研究出来之后，基于深度学习求深度图的方法也到了一个新的阶段，端到端方法开始成为当前的主流。深度学习端到端方法分为重型和轻型两条技术路径，而GC-Net是典型的重型路径。它先用2D卷提取特征，然后组建4D的代价体，全程进行3D的卷积，最后用Soft ArgMax函数求出模型的损失。 GC-Net的性能非常出色，D1-all指标达到了惊人的2.87%（对比之下MC-CNN是3.89%），而且耗时为0.9秒。不过，这类重型网络的嵌入式部署的难度很大，即使相比于早期深度学习方法已经很轻，但运行时间仍达几百毫秒。相比之下，轻型网络的耗时很短，而且性能较可靠，最为接近量产部署。以DispNetC为例，它是DispNet的两种网络结构中稍复杂的一种，虽然它4.34%的D1-error略高于MC-CNN，但是耗时只为惊人的60毫秒。并且从一些试验结果来看，DispNet的泛化性理论上也较为不错。深度学习方法可以比较好地处理遮挡，这也是与SGM等传统方法不同的一个地方。因为深度学习虽然学的是匹配，但或多或少还学了很多新的先验信息以及全局语义的理解。结合时序信息的深度学习方法这是深度学习方法求深度图的另一个独特技术分支，从2016年后开始出现，采用无监督或者是自监督的方式。其中极具代表性的是MonoDepth2，它是一个单目深度估计的网络，利用SLAM方面的假设，将具有前后关系的图像输进网络，求得深度和相机位姿，并用t+1帧去监督t帧，将t帧推测生成的t+1帧图像与真值进行对比。 Monedepth2性能稳定，有较为不错的单目无监督的深度推理效果，但也存在一些问题，比如无法有效应对遮挡、移动目标以及非理想反射情况，而且单目推理没有求匹配关系，遇到未见过的场景会比较危险。 [caption id="attachment_1119" align="aligncenter" width="640"] （图7：无监督方式求得的深度、深度变化、光流）[/caption] 除了深度和相机位姿以外，这类方法也可以无监督地学习光流，比如GeoNet。而且求光流的方法与求深度的方法几乎完全相同，在匹配的时候用光度差值判断匹配正确与否，匹配上就能算出光流。 GeoNet在学习动态障碍物光流的过程中，可以将移动障碍物解耦出来，而且根据一些先验信息，可以直接求图像的深度，因此这个思路也相对来说有量产价值一些。 03 深度估计的主要模块在早期的深度学习方法中，求深度图通常包括特征提取、形成代价体、代价体过滤和损失函数这几个模块。虽然当前的深度学习方法，大多属于端到端的方式，整体环节会少一些，但是也可以从中找到很多借鉴。 [caption id="attachment_1118" align="aligncenter" width="640"] （图8：经典的GC-Net的网络结构图）[/caption] 特征提取，分为基于孪生网络和基于串联（concact）的方法。孪生网络的话，左右图分别经过一个骨干网络，然后输出左右图的feature map，最后由这两个feature map组成3D或4D的代价体，这是大部分双目匹配网络使用的方法。而concat的方法在开始就将2幅图像合成6通道，全程不用孪生网络而是仅仅使用类似于分割模型的encode-decode结构，比如DispNet。其中形成代价体也有几种方法，一种就是基于相关性的，计算两个特征向量之间的距离；另一种是基于concact的，即将左图特征直接基于视差值进行移动后与对应的右图特征进行拼接（concact），然后形成4D代价体。在代价体过滤部分，4D代价体一般进行3D的卷积，但也可以用一些3D卷积配合2D卷积，3D代价体的话一般是2D的卷积。通常来说，4D代价体的准确性更佳，但计算量也更大。损失函数是比较核心的部分，分为无监督和有监督两类。无监督方法包括有光度损失、视差平滑度损失、左右一致性校验损失等，有监督的则包括有L1和Smooth…

05 2020/11

Blog

Follow Us

For Report