摘要:作为实现汽车自动驾驶的关键基础设施,自动驾驶地图能够提供大量准确且语义丰富的数据来帮助用户以更精细的尺度了解周边环境状况,辅助感知、定位、驾驶规划与决策控制,满足智能时代多种高层次的应用需求,进而切实推动我国自动驾驶相关领域的发展与商业化应用。自动驾驶地图的数据标准作为自动驾驶地图生产应用的指导性规范之一,是自动驾驶地图数据标准化的基准。当前我国自动驾驶相关领域对自动驾驶地图标准化的需求迫切,地图数据标准化已成为业界共同关注的热点问题。为解决自动驾驶地图数据标准化问题,切实推动自动驾驶地图的高效发展,本文对自动驾驶地图的数据标准进行比较研究。首先介绍国内外主流的自动驾驶地图数据标准,然后针对其中4种:导航数据标准(navigation data standard,NDS)、OpenDrive、智能运输系统智能驾驶电子地图数据模型与交换格式和道路高精度电子导航地图数据规范进行分析比较研究,主要从数据结构、数据模型、地图渲染和协同应用4个维度展开,并在各个维度上给出数据标准编制时建议遵循的原则。基于分析比较研究的结果,总结出自动驾驶地图数据标准编制时建议遵循的原则。通过对自动驾驶地图的数据标准进行分析比较研究,归纳总结出数据标准编制时建议遵循的原则,这些建议遵循的编制原则对我国相应规格标准的制定具有借鉴意义。
摘要:目的视觉感知技术是智能车系统中的一项关键技术,但是在复杂挑战下如何有效提高视觉性能已经成为智能驾驶领域的重要研究内容。本文将人工社会(artificial societies)、计算实验(computational experiments)和平行执行(parallel execution)构成的ACP方法引入智能驾驶的视觉感知领域,提出了面向智能驾驶的平行视觉感知,解决了视觉模型合理训练和评估问题,有助于智能驾驶进一步走向实际应用。方法平行视觉感知通过人工子系统组合来模拟实际驾驶场景,构建人工驾驶场景使之成为智能车视觉感知的“计算实验室”;借助计算实验两种操作模式完成视觉模型训练与评估;最后采用平行执行动态优化视觉模型,保障智能驾驶对复杂挑战的感知与理解长期有效。结果实验表明,目标检测的训练阶段虚实混合数据最高精度可达60.9%,比单纯用KPC(包括:KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute),PASCAL VOC(pattern analysis,statistical modelling and computational learning visual object classes)和MS COCO(Microsoft common objects in context))数据和虚拟数据分别高出17.9%和5.3%;在评估阶段相较于基准数据,常规任务(-30°且垂直移动)平均精度下降11.3%,环境任务(雾天)平均精度下降21.0%,困难任务(所有挑战)平均精度下降33.7%。结论本文为智能驾驶设计和实施了在实际驾驶场景难以甚至无法进行的视觉计算实验,对复杂视觉挑战进行分析和评估,具备加强智能车在行驶过程中感知和理解周围场景的意义。
摘要:目的随着计算机与人工智能的快速发展,视觉感知技术突飞猛进。然而,以深度学习为主的视觉感知方法依赖于大规模多样性的数据集,因此,本文提出了基于平行学习的视觉分析框架——平行视觉,它通过大量精细标注的人工图像来给视觉算法补充足够的图像数据,从而将计算机变成计算智能的“实验室”。方法首先人工图像系统模拟实际图像中可能出现的成像条件,利用系统内部参数自动得到标注信息,获取符合要求的人工图像数据;然后使用预测学习设计视觉感知模型,利用计算实验方法在人工图像系统生成的大量图像数据上进行各种实验,方便地研究复杂环境条件等困难场景对视觉感知模型的影响,使一些实际中的不可控因素转变为可控因素,增加视觉模型的可解释性;最后通过指示学习反馈优化模型参数,利用视觉感知模型在实际场景下存在的困难来指导其在人工场景的训练,以实际与人工虚实互动的方式,在线学习和优化视觉感知模型。由于已经有大量研究人员致力于构建人工场景并生成大量虚拟图像,因此本文采用已构建的这些人工场景图像,并对实际场景图像进行翻转、裁剪、缩放等数据扩充,然后以计算实验和预测学习为重点,开展了相关的应用实例研究。结果在SYNTHIA(synthetic collection of imagery and annotations),Virtual KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)和VIPER(visual perception benchmark)数据集上进行的大量实验表明,本文方法能够有效地克服数据集分布差异对模型泛化能力的影响,性能优于同期最好的方法,比如在SYNTHIA数据集上检测和分割性能分别提升了3.8%和2.7%。结论平行视觉是视觉计算领域的一个重要研究方向,通过与深度学习的结合,将推动越来越多的智能视觉系统发展成熟并走向应用。
摘要:目的行人检测是目标检测中的一个基准问题,在自动驾驶等场景有着较大的实用价值,在路径规划和智能避障方面发挥着重要作用。受限于现实的算法功耗和运行效率,在自动驾驶场景下行人检测存在检测速度不佳、遮挡行人检测精度不足和小尺度行人漏检率高等问题,在保证实时性的前提下设计一种适合行人检测的算法,是一项挑战性的工作。方法本文旨在解决自动驾驶场景中耗时长、行人遮挡和小尺度行人检测结果精度低的问题,提出了一种尺度注意力并行检测算法(scale-aware and efficient object detection,Scale-aware EfficientDet):在特征提取与检测中使用了EfficientDet的主干网络,保证算法效率和功耗的平衡;在行人遮挡方面,为了提高模型对遮挡现象的检测精度,引入了可以增强行人与其他物体之间特征差异的损失函数;在提高小目标行人检测精度方面,采用scale-aware双路网络算法来增加对小目标行人的检测精度。结果本文选择Caltech行人数据集作为对比数据集,选取YOLO(you only look once)、YOLOv3、SA-FastRCNN(scale-aware fast region-based convolutional neural network)等算法进行对比,在运行效率方面,本文算法在连续输入单帧图像的情况下达到了35帧/s,多图像输入时达到了70帧/s的工作效率;在模型精度测试中,本文算法也略胜一筹。本文算法应用于2020年中国智能汽车大赛中,在安全避障环节皆获得满分。结论本文设计的尺度感知的行人检测算法,在EfficientDet高性能检测器的基础上,通过结合损失函数、scale-aware双路子网络的改进,进一步提升了本文检测器的鲁棒性。
摘要:目的针对视觉目标跟踪(video object tracking,VOT)和视频对象分割(video object segmentation,VOS)问题,研究人员提出了多个多任务处理框架,但是该类框架的精确度和鲁棒性较差。针对此问题,本文提出一个融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架。方法文中提出的架构使用了由空洞深度可分离卷积组成的更加多尺度的空洞空间金字塔池化模块,以及具备帧间信息的帧间掩模传播模块,使得网络对多尺度目标对象分割能力更强,同时具备更好的鲁棒性。结果本文方法在视觉目标跟踪VOT-2016和VOT-2018数据集上的期望平均重叠率(expected average overlap,EAO)分别达到了0.462和0.408,分别比SiamMask高了0.029和0.028,达到了最先进的结果,并且表现出更好的鲁棒性。在视频对象分割DAVIS(densely annotated video segmentation)-2016和DAVIS-2017数据集上也取得了有竞争力的结果。其中,在多目标对象分割DAVIS-2017数据集上,本文方法比SiamMask有更好的性能表现,区域相似度的杰卡德系数的平均值JM和轮廓精确度的F度量的平均值FM分别达到了56.0和59.0,并且区域和轮廓的衰变值JD和FD都比SiamMask中的低,分别为17.9和19.8。同时运行速度为45帧/s,达到了实时的运行速度。结论文中提出的融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架,充分捕捉了多尺度上下文信息并且利用了视频帧间的信息,使得网络对多尺度目标对象分割能力更强的同时具备更好的鲁棒性。
摘要:目的无监督单目图像深度估计是3维重建领域的一个重要方向,在视觉导航和障碍物检测等领域具有广泛的应用价值。针对目前主流方法存在的局部可微性问题,提出了一种基于局部平面参数预测的方法。方法将深度估计问题转化为局部平面参数估计问题,使用局部平面参数预测模块代替多尺度估计中上采样及生成深度图的过程。在每个尺度的深度图预测中根据局部平面参数恢复至标准尺度,然后依据针孔相机模型得到标准尺度深度图,以避免使用双线性插值带来的局部可微性,从而有效规避陷入局部极小值,配合在网络跳层连接中引入的串联注意力机制,提升网络的特征提取能力。结果在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)自动驾驶数据集上进行了对比实验以及消融实验,与现存无监督方法和部分有监督方法进行对比,相比于最优数据,误差性指标降低了10% 20%,准确性指标提升了2%左右,同时,得到的稠密深度估计图具有清晰的边缘轮廓以及对反射区域更优的鲁棒性。结论本文提出的基于局部平面参数预测的深度估计方法,充分利用卷积特征信息,避免了训练过程中陷入局部极小值,同时对网络添加几何约束,使测试指标及视觉效果更加优秀。
摘要:目的在无人驾驶系统技术中,控制车辆转向以跟踪特定路径是实现驾驶的关键技术之一,大量基于传统控制的方法可以准确跟踪路径,然而如何在跟踪过程中实现类人的转向行为仍是当前跟踪技术面临的挑战性问题之一。现有传统转向模型并没有参考人类驾驶行为,难以实现过程模拟。此外,现有大多数基于神经网络的转向控制模型仅仅以视频帧作为输入,鲁棒性和可解释性不足。基于此,本文提出了一个融合神经网络与传统控制器的转向模型:深度纯追随模型(deep pure pursuit,deep PP)。方法在deep PP中,首先利用卷积神经网络(convolutional neural network,CNN)提取驾驶环境的视觉特征,同时使用传统的纯追随(pure pursuit,PP)控制器融合车辆运动模型以及自身位置计算跟踪给定的全局规划路径所需的转向控制量。然后,通过拼接PP的转向结果向量和视觉特征向量得到融合特征向量,并构建融合特征向量与人类转向行为之间的映射模型,最终实现预测无人驾驶汽车转向角度。结果实验将在CARLA(Center for Advanced Research on Language Acquisition)仿真数据集和真实场景数据集上进行,并与Udacity挑战赛的CNN模型和传统控制器进行对比。实验结果显示,在仿真数据集的14个复杂天气条件下,deep PP比CNN模型和传统转向控制器更贴近无人驾驶仪的转向指令。在使用均方根误差(root mean square error,RMSE)作为衡量指标时,deep PP相比于CNN模型提升了50.28%,相比于传统控制器提升了35.39%。最后,真实场景实验验证了提出的模型在真实场景上的实用性。结论本文提出的拟人化转向模型,综合了摄像头视觉信息、位置信息和车辆运动模型信息,使得无人驾驶汽车的转向行为更贴近人类驾驶行为,并在各种复杂驾驶条件下保持了高鲁棒性。
摘要:目的激光雷达实时定位与建图(simultaneous localization and mapping,SLAM)是智能机器人领域的重要组成部分,通过对周边环境的3维建模,可以实现无人驾驶车辆的自主定位和精准导航。针对目前单个车辆激光雷达建图周期长、算力需求大的现状,提出了基于边缘计算的多车协同建图方法,能够有效地负载均衡,在保证单个车辆精准定位的同时,增加多个车辆之间的地图重用性。方法构建基于阈值的卸载函数,论证边缘计算下的多车卸载决策属于势博弈问题,设计实现基于边缘计算的势博弈卸载算法,在模型具有纳什均衡的基础上实现任务调度,引入$\alpha $-Nash最佳响应动态加速算法收敛,并采用由粗到细的点云匹配方法提高地图匹配性能,实现车辆的精准定位。最后,基于地图的相对可信度,高效地合并基站覆盖范围内的多个车辆的建图数据。结果实验表明,基于博弈论的调度方法在保证定位可靠性的前提下,能够有效地实现多车协同SLAM,且多车协同的定位与建图结果与使用载波相位差分技术(real-time kinematic,RTK)的高精度差分全球定位系统(differential global positioning system,DGPS)结果足够接近,相比于单车建图而言,横向定位和纵向定位的平均精度分别提高了6.0倍和3.9倍。结论本文方法解决了基于边缘计算的多车协同激光雷达SLAM问题,借助边缘服务器的计算资源,无人驾驶车辆可以有效地减少本地资源需求和定位延迟。该方法通过各个车辆之间的资源博弈,最终实现纳什均衡。实现基于边缘计算的激光雷达定位服务,且高效地完成多车之间的地图合并,仿真和真实环境中的实验表明了方法的有效性。