0引言自动驾驶有4项核心技术,分别是环境感知、精确定位、路径规划和线控执行。环境感知是研究最多也是最重要的部分,因为良好的规划必须建立在对周边环境尤其是动态环境的深刻理解上。目前利用计算机视觉技术进行自动驾驶汽车的环境感知,相关技术已越来越成熟。如一些在常规图像上进行视觉信息感知的算法(赵永强等,2020)、基于单阶段的目标检测算法YOLOv3(you only look once)(Redmon和Farhadi等,2018)和SSD(single shot multibox detector)(Liu等,2016)、基于双阶段的目标检测算法Faster R-CNN(region convolutional neural network)(Ren等,2017)和R-FCN(region based fully convolutional network)(Dai等,2016)、基于单双阶段结合的目标检测算法RON(reverse connection with objectness prior networks)(Kong等,2017)和RefineNet(Zhang等,2018),以及语义分割算法Mask R-CNN(He等,2017)等。虽然在普通图像上的视觉感知算法已十分成熟,利用传统的窄角甚至广角相机对道路场景的理解取得了巨大进步(Siam等,2017),但实际应用中,自动驾驶车辆利用普通相机获取信息是十分困难的,因为标准相机的视场有限且有盲区,需要很多相机覆盖整个周边地区(Sáez等,2018),大幅增加了信息处理的时间和成本。解决这个问题的方法是环境信息感知使用鱼眼镜头,广角视图能够提供整个180°的半球视图且无盲区。利用这个优势,理论上仅需两个摄像头即可覆盖360°,为视觉感知提供更多信息,大幅降低自动驾驶成本。鱼眼摄像头因覆盖大视场而广泛应用于智能车辆领域(Deng等,2017),如停车(Wang等,2014)、车辆周边监控(Liu等,2016)、目标检测(Fremont等,2016)和场景理解(Haltakov等,2012)等。目前,针对环视鱼眼图像的研究主要面临两个难题:1)到目前为止,最先进的基于深度学习的计算机视觉算法需要大规模的像素级注释图像来进行模型训练和参数优化。大规模的数据集对模型优化起着至关重要的作用。然而由于数据集注释过程是费时且昂贵的工作(Deng等,2020),关于环视鱼眼图像的大规模标注数据集很少,直接阻碍着环视鱼眼图像处理算法的发展与验证评价。2)虽然常规图像视觉算法已十分成熟,有的已经落地运用,但由于鱼眼相机展示的更加复杂的投影几何以及目标畸变导致核心特征提取不易等问题,因此在窄角针孔摄像机上学习的模型不能很好地迁移到鱼眼摄像机上,需要创建一个新的针对鱼眼图像视觉信息处理的模型算法。对此,研究者积极寻求方法解决攻克。国际上,印度国家科学院(https://www.researchgate.net/profile/Senthil_Yogamani2)、加拿大西蒙弗雷泽大学和美国波士顿大学等高校和研究机构最先开展了环视鱼眼图像数据集和环视鱼眼图像中的目标检测等研究,并提出了有效的算法。国内上海交通大学智能车实验室(https://cyberc3.sjtu.edu.cn/index.htm)、浙江大学、天津大学、东北大学等很多研究所和高校成立了相关课题组。除了具体的研究单位,环视鱼眼图像处理主题也在各领域顶级期刊和会议上占有一席之地,每年都有大量最新最前沿的成果发表。围绕上述问题与挑战,本文详细介绍了环视鱼眼图像的优点,对环视鱼眼图像处理方法的研究进展与现状进行分析和综述,详细介绍环视鱼眼图像的通用数据集和不同算法在主流数据集上的实验结果,并对环视鱼眼图像领域未来可能的发展方向进行展望。1鱼眼镜头模型汽车视觉辅助系统是一种汽车高级驾驶辅助系统(advanced driver assistant system,ADAS)。随着自动驾驶智能网联汽车的迅猛发展,能否感知车身周围全部信息直接决定着自动驾驶的发展命运(栾婧,2018)。常规摄像头需要在车身周围布控十多台,不仅增加处理时间和自动驾驶成本,而且存在一定的视觉盲区,带来一定的危险性。因此为了彻底消除盲区、降低处理时间,越来越多的汽车厂商开始使用大视场的环视鱼眼相机,如英菲尼迪和日产、宝马、奥迪、奔驰、雷克萨斯和丰田等汽车制造商在其生产车辆上提供类似的环视鱼眼系统。该系统通常由安装在车辆周围的4个鱼眼摄像头组成,提供360°的环境(Deng等,2020)。汽车全景环视系统可以明显减少驾驶员在行驶过程中的视觉盲区,极大方便了驾驶员的驾驶操作,如倒车入库、侧方停车等,有效地降低了刮蹭、碰撞和碾压等交通事故的发生。1.1鱼眼摄像头为了拍摄具有更大视角的照片,根据鱼的眼睛设计了一种具有较短焦距、镜头前突的摄像头,鱼眼摄像头也因此得名。鱼眼镜头是一种超大视场、大孔径的光学成像系统, 一般采用2或3块负弯月形透镜作为前光组,将物方超大视场压缩至常规镜头要求的视场范围(吕丽军和吴学伟,2017)。为了获取更大的视角,鱼眼镜头牺牲了成像的准确性,存在很大变形(栾婧,2018)。标准镜头焦距在40~58 mm,视角约为45°~50°;广角镜头焦距在28~35 mm,视角在70°~90°左右;鱼眼镜头焦距在16 mm以下,视角在180°左右(罗琳,2017),因此与普通镜头相比,鱼眼镜头可以拍摄出具有更大视角的图像。鱼眼镜头属于超广角镜头中的一种特殊镜头,是一种极端的广角镜头,其视角力求达到或超出人眼看到的范围,因此鱼眼镜头与人眼中的真实世界景象存在很大差别。因为人眼在实际生活中看见的景物是有规则的固定形态,而通过鱼眼镜头产生的画面效果则超出这一范畴,会产生较大程度的畸变,并且与图像中心相比,图像边缘具有更大畸变。具有鱼眼镜头的摄像头称为鱼眼摄像头(陈晃明和陈向颖,1989)。1.2鱼眼镜头成像特点鱼眼镜头的特点是焦距短且视场角广,视场角可以达到180°~270°,但是鱼眼镜头的大视角会导致拍摄的图像易出现目标畸变,从图像中间到外围的畸变会逐渐变大,图像中心部分畸变最小(廖士中等,2000)。图 1为鱼眼镜头拍摄到的真实道路场景鱼眼图像。可以看到,图像呈中间突起,边缘内陷的感觉,与常规图像场景结构差异较大,导致普通图像处理算法不能有效运用于环视鱼眼图像。同时,对鱼眼图像去失真、逆透视变换等预处理也变得十分的不易。图 2为鱼眼图像去失真对比图,可以看出,对鱼眼图像进行纠正,图像边缘产生了严重的模糊与信息丢失。鱼眼镜头的成像特点导致鱼眼图像建模偏难,算法需要考虑如何识别畸变目标。 图1 真实道路场景鱼眼图像 The real road scene of fisheye imageFig 1 图2 鱼眼图像去失真对比图 Fisheye image to dedistort contrastFig 2 ((a)raw fisheye image; (b)dedistort fisheye image) 1.3鱼眼镜头投影模型鱼眼相机的成像模型与传统针孔相机模型不同,设计鱼眼镜头可以遵循不同的数学模型,最常见的是等距投影,其他较少使用的有立体投影、正交投影和等角投影。等距投影为1${\rho _d} = f\theta $ 立体投影为2${\rho _d} = 2f\tan \theta /2$ 正交投影为3${\rho _d} = f\sin \theta $ 等角投影为4${\rho _d} = 2f\sin \theta /2$ 式中,$ \theta $为入射光线与成像主轴之间的夹角,$f $为相机的焦距,${\rho _d} $为成像点与相机主轴之间的距离(Sáez等,2018)。了解鱼眼镜头的投影原理,有利于择优选取算法模型,因为对不同的相机参数,需要选用不同参数的模型,同时也有利于伪鱼眼图像数据集的生成。2环视鱼眼图像研究方法环视鱼眼图像研究不如常规图像研究成熟,但受到越来越多的科研院所、高校和科技公司的关注。主要采用基于深度学习的方法,研究方向大致分为基于图像校正方法处理鱼眼图像和基于非去失真方法处理鱼眼图像。基于非去失真方法分为环视鱼眼图像中的目标检测方法和环视鱼眼图像中的语义分割方法。同时,为了解决环视鱼眼图像数据集缺乏问题,研究伪鱼眼图像数据集的生成方法。环视鱼眼图像研究方向占比如图 3所示。 图3 环视鱼眼图像研究方向占比 The proportion of research on fisheye imageFig 32.1基于环视鱼眼图像的校正方法环视鱼眼图像去失真是指将鱼眼图像纠正为普通图像,进而利用普通图像视觉处理算法进行处理计算。鱼眼图像畸变一般分为径向畸变和切向畸变(Wang等,2008)。径向畸变包括枕型畸变和桶型畸变,切向畸变包括薄透镜畸变和离心畸变。由于切向畸变是由传感器与透镜不重合引起的,因此鱼眼图像校正仅针对径向畸变(Lee等,2019)。环视鱼眼图像几何校正算法主要分为两类,基于投影变换模型的校正方法和基于标定的校正方法(王向军等,2018)。2.1.1基于标定的鱼眼图像校正方法基于标定的鱼眼图像校正方法就是求解相机的内参(焦距和畸变系数)和外参(旋转矩阵和平移向量),进而进行图像重建。鱼眼图像的标定校正从光学成像几何模型入手,利用标定计算获得的精确模型参数重构入射光线几何,并实现从球面透视投影到平面(或柱面)投影的空间重映射。光学成像系统模型如图 4所示。包括世界坐标系(xw,yw,zw)、鱼眼镜头坐标系(x,y,z)、摄像机坐标系(x′,y′,z′)、图像坐标系(i,c)和成像平面坐标系(u,v)。其中,p为世界坐标系中的一点,OO′为光轴,h为p点到镜头表面的距离,r为p点到镜头中心O的水平距离,ω为p点相对镜头中心的入射角,θ为p点在摄像机坐标系中的方位角,p′为p在成像面上的像点,r为像点离图像中心点O′的距离(径向距离),θ′为像点在图像物理坐标系中的方位角。 图4 光学成像模型(冯为嘉等,2011) The model of imaging system(Feng et al., 2011)Fig 4Kannala和Brandt(2006)提出一种基于观察平面标定模式的鱼眼镜头相机标定方法,使用简单,控制点为圆形,具有较高精度,且提出的相机模型是通用的,容易扩展,适用于传统相机的窄或宽角度镜头,已成为MATLAB上的标定工具箱。Hartley和Kang(2007)提出一种相机径向畸变函数与其他内部标定参数同时标定的方法,依赖于使用一个平面(或非平面)标定网格在多个图像中捕获,以无参数的方式确定径向畸变,不依赖于任何特定的径向畸变模型,适用于从窄角度到鱼眼镜头的大范围相机。但图像平面或空间的中心点需要计算失真时, 可能对噪声过于敏感。Wang等人(2010)提出一种新的鱼眼镜头相机标定方法,基于鱼眼镜头的等距投影模型,根据等距投影定理建立极广角模型,得到标定参数,给出4种校准方法,可在不同应用中使用并相互验证。冯为嘉等人(2011)基于鱼眼镜头构建全方位视觉系统,在建立全方位视觉系统模型的基础上,提出图像中心、镜面到成像点距离l、径向畸变系数kx和ky的详细标定方法,利用参数标定结果,依据等距投影定理和支持向量机训练的方法实现鱼眼图像的像素点矫正和全图像矫正。各种基于标定的鱼眼图像校正方法的优点及改进方向如表 1所示。表1 基于标定的鱼眼图像校正方法比较 方法 优点 改进方向 基于观察平面标定模式的鱼眼镜头相机标定方法(Kannala和Brandt,2006) 使用简单,控制点为圆形,具有较高精度,相机模型通用,容易扩展。 窄角镜头的标定校正结果有待提升。 基于中心畸变估计的无参数径向畸变校正(Hartley和Kang,2007) 以无参数方式确定径向畸变,不依赖特定的径向畸变模型,适用于从窄角度到鱼眼镜头的大范围相机。 中心像素计算失真时对噪声过于敏感。 利用等距投影的标定方法(Wang等,2010) 通过一组参数近似处理传感器的物理和光学行为的数学近似,直接使用,解决问题。 对相机标定结果的准确率有待提升。 改进的线性标定法(冯为嘉等,2011) 准确标定视觉系统的内外部参数,精确定位视觉系统的空间位置。 鱼眼图像标定的精确度可以进一步提升。 Comparison of fisheye image correction methods based on calibrationTable 12.1.2基于投影变换模型的鱼眼图像校正方法基于投影变换模型的鱼眼图像校正方法以直线透视投影特性良好保持为约束条件,在2D空间对鱼眼图像进行重映射校正计算。目前流行的主要是基于深度学习的投影变换鱼眼图像校正方法。Rong等人(2016)提出一种用于径向透镜畸变校正的卷积神经网络并引入了两个评分函数评估校正效果,可以在包含较少线段的图像上估计失真系数,但是学习能力局限于模拟只有一个参数的简单失真模型,不适用于更为复杂的鱼眼图像失真模型,且仅估计了失真模型参数k,不能端到端产生最终输出。网络结构如图 5所示。 图5 畸变纠正网络结构(Rong等,2016) The structure of distortion correction network(Rong et al., 2016)Fig 5Yin等人(2018)提出一种端到端多上下文协同深度网络——FishEyeRecNet鱼眼图像纠正网络,消除单一鱼眼图像的失真,通过整合语义信息提高鱼眼图像的校正效果。如图 6所示,该复合体系结构由基网络、失真参数估计网络、失真校正层和场景解析网络4个协同组件组成。失真参数估计网络以基网络中多个特征图的拼接作为输入,生成相应的失真参数。场景解析网络提取高层次语义信息,进一步提高失真参数估计和校正精度。失真校正层利用估计的参数对输入的鱼眼图像和相应的场景解析结果进行校正。与传统方法侧重于从输入图像中提取手工特征不同,该方法通过同时学习高级语义和低级外观特征来估计失真参数,但无法判别获得的哪种高级几何信息对鱼眼图像校正是重要的。 图6 FishEyeRecNet鱼眼图像纠正网络(Yin等,2018) FishEyeRecNet fisheye image correction network(Yin et al., 2018)Fig 6Xue等人(2019)提出一种新的深度卷积神经网络,在鱼眼透镜校准和畸变图像校正过程中施加显式的几何约束。考虑到鱼眼图像畸变分布的非线性,该网络充分利用多尺度感知来均衡对整幅图像的校正效果,通过全局和局部学习获得更具鲁棒性的畸变参数,从而达到更好的校正效果。网络模型如图 7,整个网络结构由线导参数估计模块(line-guided parameter estimation module, LPE)、失真线段感知模块(distorted lines perception module, DLP)和校正层3部分组成。图中,PRM为personalized reordering model。DLP用于检测校正后的图像是直线映射,并将DLP和RGB鱼眼图像输出到LPE中,估计全局和局部鱼眼畸变参数,在校正层中使用畸变参数来实现曲率约束。 图7 鱼眼图像纠正网络(Xue等,2019) Fisheye image correction network(Xue et al., 2019)Fig 7Li等人(2019)提出基于回归鱼眼图像和无失真图像之间的逐像素流,以重新采样失真像素的方法对鱼眼图像进行纠正,网络结构如图 8所示。整个网络架构包括单模型(GeoNetS)和多模型(GeoNetM)失真网络和重采样。每个盒代表一些卷积层,垂直维度表示特征图空间分辨率,水平维度表示盒中每个卷积层的输出通道。 图8 鱼眼图像纠正网络(Li等,2019) Fisheye image correction network(Li et al., 2019)Fig 8Lee等人(2019)提出一种新的基于图像的几何畸变校正算法,包括特征检测、失真参数估计和从多个校正候选图像中选择最优校正图像3方面。该方法既不使用预先设定的镜头设计参数,也不使用预先设定的标定模式,而是通过分析失真图像的特征,自动选择最优的鱼眼镜头畸变校正量。上述基于深度学习的鱼眼图像纠正方法均需要监督,即需要大量鱼眼图像数据集来训练模型。在为实际应用程序训练深度学习模型时,上述假设和要求可能并不实际。此外,所有这些工作都假设只有一个鱼眼畸变模型,局限了模型的泛化能力。为了克服上述问题,Chao等人(2020)提出一个基于生成对抗网络(Goodfellow等,2020)的端到端的深度学习框架FE-GAN(Fisheye GAN),在训练期间不需要摄像机参数的真实值或相应的无失真图像,通过推进自监督学习(self-supervised learning,SSL)(Kolesnikov等,2019;Beyer等,2019)策略和光流(Dosovitskiy等,2015)思想,提出的模型隐式学习了用于单像鱼眼矫正的摄像机的内在参数。FE-GAN模型结构如图 9所示,主要包括生成器G和鉴别器D,G中的模块U预测失真流$f $,W基于$f $对失真图像进行校正。为了实现自监督学习,对交叉旋转和图像内扭曲进行了详细观察。上述方法的优点及改进方向如表 2所示。 图9 FE-GAN自监督鱼眼图像纠正网络(Chao等,2020) FE-GAN self-supervised fisheye image correction network(Chao et al., 2020)Fig 9表2 基于投影变换模型的鱼眼图像校正方法比较 方法 优点 改进方向 用于径向透镜畸变校正的卷积神经网络(Rong等,2016) 利用卷积神经网络进行畸变校正,可以在包含较少线段的图像上估计失真系数。 网络学习能力局限于模拟仅一个参数的简单失真模型,不适用于更为复杂的鱼眼图像失真模型。 端到端多上下文协同深度网络(Yin等,2018) 消除单一鱼眼图像失真,通过整合语义信息提高鱼眼图像校正效果,场景解析网络提取高层次语义信息,进一步提高了失真参数估计和校正精度。 不清楚获得的哪种高级几何信息对鱼眼图像校正是重要的。 施加显式几何约束的深度卷积神经网络(Xue等,2019) 与先进方法相比,在大批合成和真实鱼眼图像上取得了最好的校正质量和最准确的失真参数估计。 训练数据集是合成的,对真实数据集的适用性有待实验评估。 基于回归鱼眼图像和无失真图像之间的逐像素流(Li等,2019) 优于传统的校正方法,并允许有趣的应用,如失真转移、失真夸张和共同发生的失真校正。 模型的泛化性有待提升。 基于图像的几何畸变校正算法(Lee等,2019) 既不使用预先设定的镜头设计参数,也不使用预先设定的标定模式,通过分析失真图像的特征,自动选择最优的鱼眼镜头畸变校正量。 提出的方法应用于195°视场,应考虑其他角度下的适用性。 鱼眼GAN深度学习模型(Chao等,2020) 不需要ground truth摄像机参数,也不需要失真的ground truth图像。 自监督学习模型的训练稳定性需要提升。 Comparison of fisheye image correction methods based on projection transform modelTable 22.2基于非去失真方法传统的恢复过程是将鱼眼图像去失真,恢复为平面图像,资源和时间消耗很大。基于非去失真的环视鱼眼图像处理方法,就是不对畸变的鱼眼图像进行纠正,而是利用算法本身的适应性对形变目标进行建模,直接利用鱼眼图像或者伪鱼眼图像训练模型,进而在鱼眼图像上进行测试评价算法的性能。直接在鱼眼图像上进行视觉处理主要包括鱼眼图像上的目标检测和语义分割。鱼眼图像上的目标检测就是判断鱼眼图像中的目标位置,并用矩形框标注出来(蒋弘毅等,2021),鱼眼图像上的语义分割就是识别鱼眼图像中存在的内容以及位置(Shervin等,2020)。2.2.1环视鱼眼图像中的目标检测方法环视鱼眼图像中的目标检测主要有通用目标检测、停车位检测和行人检测等,因为不同目标产生的畸变程度不一样,进行最多的是行人检测。针对鱼眼图像中的行人检测算法较多,各算法的效率也不尽相同。Poddar等人(2019)提出一种基于深度卷积神经网络的目标检测框架中的实例级停车位检测与分类方法,采用MobileNet-V1网络结构(Howard等,2017),直接在鱼眼区域进行车位检测。为了克服矩形边界盒在确定停车位真实范围方面的局限性,进一步增强了传统卷积神经网络目标检测功能,检测出停车位的主要关键点,从而精确勾画出停车位边界。该算法的另一个局限是对鱼眼图像中停车位的像素级标注的可用性。为了解决这一问题,提出了一种新的快速生成鱼眼图像像素级注释的方法。利用对象关键点相似度进行关键点精度的度量,在算法测试上,预测的关键点预测误差为0.78,空车位预测误差为0.74,有人车位预测误差为0.74,能在一定程度上满足自动驾驶中的停车位检测的精度要求,但还需要进一步提升。Zhu等人(2018)提出一种对未纠正的鱼眼图像进行鱼眼目标检测和定位方法,建立单级神经网络进行目标检测。基于MobileNet加速思想,建立一种通用特征金字塔网络(feature pyramid netword, FPN)结构的检测器。该检测器设计了一些子模块来匹配鱼眼图像的中心旋转特性和严重失真。检测器网络结构包括自底向上通路、自顶向下通路、横向连接、分类子网络和锚框回归子网络。由于实验场地限制,未测试物体在超出±60°区域的情况。该方法实现了两辆地面车辆和一辆移动障碍物的户外检测实验,形成了高精度和高速度的检测器,在NVidia Titan x上处理单幅图像时间为0.056~0.094 s,很好地满足了自动驾驶汽车的实时性要求。该方法能够实时检测和定位目标,具有极高的实用价值。van Tuan等人(2016)提出一种基于YOLO模型统一检测的新型监视用鱼眼摄像机实时人体检测方法ConvNets,进一步强化了基于自适应混合高斯模型(adaptive Gaussian mixture model,AGMM)估计的前景目标上下文信息对目标边界盒的定位和边界盒的置信度评分。利用AGMM提供的虚假前景目标区域信息对卷积网络进行训练,使其能够识别出错误的前景目标区域。在测试中,经过训练的Conv -Nets网络将致力于过滤出错误的人的检测。此外,基于前景目标区域的背景信息训练了ConvNets网络对背景变化的鲁棒性,该模型将会移植到一个智能IP网络摄像头中。该方法比YOLO模型更快,主要原因是将输入数据维数从原来的3维彩色输入通道降为由灰度图像通道和前景背景信息通道组成的2维输入通道,能够满足自动驾驶汽车的实时性要求。Qian等人(2018)提出一种利用正常行人数据集训练鱼眼行人检测器的新策略——鱼眼空间变换网络(fisheye spatial transformer network,FSTN),在鱼眼图像中生成行人特征。首先模拟特征图上扭曲的行人特征,然后通过对抗训练整个网络使探测器对目标变形更加稳健。该方法嵌入不同的目标检测框架,花费的处理时间不同,处理每帧图像的时间为51~186 ms。Wang等人(2019)提出一个研究扩展Mask-RCNN到鱼眼图像中的行人检测算法,目的是将Mask-RCNN应用于鱼眼图像。除了简单地用新的注释数据进行迁移学习,提出两项对相关应用有用的技术,一是在检测过程中分离中心和外围区域,二是在训练过程中使用背景图像。Wang和Liao(2019)提出一种基于模糊积分的方法,用于聚集来自多个鱼眼摄像机的信息,以形成场景中人的组合图。测试视频的实验结果显示该方法具有良好的实际应用性能。此外,提出在算法的不同阶段解决场景对象遮挡的方法,进一步提高了方法的性能。Duan等人(2020)提出一种端到端的旋转感知的鱼眼图像行人检测方法——RAPiD(rotation-aware people detection),使用任意方向的锚框来检测人。使用的全对称神经网络使用周期损失函数直接回归每个锚框的角度,该函数考虑了角度周期性。该模型结构如图 10所示,包含主干网络、FPN和检测头(锚框回归网络)。图 10中,箭头代表多个卷积层,彩色矩形代表多维矩阵,即特征图,输入图像是1 024×1 024像素或者608×608像素。该方法在Nvidia GTX 1650 GPU上测试,FPS(frames per second)为7.0,在608×608像素分辨率图像输入下的RAPiD性能最好,执行速度最快,但通过实验发现,随着速度加快,精度往往有所下降。 图10 RAPiD网络结构(Duan等,2020) Network structure of RAPiD(Duan et al., 2020)Fig 10Qian等人(2020)提出定向空间转换器网络(oriented spatial transformer network,OSTN),旨在增强深层网络处理扭曲图像的能力,受空间变换网络(spatial transformer network,STN)(Jaderberg等,2015)的启发,将水平STN与垂直STN组合以获得更好的性能。OSTN对特征图进行操作,可以纠正每个行人的扭曲特征。基于OSTN的行人检测器利用变换后的鱼眼图像进行训练,可以提高鱼眼图像中行人检测的准确性。在NVIDIA GTX 1080 GPU上测试,该算法处理每帧图像时间只需29 ms,大幅提升了处理效率,能够满足自动驾驶汽车的实时性要求。Li等人(2020)提出一种自学习和基于轮廓的鱼眼图像目标检测器——FisheyeDet,并提出一种无先验鱼眼表示方法,以保证网络在不需要预先指定透镜参数、特殊标定模式等先验信息的情况下自适应提取畸变特征。此外,为了对鱼眼图像中的目标进行紧密、稳健的定位,提出了以基于畸变目标轮廓的不规则四边形边界盒为核心的畸变形状匹配策略。结合无先验鱼眼表示法和失真形状匹配法,构建出一个端到端网络。网络模型结构如图 11所示,该FisheyeDet由多尺度骨干层、失真特征提取层和预测检测层组成(NMS(non-maximum suppression)表示非极大值抑制)。上述方法的优点及改进方向如表 3所示。 图11 FisheyeDet网络结构(Li等,2020) Network structure of FisheyeDet(Li et al., 2020)Fig 11 ((a)multi-scale backbone layers; (b)distortion feature extraction layers; (c)prediction-detection layers) 表3 环视鱼眼图像中的目标检测方法比较 方法 优点 改进方向 阶段 基于深度学习中目标检测框架的高效像素级停车位实例化分类方法(Poddar等,2019) 对传统目标检测功能的SSD架构进行创新,以检测停车点的主要关键点,精确划分停车点边界。 提出的关键点预测技术仅在停车位检测上实验,可进一步应用于鱼眼图像的通用目标检测。 单阶段 基于YOLO模型的鱼眼摄像机实时人体检测方法(van Tuan等,2016) 与基于YOLO模型的人体检测方法相比,精度有较好提高,在处理速度不降低的情况下对背景场景变化有较强的鲁棒性,可用于嵌入式监控。 检测精度还可以进一步提升。 单阶段 端到端的旋转感知的鱼眼图像行人检测方法(Duan等,2020) 简单有效,优于目前先进方法,可以任意方向对行人进行检测。 RAPiD的性能在光线极弱的情况下显著下降,几乎无法从背景中分辨出来,需进一步研究予以解决。 单阶段 自学习和基于轮廓的鱼眼图像目标检测器(Li等,2020) 具有良好的推广能力,能够在VOC-Fisheye上测试良好,优于现有的先进方法。 缺乏用于多类目标检测任务的基准鱼眼数据集,模型的泛化性有待评估。 单阶段 研究扩展Mask-RCNN到鱼眼图像中的行人检测算法(Wang等,2019) 能够在基准模型上显著提高检测性能。 实验使用有限种类的带注释的训练数据,应增加训练数据的多样性。 双阶段 利用正常行人数据集训练鱼眼行人检测器,通过鱼眼空间变换网络(FSTN)生成鱼眼图像中的行人特征(Qian等,2018) 检测器对形变的稳定性更强,FSTN可以很容易地嵌入到最先进的探测器中。而嵌入FSTN的整个行人检测器可以通过对抗端到端进行训练。 对于检测精度的提升不是很大。 多阶段 定向空间转换器网络(Qian等,2020) 定向空间转换器网络设计用于校正特征图中扭曲的行人,使变形较大的行人更容易被识别,有了OSTN,最先进的基于深度学习的检测器在鱼眼图像中检测行人时表现得更好。 由于没有可用的鱼眼图像数据集,下一步需要在真实的鱼眼图像数据集上验证算法的可行性。 多阶段 对未恢复的鱼眼图像进行鱼眼目标检测和定位,基于MobileNet加速思想,建立一种通用特征金字塔网络(FPN)结构的检测器(Zhu等,2018) 节省资源和时间,提高探测器的性能,满足机载计算的实时性要求。 由于实验场地限制,未测试物体在超出±60°区域的情况。 其他模型 基于模糊积分的方法聚合多个摄像机的信息(Wang和Liao,2019) 具有良好的实用性能。在算法不同阶段考虑场景对象遮挡,改进了检测结果。 适用场景是下视鱼眼图像,下一步应该考虑扩展应用场景。 其他模型 Comparison of object detection methods in fisheye imagesTable 32.2.2环视鱼眼图像中的语义分割方法语义分割是自动驾驶视觉场景理解的重要步骤。环视鱼眼图像的语义分割模型主要是处理真实的道路环境,为无人驾驶汽车提供更多的视觉信息。Deng等人(2017)提出重叠金字塔池化(overlapping pyramid pooling,OPP)模块,用于搜索局部、全局和金字塔局部区域的上下文信息。并基于OPP模型,提出了一种用于语义分割的网络结构OPPNet。在现有的城市交通场景数据集上生成鱼眼图像,并在此基础上对网络进行训练和评价,进行语义分割。OPP-Net网络结构如图 12所示,模型包含特征提取、前端、重叠金字塔池模块和输出模块4部分。该模型的缺点是在伪鱼眼图像上进行训练测试,没有对带注释图像的真实鱼眼相机进行定量性能评估。 图12 OPP-Net网络结构(Deng等,2017) OPP-Net architecture (Deng et al., 2017)Fig 12邓琉元等人(2018)提出一种基于可变形卷积网络的实例分割方法,主要是在Mask-RCNN框架的基础上引入可变形卷积和可变形的候选区域池化(region of interest pooling)来提升网络对几何畸变的建模能力。针对深度神经网络训练数据缺乏、易过拟合问题,提出基于多任务学习的训练方法。在真实的环视鱼眼图像上进行测试,结果表明,相对于原始Mask-RCNN方法,平均精度提升了3.1 %,证明该方法在真实交通环境中的有效性。该模型网络结构如图 13所示(RPN(region proposal network)表示区域生成网络, FCN(fully convolutional network)表示全卷积网络),采用两种不同的方法从感兴趣区域提取特征,对分类和边界框回归使用可变形RoI pooling,对掩码分割使用RoIAlign。RoIAlign相对于普通的RoI pooling可以减少量化误差。该方法的性能比原始Mask-RCNN有了明显提升,可以进行环视鱼眼图像实例分割,但是实例分割的整体性能和实时性依然偏低,无法满足无人驾驶汽车实时性要求。实验在Intel Xeon E5-2620 CPU和两块Nvidia 1080Ti GPU平台上进行,处理1幅图像需要的时间是1.1 s。 图13 基于可变形卷积网络的实例分割架构(邓琉元等,2018) Segmentation framework based on deformable convolution network architecture(Deng et al., 2018)Fig 13Sáez等人(2018)提出一种基于卷积神经网络的使用鱼眼摄像机的城市交通图像实时语义分割方法,采用有效的残差因子分解网络架构(efficient residual factorized CNN,ERFNet)(Romera等,2017)来处理失真的鱼眼图像,并生成一个新的鱼眼图像数据集,用于从现有的CityScapes数据集中进行语义分割,以训练和评估提出的模型。ERFNet网络模型结构如图 14所示,编码器块共16层,包括下行采样和重新设计的非瓶颈卷积层。解码器块共7层,将上采样的特征映射到原始输入图像大小和最后的log-softmax损失层。实验在Titan X GPU上运行,运行速度能达到45帧/s,处理每帧图像的时间大约22 ms,在Jetson TX2(运行大于15帧/s)的嵌入式系统上也能实现清晰地实时数据处理能力,满足自动驾驶汽车的实时性要求。 图14 ERFNet网络结构(Romera等,2017) ERFNet architecture(Romera et al., 2017)Fig 14Deng等人(2020)为了解决鱼眼图像中的大失真问题,提出了限制形变卷积(restricted deformable convolution,RDC)用于语义分割,通过学习基于输入特征图的卷积滤波器的形状,可以有效对几何变换建模,最后建立基于RDC的语义分割模型,训练现实世界的环视鱼眼图像,通过多任务学习架构将现实世界图像与转换图像结合。实验表明,该方法能够有效处理失真较大的图像,并能在转换后的图像上获得良好效果。道路场景语义分割的多任务学习架构如图 15所示,原始普通图像通过缩放增强层进行转换。然后,这些数据输入3个共享权重的子网络(蓝色区块)。BN(batch normalization)统计数据在子网络之间不共享。总损失是主要损失和辅助损失的加权和。α是主要任务权重,平衡不同任务的主要损失;β是辅助任务权重,用于平衡不同支路的辅助损失任务;γ是辅助损失权重,用来平衡辅助损失的贡献。实验在两个NVIDIA GTX 1080Ti GPU上进行,该方法处理每帧图像的时间是18 ms。 图15 多任务语义分割框架(Deng等,2020) The multi-task learning architecture (Deng et al., 2020)Fig 15Arsenali等人(2019)提出一个多任务网络(multi-task network,MTL)——RotInvMTL,直接对原始鱼眼图像进行联合语义分割、边界预测和目标检测,论文提出一种旋转不变的目标检测解码器,该解码器适应鱼眼失真,比YOLOv2贴图性能好9 %。通过结合MTL输出,可以获得准确的脚点信息和粗略的实例级分割。RotInvMTL网络结构如图 16所示,该网络对鱼眼图像进行操作,由一个共享的编码器和两个特定任务的解码器(一个用于目标检测,另一个用于感知边界的语义分割)组成,每个任务输出一个预测,融合这些预测,得到最终结果。上述方法的优点及改进方向如表 4所示。 图16 RotInvMTL网络结构(Arsenali等,2019) The RotInvMTL architecture(Arsenali et al., 2019)Fig 16表4 环视鱼眼图像中的语义分割方法比较 方法 优点 改进方向 用于语义分割的网络结构OPP-Net(邓琉元等,2017) 在现有城市交通场景数据集上生成鱼眼图像,并在此基础上对网络训练和评价,进行语义分割。在城市交通场景处理中具有卓越性能和数据增强效果。 需对焦距进行随机变化实现变焦增强,重点是对带注释图像的真实鱼眼相机进行定量性能评估。 基于可变形卷积网络的实例分割方法(Deng等,2018) 在真实交通环境中具有有效性。 实例分割的整体性能及实时性偏低,有很大提升空间。 基于卷积神经网络使用鱼眼摄像机的城市交通图像实时语义分割方法(Sáez等,2018) 与鱼眼图像使用特征金字塔池策略相比,获得了更好的结果。是唯一能够实时运行的方案。 将提出的模型与自己感知系统中获取的图像结合起来,使用额外的训练和数据增强过程微调模型,以适应更复杂的环境。 限制形变卷积(Deng等,2020) 能够有效处理失真较大的图像,并能在转换后的图像上获得良好效果。 需将限制可变形卷积结合在一个网络中,增强CNN的变换建模能力。需要结合弱监督或其他领域适应方法,进一步提高在真实环视图像上的性能。 RotInvMTL(Arsenali等,2019) 可以获得准确的脚点信息和粗略的实例级分割,降低了系统复杂性,在自动驾驶应用程序中表现良好。 需扩展到更多公开数据集上进行评估。 Comparison of semantic segmentation methods in fisheye imagesTable 42.3伪鱼眼图像数据集生成方法数据、计算力和算法是人工智能发展的三大要素。其中,数据是人工智能发展的基础,任何研究都离不开数据的支撑。深度学习算法之所以可以得到广泛发展,很大一方面得益于大规模数据集的出现(赵永强等,2020)。普通图像数据集比较丰富,如,PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)2007/2012(Everingham等,2010)、MS COCO(Microsoft common objects in context)(Havard等,2017)、Places(Zhou等,2017)和Open Images(Krasin等,2017)数据集等,但是环视鱼眼图像数据集极少,因为鱼眼图像的标注更复杂、更费时费力,并且鱼眼图像的采集成本也更高。基于深度学习的环视鱼眼图像的处理算法需要大量数据进行模型训练。数据直接制约着算法的发展。鉴于此,越来越多的研究放在伪鱼眼图像数据集上,即利用丰富的、大量的普通常规图像数据集,通过一定的映射关系,转化成伪鱼眼图像数据集,既能大幅节约成本,也能在一定程度上评估环视鱼眼图像处理算法的性能(Tamura等,2019)。Deng等人(2017)对现有分割数据集中的每一幅图像及其对应注释使用相同的映射函数进行变换,生成鱼眼图像数据集。插值方法包括图像的双线性插值和注释的近邻插值,通过保留标签变换来扩大训练数据。用于语义分割的数据增强形式有很多,如水平翻转、缩放、旋转、裁剪和颜色抖动等。其中缩放(放大/缩小)是最有效的形式之一。DeepLab(Chen等,2018)通过随机缩放输入图像(0.5~1.5倍)来增加训练数据,PSPNet(pyramid scene parsing network)(Zhao等,2017)采用在0.5~2倍之间随机调整大小并结合其他增强策略。Sáez等人(2018)提出一种新的针对鱼眼图像的数据增强方法,称为变焦增强。通过改变鱼眼相机的焦距来增加训练数据集,并使用两个经验计算的基线值。Deng等人(2020)提出一种将常规图像转换为鱼眼图像的方法,建立了从鱼眼图像平面到常规图像平面的映射。变焦增强可以采用固定焦距或随机变化的焦距。通过缩放增强方法,将现有的用于语义分割的常规图像数据集转换为鱼眼式图像数据集。Qian等人(2020)提出一种将普通图像转换为鱼眼图像的投影模型变换(projective model transformation,PMT)算法,算法原理如图 17所示,矩形平面为原始透视图像,圆形平面为变换后的鱼眼图像。右边的球体是模拟鱼眼镜片。球面上的每个点K对应于原始图像中的一个点Q(x, y)。然后将K重新映射为成像平面,即P(u, v)。PMT可以应用于大多数行人数据集,并生成相应的鱼眼图像数据集。 图17 PMT算法原理图(Qian等,2020) The principle of the PMT(Qian et al., 2020)Fig 172.4其他鱼眼图像建模方法除上述方法外,还有其他对鱼眼镜头和全向(omnidirectional)摄像头图像进行建模的方法,这些方法包括研究一个网络架构、研究一种增加感受野的方法或研究专门针对目标形变的特有方法,都能够对畸变目标进行建模,但是也存在特定的运用条件限制。Frossard和Khasanova(2017)提出基于变换不变图网络(transformation invariant graph-based network,TIGraNet),以网格图上的图像信号作为输入,分类标签作为输出。Su和Grauman(2018)提出球形卷积网络(spherical convolution),将平面CNN转换为直接在等矩形投影中处理360°图像。这种方法学习在360°图像数据上重现扁平滤波器(flat filter)的输出,对球面变化的畸变效应表现敏感。Baek等人(2018)提出场景理解网络(scene understanding networks),构造了一种端到端解决方案,用于通过识别驾驶车辆各方向上最近的障碍物,为每帧划定安全的可驾驶区域;该网络计算最近障碍物的距离,并整合到统一的端到端架构中,该架构能够进行联合目标检测、路边检测和安全驾驶区域检测。Tateno等人(2018)提出失真—觉察卷积(distortion-aware convolution),其采样网格会根据图像失真模型变形,对感受野进行校正。除了专门处理环视鱼眼图像的综合网络外,还有针对图像输入几何变形的CNN模型,这些模式可以嵌入到常见的视觉处理算法中,从而更好地处理环视鱼眼图像。Jaderberg等人(2015)提出空间变换网络(STN),STN是一个可学习的空间变换器,允许对网络内的数据进行空间操作。这个可微分的模块可以插入到现有的卷积架构中,使CNN能够无需任何额外的训练监督或对优化过程进行修改,主动对特征图进行空间变换。空间变换器模型学习如平移、缩放、旋转和更通用的扭曲等的不变性。Jeon和Kim(2017)提出主动卷积单元(active convolution unit,ACU), 主动卷积单元定义的卷积没有固定形状,可以通过训练中的反向传播来学习其形状,ACU为可学习位置参数的卷积定义更多形式的感受野。Dai等人(2017)提出可变形卷积网络(deformable convolutional networks,DCN),DCN包括可变形卷积和可变形感兴趣区域池化两个新模块,可增强CNN的转换建模能力。其想法是在模块中增加有额外偏移量的空间采样位置,无需额外监督从目标(target)任务中学习偏移量。它可以代替现有CNN模块,并且可以通过标准反向传播进行端到端训练,产生可变形卷积网络,DCN对复杂的视觉任务非常有效。随后,Zhu等人(2019)又对可变形卷积网络做了改进,提出了Deformable ConvNets v2,增加可变形卷积的层数和可调节的可变形模块,采用蒸馏的方法模仿RCNN的特征,从而更好地对形变目标进行建模。鱼眼成像几何模型的复杂性使得经典的图像处理算法难以直接应用于存在严重几何畸变的鱼眼图像上,现有的各种鱼眼图像处理深度学习算法在鱼眼图像特征学习、模型表达与网络结构设计、模型训练与学习偏好控制方面可以进一步改进,主要可以以下几点考虑:1)扩大感受野,并在常规卷积网络上调整卷积和池化内核的采样位置,如可变形卷积网络;2)利用空间变换器模型,学习鱼眼图像中的如平移、缩放、旋转和更通用的扭曲等的不变性,比如空间变换网络和FSTN方法;3)定义能随意改变卷积形状的学习网络,从而更好地学习畸变目标的特征,如主动卷积单元。这些改进方向都已经在相关算法上进行了实验,并且结果证明能较好地对环视鱼眼图像畸变目标进行特征提取。3数据集和各算法性能比较3.1环视鱼眼图像数据集缺少环视鱼眼图像数据集,就不能对算法性能进行公平评价。相关研究者进行训练,也基本上是用自己的私有数据集。由于环视鱼眼图像相关视觉算法的迫切需求,目前也有少量的鱼眼图像数据集开始公开。主要包括第1个环视鱼眼图像数据集WoodScape(Yogamani等,2019)、鱼眼图像中人脸和目标检测的数据集VOC-360(visual object classes-360)(Fu等,2019a)、360°鱼眼图像中的人脸检测数据集FDDB-360(face detection data set and benchmark-360)(Fu等,2019b)、Bomni-DB和MW-18Mar,相关数据集的详细信息如表 5所示。 表5 鱼眼图像数据集 名称 容量 类别 图像尺寸/像素 特点 链接 WoodScape(Yogamani等,2019) 10 000幅图像 40 最小像素数为300 第1个完善的鱼眼汽车数据集,由4台环绕摄像机组成,适用于分割、深度估计、3维锚框检测、斑点检测等9项任务。 https://github.com/valeoai/WoodScape VOC-360(Fu等,2019a) 39 575幅图像 20 470×380 用于目标检测、分割和分类。数据分为annotation、fisheye、fisheye_class、fisheye_object和imageset等5个目录。fisheye文件夹中的每个鱼眼图像对应注释文件夹中的一个XML文件,文件名相同。XML文件为每幅图像提供所有注释。 https://www.lib.sfu.ca/help/publish/research-data-management/radar-retire FDDB-360 (Fu等,2019b) 17 052幅图像 26 640幅注释过的脸 未知 360°鱼眼图像中的人脸检测。 http://www.sfu.ca/~ibajic/ Bomni-DB(Demiröz等,2012) 10个视频 6种行为 640×480 视频帧由两个全向摄像机同时采集。数据集包含单主体和多主体交互场景,以及与环境辅助生活相关的动作,例如跌倒、站起、穿过房间等。 https://www.cmpe.boun.edu.tr/pilab/pilabfiles/databases/bomni/ MW-18Mar(Duan等,2020) 19个视频 行人 1 050×1 050 带有旋转锚框时空标注的新视频数据集,用于鱼眼上方视频中的人物检测和其他视觉任务。 http://vip.bu.edu/cepdof Dataset for fisheye imagesTable 53.2鱼眼图像目标检测性能比较目标检测中的性能指标主要包括准确率(accuracy)、精确率(precision)、召回率(recall)和平均精度均值(mean average precision,mAP)。准确率表示所有样本中分类对的样本所占的比例,精确率指识别出的正样本中正确识别的正样本个数所占的比例,召回率指测试集中所有正样本样例中正确识别的正样本个数所占的比例,平均精度均值是算出所有类别的精度,再算精度的均值。由于鱼眼图像先前没有统一的算法评价数据集,大部分算法都是在自建数据集上进行评价,因此分别从主干网络、输入图像尺寸、训练集测试集和检测精度等方面整体比较环视鱼眼图像目标检测算法的性能,如表 6所示。可以看出,由于缺乏公共数据集,各种方法都是使用各自的私有数据集,各种鱼眼图像目标检测算法无法统一评价。同时,由于不同目标的形变参数是不一样的,目前的目标检测研究是倾向于某种特定的一类目标,比如说只关注行人或者车辆。表6 环视鱼眼图像目标检测算法性能比较 算法/模型 主干网络 检测对象 输入尺寸/像素 训练集/测试集 评价指标/% 基于关键点预测的鱼眼图像停车点检测方法(Poddar等,2019) MobileNet+SSD 停车点 512×512 自建鱼眼图像数据集:车位标注帧数约1 400个,标签总数13 700个,训练集∶测试集=8 ∶2。 mAP:87.0 鱼眼图像下视目标检测方法(Zhu等,2018) MobileNet+RetinaNet 多类目标 512×512 自建符合IARC(international air robot competition)规则的鱼眼数据集,训练集1 000幅、验证集234幅、测试集234幅。 mAP:93.5 FisheyeDet(Li等,2020) 基于SSD改进 多类目标 300×300 将PASCAL VOC转换成多类目标检测任务公开鱼眼数据集VOC-Fisheye,训练集49 653幅、测试集14 856幅。 mAP:74.87 ConvNets(Nguyen等,2016) YOLO 行人 128×128 Bomni-DB视频数据集。 精确率:88.60 FSTN鱼眼图像中的行人特征方法(Qian等,2018) MS-CNN+FSTN 行人 512×512 自建伪鱼眼图像数据集。利用FSTN方法将KITTI数据集分为两部分,包括3 682幅用于训练的图像和3 799幅用于测试的图像。 AP:79.41 基于Mask-RCNN的鱼眼图像行人检测方法(Wang等,2019) Mask-RCNN 行人 512×512 Office-A/B自建鱼眼图像数据集。 AP:76.0/68.0 RAPiD(Duan等,2020) YOLO 行人 1 024×1 024 自建MW-R鱼眼图像数据集,已公开。 AP:96.7 定向空间变换模型(OSTN)(Qian等,2020) MS-CNN+OSTN 行人 512×512 自建伪鱼眼图像数据集,利用PMT算法将KITTI和ETH行人数据集转化为鱼眼图像数据集。 AP:75.68 Performance comparison of object detection algorithms in fisheye imagesTable 63.3鱼眼图像语义分割性能比较交并比(intersection over union,IoU)是语义分割的主要评价指标,也是评价目标检测等的常用指标之一。鱼眼图像语义分割主要是处理城市道路图像,相关算法的性能比较如表 7所示。表7 环视鱼眼图像语义分割算法性能比较 算法/模型 主干网络 语义分割对象 输入尺寸/像素 训练集/测试集 IoU/% OPP-Net(Deng等,2017) overlapping pyramid pooling 城市交通场景 512×512 伪鱼眼图像数据集CityScapes+zoom augmentation。 54.50 基于可变形卷积网络的实例分割方法(邓琉元等,2018) Mask RCNN+DCN 城市交通场景 512×864 伪鱼眼+真实鱼眼:CityScapes+映射函数生成Fisheye CityScapes;用装有环视相机的车辆在真实道路上采集鱼眼图像,并手动标注600幅鱼眼图像,其中400幅用于训练,200幅用于测试.共标注8个实例类别。二者融合训练测试。 56.80 ERFNet(Sáez等,2018) efficient residual factorized 城市交通场景 640×576 伪鱼眼图像数据集:CityScapes+zoom augmentation。 59.30 RDC(Deng等,2020) restricted deformable 城市交通场景 512×864 伪鱼眼图像数据集:CityScapes+zoom augmentation。 74.20 RotInvMTL(Arsenali等,2019) YOLO-RotRect 城市交通场景 1 280×768 共47543幅图像,每个图像带有包含40个类的实例级语义注释。使用6个类别子集(道路、车道标记、路缘、人、二轮/四轮车辆和骑手)进行训练和测试。 65.54 Performance comparison of semantic segmentation algorithms in fisheye imagesTable 74问题与展望环视鱼眼图像因其独有的大视场特点,受到越来越多的关注和研究,每年都有大量有效算法提出,但由于公共数据集数量极少,影响了算法评估,制约着算法发展,与真正应用有一定距离。根据已有的方法和思路,本文对环视鱼眼图像相关研究待解决的问题与未来研究方向进行展望。1) 仍然需要开发具有代表性的公共数据集。数据是基础,任何研究都离不开数据,没有代表性的公共数据集,就无法对算法进行统一评价。先前的工作是利用数据增强(Zhang等,2019)等方式,将普通图像数据集转换为伪鱼眼图像数据集,但伪鱼眼图像数据集能在多大程度上反映真实的模型建模能力,目前还没有相关研究。2) 环视鱼眼图像的相关研究应与弱监督或无监督学习结合。近年来提出了迁移学习或强化学习等基于弱监督(Ren等,2018;Karlinsky等,2018)或无监督(Rahman等,2018;Demirel等,2018)的方法,这些方法对数据的需求不高,能部分缓解数据缺乏的弊端,这也是深度学习未来的发展趋势,不再以数据为驱动。3) 如何对网络模型进行压缩和加速(Cheng等,2018;Wei等,2018)以满足网络处理效率的需求,是未来环视鱼眼图像的核心研究方向。结合自动驾驶汽车的环境感知应用背景及实时性特点,环视鱼眼图像处理模型要想应用到自动驾驶汽车上,就必须考虑处理时间,兼顾实时性和精度。如在较少损失精度的情况下,减少模型参数,同时依赖强大的计算资源(如GPU、TPU等),提升处理的效率。4) 需要更多的形变目标建模模型。处理环视鱼眼图像的最大难点就是目标产生较大形变,给建模带来一定阻碍,并且不同物体的形变程度也不相同,这就需要提出一种具有泛化能力的形变目标建模模型,从而能够对多目标进行处理。此外,由单一的鱼眼图像建模方法处理目标畸变问题,可以发展为多种建模方法融合,共同作用于畸变目标,得到更优良的形变目标建模模型。5) 由处理单一鱼眼图像过渡到处理全景环视鱼眼图像。全景环视图像能感知无人驾驶车身360°的信息,减少其他感应器的使用。但全景环视图像又涉及到多鱼眼图像融合和相机标定等问题。5结语根据环视鱼眼图像领域中存在的核心问题与关键的技术挑战,从环视鱼眼图像去失真方法、环视鱼眼图像中的目标检测方法、环视鱼眼图像中的语义分割方法、伪鱼眼图像数据集生成方法和其他鱼眼图像建模方法5个方向对环视鱼眼图像研究算法进行综述,并详细列举了现有的环视鱼眼图像数据集,对比分析了环视鱼眼图像中的目标检测方法、语义分割方法的实验结果,并结合自动驾驶汽车的环境感知应用背景和实时性特点,分析了自动驾驶汽车对鱼眼图像处理效率的具体要求。同时对该领域中如何对模型性能统一评价、如何利用少量数据训练、如何落地到实际应用、如何对形变目标更好地建模、如何过渡到处理全景环视鱼眼图像等研究热点进行了分析与展望。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览