网刊加载中。。。

论文引用格式：Bie Q， Wang X， Xu X， Zhao Q J， Wang Z， Chen J and Hu R M. 2023. Visible-infrared cross-modal pedestrian detection： a summary. Journal of Image and Graphics， 28（05）：1287-1307（引用格式:别倩，王晓，徐新，赵启军，王正，陈军，胡瑞敏. 2023. 红外—可见光跨模态的行人检测综述. 中国图象图形学报， 28（05）：1287-1307）［0　引言行人检测是计算机视觉领域最基本的任务之一，具有广泛的现实应用价值。行人检测是监控监视、监控追踪和自动驾驶等应用系统的核心技术，同时也是行人重识别、行人检索等任务的前提技术。近年来，基于深度学习方法的行人检测技术（Ouyang和Wang，2013；Tian等，2015；Lin等，2018；Li等，2020b；Liu等，2019；赵永强等，2020；甑烨等，2021）取得了很大进展，然而在光照不良条件下，可见光图像中的行人目标易与周围环境呈现一样的外观特征，因此仅基于单一可见光模态的行人检测器难以区分行人与周围背景，易造成漏检、误检等情况。人脸识别（Lee等，2016；He等，2017；Wu等，2021）、行人追踪（Farooq等，2015）、行人重识别（Andreas等，2013；Ye等，2018；Vladimir等，2019；李俊宏等，2020；郑伟诗和吴岸聪，2018；赵才荣等，2021；吴岸聪等，2022；Li等，2020a）和目标检测（Gupta等，2014；Song和Xiao，2016；Deng和Latecki，2017；Xu等，2018；蒋亭亭等，2021；Fang和Wang，2022）等领域的许多研究表明，相较于单一可见光模态，引入一种新的模态可获得更好的效果。在常见的可见光+深度图、可见光+雷达图以及可见光+红外图等跨模态输入组合中，雷达点云图提供的信息不足以将行人与物体区分开，深度图虽然可以提供行人轮廓信息但提供的轮廓不够准确。而热红外摄像机由于其根据温差成像的特性，相较于深度图和雷达图可以提供更清晰的行人轮廓。同时结合可见光与红外图像可以有效地解决在低照度场景（如黑夜、雾天、雨天等）下可见光图像表现较差的问题，并能在一定程度上解决行人遮挡和背景混淆等问题，如图1所示，其中，矩形框代表真实标注框。因此，相比于其他结合模态，结合红外—可见光两种模态在行人检测领域得到了更广泛的应用。10.11834/jig.220670.F001图1在低照度情况下红外图像为可见光图像提供辅助信息的可视化图Fig.1A visualization of an infrared image providing supplementary information to a visible image at low illumination（（a） infrared image；（b） visible image）近几年，跨模态行人检测方面的研究依然备受关注。图2 是以跨模态行人检测为关键词在谷歌学术搜索得到的2015—2021年发表的跨模态行人检测论文数量统计。可以看出，论文总体发表数量呈现上升趋势，虽然2020年的论文发表数量有所下降，但2021年呈现爆发式增长，推测是新冠疫情原因导致许多研究成果延后一年。结合可见光—红外两种模态的行人检测任务已逐渐成为并将持续成为研究者关注的热点任务。10.11834/jig.220670.F002图22015—2021年跨模态行人检测论文数量统计Fig.2The number of publications on cross-modal pedestrian detection from the year 2015 to 2021本文的贡献可以总结为以下3点：1）与不同于Li（2021）根据网络结构将近几年的跨模态行人检测工作分为单阶段检测和双阶段检测两类，本文根据研究针对的问题详细分类，更有利于对跨模态行人检测领域感兴趣的研究者快速了解该领域关注的问题和热点方向；2）基于不同的评价指标对近几年的跨模态行人检测方法在不同层面进行对比，提供了丰富的对比数据；3）总结了跨模态行人检测领域尚未完美解决的挑战，并提出对于未来跨模态行人检测领域方向的思考。这将有助于启发研究者实现更有价值的跨模态行人检测器。1　跨模态行人检测经过众多人工智能（artificial intelligence，AI）领域研究者的共同努力，跨模态行人检测在各方面都取得了显著性的成功。本文根据2007—2021年跨模态行人检测领域的研究热点和重要数据集的提出时间整理了该课题的发展脉络，如图3所示。10.11834/jig.220670.F003图3跨模态行人检测领域历年的研究热点Fig.3The hot research directions of cross-modal pedestrian detection in recent years如何有效融合可见光和红外两种模态一直是备受关注的热点问题。在KAIST（Korea Advanced Institute of Science and Technology）数据集提出之前，面向红外—可见光图像的跨模态行人检测研究都是基于OSU Color-Thermal（Ohio State University Color-Thermal）数据集（Davis和Sharma，2007）。首先通过图像融合技术，其次通过背景减法在融合后的图像上产生候选区域，最后对这些候选区域进行分类判断有无行人。早期，对两模态图像融合方法的研究主要包括基于轮廓的融合方法（Davis和Sharma，2007）、基于联合双边滤波器的融合方法（Choi和Park，2010）和基于黎曼流形的融合方法（San-Biagio等，2012）等。对候选区域分类方法的研究主要包括基于周期性步态分析的分类方法（Leykin等，2007）等。2014年之前，面向红外—可见光的跨模态行人检测任务并未引起广泛关注，主要原因在于OSU Color-Thermal中的图像大多在光线较好的白天场景下收集，结合红外进行检测的优势并不明显。Hwang等人（2015）通过以红外图像通道特征和红外图像的HOG（histogram of oriented gradient）特征作为附加通道特征扩展聚集通道特征，提出了多光谱ACF（aggregated channel features）行人检测器。实验证明，相比于仅用可见光图像训练的检测器，使用可见光—红外图像对的检测器在不同光照、不同距离和不同遮挡条件下的性能表现显著提高。随后，其提出的KAIST数据集广泛应用在跨模态行人检测领域，促进了面向红外—可见光图像的跨模态行人检测研究的再次兴起。早期基于背景建模的方法只能检测运动的目标，对于静止的行人目标无法处理。手工特征方法可以检测静止的行人目标，但手工特征无法满足各种环境下对检测器高精度性能和鲁棒性的要求，且手工特征方法无法实现一个端到端的检测器。随着深度学习技术的推广，研究者发现基于深度卷积神经网络（convolutional neural network，CNN）的方法可以在行人检测任务中提取更深层次、更具有区分力度的行人特征。如图3所示，2016年及以后的所有关于跨模态行人检测任务的研究都是基于CNN模型上的改进。跨模态行人检测的基本流程图如图4所示，由于跨模态行人检测输入为红外—可见图像对，因此检测过程中通常需要进行融合操作。但不同的跨模态行人检测方法对应不同的融合阶段，因此不同方法对应的位置不同。所以融合操作模块并未在图4中展示，具体细节如图5所示。10.11834/jig.220670.F004图4跨模态行人检测的基本流程图Fig.4Basic flow chart of cross-modal pedestrian detection10.11834/jig.220670.F005图53个融合阶段的可视化图Fig.5A visualization of the three fusion stages （（a） image fusion stage；（b） feature fusion stage；（c） decision fusion stage）针对近几年跨模态行人检测研究的问题，可分为模态差异大问题的研究和实际应用难问题的研究两类。针对模态差异大问题的研究旨在解决相对于单一可见光模态，新引入一个红外模态后出现的问题；针对实际应用难问题的研究旨在解决将红外—可见光跨模态行人检测器应用到现实生活场景中出现的问题。1.1　基于模态差异大问题的研究1.1.1　基于图像未对准问题的研究图像未对准是指来自两种模态的图像之间存在位置偏移问题，两种图像在同一空间位置显示的信息不同。由于两模态图像是由红外—可见光传感器分别拍摄的，不同的传感器具有不同的视角和视野，并且双传感器同步拍摄较为困难，因此对于结合红外—可见光的行人检测任务，图像未对准问题是一个较为常见的挑战。在2019年之前，French等人（2018）提出两模态图像融合之后进行特征提取和检测，但表现并不理想，主要是因为跨模态行人检测数据集中图像未对准的问题。Li等人（2018）在清洗KAIST数据集时，发现两种模态图像之间的未对准问题会造成检测器的性能下降，因此重新标注KAIST（Hwang等，2015）数据集中的训练数据集。Zhang等人（2019a）在2019年首次针对跨模态行人检测领域中两模态图像弱对齐问题进行系统地研究，以红外模态作为参考模态，可见光模态作为感知模态，提出区域特征对齐（region feature alignment，RFA）模块，用于解决两种模态间的图像弱对齐问题。通过两个模态真实行人标注框的中心坐标偏差算出两个模态的偏移量，根据模态间的偏移量动态地调整感知模态（可见光模态），这个过程中参考模态（红外模态）是不被调整的。不同于Zhang等人（2019a）针对两种模态图像之间弱对齐问题的研究，Wanchaitanawong等人（2021）旨在解决两模态图像之间存在较大偏差时的行人检测问题，提出基于两模态回归和两模态交并比（intersection over union，IOU）的检测方法，模型中的RPN（region proposal network）网络和检测网络具有一个两模态的边界框回归器，用于独立调整边界框的位置。Wanchaitanawong等人（2021）认为在两模态之间存在较大偏差时，两模态IOU不应仅计算一个统一的真实框和预测框的交并比，而应同时计算两种模态各自的真实框和预测框的交并比。实验表明，Wanchaitanawong等人（2021）提出的方法在两种模态图像存在强未对齐情况下有较明显的性能提升。1.1.2　基于融合不充分问题的研究关于两种模态融合不充分的研究可以分为对两种模态融合阶段（何时融合）的研究和对两种模态融合方式（如何融合）的研究。早期对于两模态融合不充分的研究致力于融合阶段的研究，根据不同融合阶段所对应的融合信息不同，可将融合阶段的研究分为3类，分别是图像阶段融合、特征阶段融合以及决策阶段融合。同样，根据融合信息不同，可以将融合方式的研究分为3类，分别是对图像融合方式的研究、特征融合方式的研究以及检测结果融合方式的研究。1）图像阶段融合。如图5（a）所示，此时融合的信息为图像信息，融合操作在特征提取操作之前发生，这个阶段的融合称为图像阶段融合。在图像阶段进行融合操作，不需要图5（b）（c）所示的双分支网络结构，只需改变单分支网络的第1层卷积层输入通道数即可。对于图像阶段融合方式的研究，Wagner等人（2016）提出的早期融合阶段中采取的图像融合方法是直接叠加型图像融合。对于直接叠加型图像融合，只需将单分支网络的第1层卷积层的输入通道数由可见光的三通道变为可见光+红外的四通道。Hou等人（2018）使用3种常见的图像融合方法，即Laplacian pyramid（Burt和Adelson，1983）、curvelet（Candès等，2006）和wavelet（Ranchin和Wald，1993）进行可见光和红外图像的融合。首先将RGB格式的可见光图像转为HIS（hue-intensity-saturation）格式，其次将可见光图像的I通道和热图像单通道分别使用3种图像融合方法进行融合，然后使用融合后得到的通道替换原可见光图像的I通道，最后再将经过替换后的HIS格式的可见光图像重新转化为RGB格式的可见光图像作为检测器的输入进行检测。相较于Wagner等人（2016）提出的早期、后期的融合方法，使用3种图像融合方法的行人检测器性能表现并不理想。Vandersteegen等人（2018）在基于红外图像单通道包含的信息比可见光图像的某个通道包含的信息更有价值的假设下，将RGB图像中的3个通道分别替换成热图像单通道，同时将RGB格式转化为LUV（L表示明亮程度，U、V表示图片色度）格式，将U或V两通道分别替换为热图像通道得到了5种不同的替换模型。实验结果表明，替换RGB格式中的R通道与替换LUV格式中的U通道可得到相同的效果。由于直接替换RGB中的R通道不需要格式转化，因此更推荐替换可见光图像中的R通道这一方式。French等人（2018）采用Connah等人（2015）提出的多光谱图像边缘融合算法融合红外—可见光图像，相比于Liu等人（2016a）提出的早期、中期和晚期融合算法，图像边缘融合算法性能表现并不理想。French等人（2018）分析图像边缘融合算法表现较差的原因在于数据集中的红外图像和可见光图像并没有完全对齐。本文也认为图像对未对准问题是图像融合方法检测性能较低的主要原因，因为像素级的图像融合比特征级的特征图融合对两模态图像对齐的要求更高。2）特征阶段融合。如图5（b）所示，此时融合的信息为两种模态的特征信息，融合操作在特征提取过程中发生，这个阶段的融合称为特征阶段融合。由于图像阶段融合的行人检测效果并不理想，近几年的研究大都致力于两种模态特征阶段的融合。对于单层特征图融合阶段的研究，Wagner等人（2016）提出晚期融合方法，两个子网络分别提取两种模态的特征，并在最后的全连接层融合两个分支提取出的不同特征。实验表明，其提出的属于特征阶段融合的晚期融合检测效果优于其同时提出的属于图像阶段融合的早期融合检测效果。Liu等人（2016a）对特征融合阶段进一步研究，提出4个不同的特征融合阶段，分别是早期融合、中期融合、后期融合和置信度融合。4个融合阶段都基于双分支的网络结构。其中置信度融合属于决策融合阶段的研究。早期融合是两个分支经过一个卷积层后进行特征融合；中期融合是两个分支经过4个卷积层后进行特征融合；后期融合是两个分支经过最后一个卷积层后进行特征融合。实验结果表明，中期融合阶段优于其他3个融合阶段，主要原因在于早期的特征图包含较为丰富的细节信息，后期特征图包含较为丰富的语义信息，而中期特征图不仅包含丰富的语义信息同时也包含细节信息。König等人（2017）为找到RPN中可见光和红外特征的最佳融合阶段，以产生更有效的候选区域，在Liu等人（2016a）提出的早期融合、中期融合和晚期融合的基础上，分别在第2层和第3层卷积层后对两模态特征进行融合，并通过实验对比不同特征阶段融合检测器的性能表现，实验结果表明，在第3个卷积层之后进行两模态特征图融合效果最好。对于多层特征图融合阶段的研究，Choi等人（2016）认为仅融合单个特征层是不够的，浅层的特征分辨率高，但对于行人特征识别能力差。然而随着卷积层的加深，特征图对行人特征的识别能力增加，特征分辨率随之下降。因此，Choi等人（2016）提出通过多尺寸特征图融合来平衡不同卷积层之间特征识别能力和分辨率。不同于基于R-CNN（region convolutional neural network）网络系列的检测器，Zheng等人（2019）设计了基于双SSD（single shot detector）的跨模态行人检测器（Liu等，2016b），采用SSD模型中 6个不同尺寸特征图检测不同尺度目标的思想，分别将两分支的特征图在conv4_3，conv7，conv8_2，conv9_2，conv10_2，conv11_2共6个不同尺寸的卷积层进行融合。在此网络模型基础上，Zhuang等人（2022）对在输入通道融合两模态特征、conv8_2层之后融合两模态特征和Zheng等人（2019）提出的6层融合3种阶段下检测器的表现进行比较，实验结果证明，对于双分支SSD结构而言，6层融合检测的效果最好。常见的特征融合方式包括4种方式，分别是平均融合、级联融合、增强融合和加权融合，如图6所示。10.11834/jig.220670.F006图64种常见融合方式的可视化图Fig.6A visualization of the four fusion methods（（a） average fusion；（b） concatenation fusion；（c） maximization fusion；（d） addition fusion）Liu等人（2016a）提出使用级联的方式进行两种模态特征图的融合，如图6（b）所示，但两种模态特征图的直接级联操作会导致通道数加倍，为能够继续使用预训练的网络模型参数，在连接层后面引入NiN（network-in-network）层以减少通道数，这种级联融合方式在之后的研究中得到广泛使用。不同于单独使用级联融合方式，Lee等人（2018）引入特征加强的操作，使红外特征图和可见光特征图中强度较高的部分会在联系特征图中也得到强调。首先利用Hadamard积方法融合输入的可见光特征图和红外特征图得到两种模态的关联特征图，其次将两种模态的特征图和关联特征图级联得到最终的融合特征图。Guan等人（2018）组织对比实验，以比较级联融合（图6（b））、增强融合（图6（c））和加权融合（图6（d））3种特征融合方法的性能，经实验表明，加权融合方法的效果最佳，增强融合方法其次，而最常用的级联融合方法检测效果最差。为充分利用两种模态之间的互补性，Zhang等人（2019b）首次将注意力机制应用于跨模态行人检测，提出跨模态交互式注意力网络（cross-modality interactive attention network，CIAN）。首先，利用可见光和红外两个分支分别提取两种模态的特征。其次，通过获取两个模态的全局特征将两个模态之间的相关性编码于注意力模块。最后，以编码得到的重要信息自适应地调整两种模态的融合权重，融合后特征图中的有效信息会更加突出，而无效信息将被抑制。Zheng等人（2019）提出以门控融合单元（gated fusion unit，GFU）的思想融合来自于两种模态的特征图。GFU基于门控机制的运行方式，在保证输出融合特征图通道数与输入特征图通道数相同的前提下，可以保留两种模态的有效特征，同时降低无效特征的影响。Zhang等人（2019a）以红外模态为参考模态，可见光模态为感知模态，提出基于置信度融合的方法。对于某一行人实例，若感知模态预测该候选区域为行人的概率与参考模态预测其为行人的概率相差较大，则抑制感知模态的特征。Zhang 等人（2020a）为保持不同光谱特征之间的一致性，提出以循环融合方式动态调整模态特征的融合过程（cyclic fuse-and-refine，CFR），认为融合后的双光谱特征通常比单光谱特征更具有判别性，使用融合后的双光谱特征优化单光谱特征，可使经过优化的单光谱特征相较于原光谱特征更具有判别性。但由于连续多次使用融合的多光谱特征来调整单光谱特征，两种模态之间的互补性会随着一致性增加而降低，所以通过控制循环优化的次数来实现两种模态之间一致性与互补性的平衡，实验结果表明，经过3次循环优化的检测效果最好。Zhou等人（2020）发现可见光—红外两种模态都有其内在特质，两种模态中都存在有效信息及噪音信息（可见光图像在低照度条件下难以区分周围背景和行人，红外图像在高温条件下难以区分周围背景和行人），仅使用简单的线性融合策略未能充分利用两模态之间的互补性。因此，Zhou等人（2020）提出使用差分模态感知（differential modality aware fusion，DMAF）模块，DMAF充分利用两种模态之间的互补性，从而可以产生更有效的融合特征表示。Zhang等人（2021a）提出由语义信息引导的类内和类间注意力机制特征融合模块（guided attentive feature fusion，GAFF）。在两模态特征融合阶段，两种注意力机制将由行人的语义信息引导，类内注意力机制更关注对应模态内的有效信息，因此可见光和红外特征图中含有行人的区域会加强；类间注意力机制更关注两个模态间的有效信息，因此两种模态中预测行人信息更准确的模态将得到更多的信任。Yang等人（2022）提出基于注意力机制的双向自适应注意力融合模块（bi-directional adaptive attention gate，BAA-Gate），注意力机制用于抑制两个模态中的噪声信息同时挑选两个模态间的有效信息。经过注意力机制挑选后的红外模态特征再经过光照加权以用于调整可见光模态特征，同时可见光模态特征也以相同的方式用于调整红外模态特征。与其他基于注意力机制的融合方法不同，Yang等人（2022）将光照权重与注意力机制相结合，光照权重不仅用于两种模态检测结果的融合，而且用于适应性地调整两个模态特征之间校准和融合的强度。Kim等人（2022a）提出基于感兴趣区域（region of interest，RoI）不确定性和预测不确定性的跨模态行人检测框架。针对RoI的不确定性，在结合两种模态特征时，设计不确定性感知特征融合（uncertainty-aware feature fusion，UFF）模块，以减少融合过程对不确定性RoI的特征影响；针对模态差异，提出不确定性感知的跨模态引导（uncertainty-aware cross-modal guiding，UCG）模块，使用预测不确定性表示各模态中的RoI预测的可靠性，引导高不确定性模态的特征分布靠近低不确定性模态的特征分布。3）决策阶段融合。如图5（c）所示，决策阶段融合一般发生在检测结果产生之后，决策融合阶段融合的信息为不同分支的检测结果。常见的检测结果融合方式为平均融合（两模态检测结果的权重都为0.5）。Liu等人（2016a）提出的置信度融合是两个分支网络的级联，首先，两个子网络分别生成候选区域和置信度。其次，可见光模态网络的输出会作为输入送入红外模态网络，红外模态分支网络的输出也会作为输入送入可见光模态网络以重新计算置信度。最后，通过平均融合方式合并两模态网络得到检测结果。Li等人（2019）提出置信度级的非级联融合，候选区域来自于两种模态的第5个卷积层后的融合特征图，然后两个子网络分别以生成的候选区域作为输入生成分类和边界框预测的结果，最后将两个子网络产生的结果平均融合得到最终的检测结果。但在不同的环境下，两种模态检测结果的可靠性不一致，此时应根据不同的场景自适应地调整不同模态的检测结果权重。引入辅助因素融合检测结果是较为有效的融合方式。引入辅助因素融合检测结果是指网络根据引入的光照、温度等条件计算出不同分支的检测结果所对应的权重参数，将计算出的权重参数用于不同分支检测结果的融合。Li等人（2019）研究发现，在光照良好条件下，相于比单一模态的行人检测，可见光图像和红外图像融合检测的效果较好；在光照不良条件下，相比于使用两种模态融合检测，单独使用红外图像检测的效果更好。因此，提出采用光照感知网络（illumination aware network，IAN）预测图像光照，从而计算得到两种模态在不同光照下的权重以适应性地调整对每一种模态检测结果的信任程度。与Li等人（2019）将光照权重用于两种模态检测结果的融合不同，Guan等人（2019a）提出将光照权重用于白天和夜晚两个子网络检测结果的融合。两者的区别在于Li等人（2019）认为在白天场景下可见光网络的检测结果应该赋予更大的权重，在夜晚场景下红外网络的检测结果应该赋予更大的权重。而Guan等人（2019a）认为在白天场景下白天分支网络的检测结果应该有更大的权重，在夜晚场景下夜晚分支网络的检测结果应该有更大的权重。在引入光照条件因素的基础上，Zhuang等人（2022）提出在外界温度高（如夏季的白天）的场景下，人体与外界环境温差不大，红外图像并不能提供清晰的行人轮廓。应根据温度和光照条件共同决定更信任哪一模态检测结果，从而进一步引入温度条件结合光照条件进行两模态检测结果的融合权重计算。1.2　基于实际应用难问题的研究1.2.1　基于标注成本问题的研究在实际应用中，将跨模态行人检测器应用到某一新场景时，其性能可能由于原训练场景和当前目标场景之间的差异而显著下降。为使检测器在不同的场景下都保持较好的性能，需要将检测器应用到目标场景的数据集上进行训练使其学习目标场景的特有信息。然而目标场景是多变的，如自动驾驶的汽车一天可能会经过各种各样的场景，而不同场景光照不同、行人数量不同、行人遮挡程度不同、空旷程度不同以及天气不同等。对各种目标场景的数据集标注是一个耗费人力的过程，且为了训练跨模态行人检测器在不同光照条件下的鲁棒性，跨模态行人数据集一般是在全天候环境下拍摄的，对于数据集中较暗的场景下拍摄的可见光图像，人眼也难以区别图像中是否存在行人，这会造成许多误标和漏标的情况。为解决数据标注成本问题，Cao等人（2019a）提出将训练好的可见光行人检测器用于为跨模态行人数据集标注边界框，并将自动标注过后的跨模态数据用于跨模态行人检测器中进行训练，从而实现无监督的跨模态行人检测而无需人工标注跨模态行人数据。不同于Cao等人（2019a）使用训练好的可见光检测器，Guan等人（2019b）使用训练好的跨模态检测器，先在一种跨模态数据中学习，再将检测器迁移到另一种跨模态数据中，迁移的过程不需要人工的标注。与上述仅使用可见光检测器或使用跨模态行人检测器不同，Lyu等人（2021）首先将两种检测器分别在可见光和红外数据集上进行训练，其次利用训练好的两种检测器分别为跨模态行人数据集中的可见光和红外图像生成伪标签，最后为使生成的伪标签更加可靠，利用光照权重来确定两种模态检测器生成的伪标签在不同光照条件下的优先级。以上工作都是以无监督迁移学习的方法解决人工标注耗时的问题，Zhang等人（2021b）提出使用弱监督学习的方法解决此类问题，即采用少量人工标注的标签。首次将主动学习策略应用于跨模态行人检测领域，首先，随机挑选一部分样本进行人工标注后作为输入数据送入检测器进行训练；其次，检测器利用两个模态图像间的互补性以选取有效的样本；最后，将检测器选取的有效的样本进行人工标注，并将标注好的样本继续送入检测器训练。重复上述过程，直至当前检测器可以达到与全监督的跨模态行人检测器相同的性能后结束循环。1.2.2　基于硬件成本问题的研究在监控领域中，道路监控大多是可见光监控。若将原有道路监控都替换为可见光—红外一体监控所需成本较昂贵，且获取严格对齐的双光谱图像通常需要特殊校准板对双光谱图像进行校准，这意味着更高昂的成本。目前主流的方法尝试采用已有的跨模态数据训练检测器，而测试检测器仅在单一模态上进行。如果检测器的表现可达到与可见光和红外图像数据共同测试的效果，跨模态行人检测器就可利用现有的可见光或红外摄像机而不用使用特定的可见光—红外一体摄像机，这将大幅节省成本并且不用考虑双光谱数据的未对准问题。Xu等人（2017）提出采用生成伪红外的思想解决此类问题。首先，第1个网络输入为可见光图像和红外图像，该网络学习从可见光图像到红外图像的非线性映射关系；然后，将第1个网络学习到的参数作为第2个网络中的第2个分支的参数。第2个网络中的第1个分支学习可见光图像的特征，第2个分支学习可见光图像生成的伪红外图像的特征；最后，将两个分支分别学习到的特征融合用于行人检测。Kruthiventi等人（2017）采用教师—学生网络结构解决此类问题。首先，教师网络由来自于两种模态的数据共同训练，学习来自于两种模态的特征；然后，由训练好的教师网络指导输入仅为可见光图像的学生网络，既学习可见光图像特征，又学习可见光图像中类似于热图像的特征。Liu等人（2022）同样采用教师—学生网络结构，但不同于Kruthiventi等人（2017）设计的教师网络简单的将两种模态进行融合学习，为更明确地探索两种模态之间特有和共有的联系，提出基于通道分离和融合的跨模态特征学习（cross-modal feature learning，CFL）模块，同时，为使学生网络能更有效地从训练好的教师网络中学习跨模态知识，从特征、检测和分割3个角度设计不同的蒸馏损失项。以上研究都使用红外与可见光图像进行训练，测试仅使用可见光图像。Kim等人（2022b）在以上研究的基础上，构建可分别使用可见光或红外图像测试的多功能行人检测器，设计多传感器匹配对比损失以引导网络在不考虑输入模态的情况下能产生相似地视觉表示，并设计多光谱回忆（multi spectral recalling，MSR）存储器用于储存两种模态的视觉特征表示，根据输入模态的特征与MSR中的键相似度，从MSR中取出对应的值，同时设计多光谱回忆损失以引导MSR有效记住两个模态的上下文信息。然而，仅基于单一模态图像测试的方法，与同时使用红外与可见光数据测试的方法仍然存在较大差距。对于分辨率较高的红外热像仪，其与多架无人机结合使用，成本是无法估计的。相比于车载和监控行人检测领域尝试使用单一模态通过某种变换代替双模态，机载行人检测领域意图使用分辨率较低的红外热像仪与可见光相机结合，并通过特定处理以达到与使用高分辨率红外热像仪相同的效果。de Oliveira和Wehrmeister等人（2016）将低成本的热像仪图像与用于分类任务的CNN相结合，以检测候选对象，需要的红外图像仅为227 × 227像素。实验结果表明，低分辨率的热图像在大多数情况下可以产生较为准确的行人候选框，并且能够在一定程度上提升检测器速度。在此研究基础上，de Oliveira和Wehrmeister等人（2018）将Haar级联（基于Haar特征的级联分类器）、LBP（local binary pattern）级联、HOG + SVM（support vector machine）和卷积神经网络（CNN）4种机器学习技术用于特征提取和分类，将显著图技术（saliency map，SM）和低分辨率热图像处理技术（thermal image processing，TIP）用于产生行人候选框，在8种自由组合中，经过实验证明，通过将CNN与TIP结合，可以达到最好的行人检测性能。Beleznai等人（2018）认为红外图像在周围环境温度较高时提供的行人轮廓并不清晰，而深度图像中偶尔存在无效像素出现于无纹理区域。因此提出使用热红外和深度图数据生成行人候选框，再通过两个分别训练的基于CNN的分类器评估生成的候选框，最后将保留较好的候选框对象。经实验结果表明，以此互补方式快速生成行人候选框的方法能够在有限的成本下提供较好的行人检测结果。1.2.3　基于实时检测问题的研究自动驾驶系统需要在检测到行人后快速做出一系列反应从而避免意外事故的发生，所以不论是一般的行人检测领域还是跨模态行人检测领域对行人检测器的速度都有较高的要求。虽然使用两阶段网络的跨模态行人检测器精度较高，但自动驾驶系统不仅要有较高的精度同时也需要较快的检测速度，所以目前对实时检测问题的研究都致力于采用单阶段网络结构设计跨模态行人检测器，旨在保持较高的检测速度条件下达到与两阶段检测器相同或更高的精度。单阶段检测器省略生成候选区域的过程，将行人定位任务和分类任务在同一个网络中完成，从而在速度上实现优于两级检测器的性能。Vandersteegen等人（2018）提出在不改变检测速度较高的YOLOV2（you only look once V2）（Redmon和Farhadi，2017）网络结构下，直接将可见光图像三通道中的某一个通道替换为红外图像的单通道，采用替换后的图像作为YOLOV2检测器的输入。替换图像通道的操作耗时可忽略不计，基于此方法的跨模态行人检测器可以达到与传统可见光行人检测器一样的速度。Zheng等人（2019）使用速度和精度都较好的SSD（Liu等，2016b）网络设计基于双分支SSD的跨模态行人检测网络。实验证明，双分支SSD检测网络速度相比于两阶段检测网络速度有较大提升。之后，双分支SSD网络结构在许多研究中广泛使用。比如Zhou等人（2020）设计的MBNet（modality balance network），Zhang等人（2020a）设计的CFR（cyclic fuse-and-refines）等。Cao等人（2019b）发现同一检测器处理低分率输入图像的速度相较于处理高分辨输入图像的速度会有较大提升。但使用边界框定位行人的跨模态行人检测器在对分辨率较低的输入图像检测时，很难产生分类为正样本的边界框。为在提高跨模态行人检测器检测速度的同时保证检测精度，提出采用更适用于处理低分辨率输入图像的盒级分割技术定位行人，如图7所示。盒级分割技术可以分割出大致的行人轮廓，从而减少边界框中的无效区域，增多正样本的数量。本文认为，以使检测器可以有效处理低分辨输入图像为出发点，提高检测器的速度，该研究提供了解决实时检测问题的另一种思路。10.11834/jig.220670.F007图7盒级分割技术的可视化图Fig.7A visualization of the box-level segmentation technique由于检测耗时时间较长将阻碍行人检测方法在无人机系统上的应用，为实现机载图像中的人员快速识别，de Oliveira和Wehrmeister等人（2016）提出首先使用热红外图像产生较为数量较少且较为准确的候选框，以解决滑动窗口方法产生行人候选框较多且耗时较长的问题，其次将生成的候选框映射到热红外图像对应的可见光图像中，最后使用CNN分类器对候选框进行分类和回归。采用热图像生成候选框，能够减少搜索空间，在保证准确率的同时具有可接受的计算性能。Golcarenarenji等人（2021）提出修改YOLOV3（Redmon和Farhadi，2018）模型结构，使用扩展卷积替换原始模型在自底向上路径中的最后两个池化层，以提高获得的特征图分辨率，从而获得更多关于小目标行人的信息，提高远距离小目标行人检测结果的精度。实验结果表明，其提出的模型与YOLOV3模型检测准确率相当，但速度加倍。Shao等人（2022）认为模型庞大、内存有限和计算能力有限3种因素限制了空中行人检测算法在无人机平台上的部署，因此提出将网络修剪算法与YOLOV3检测算法相结合，以获得修剪后的YOLOV3模型。实验结果表明，与原始的YOLOV3模型相比，修剪后的模型体积缩接近95.5%，计算量减少约2/3，而准确率仅降低1.7%。2　数据集和评价指标2.1　数据集相比于单一模态的行人检测数据集，跨模态行人检测数据集由可见光—红外图像对组成，每一对图像由可见光摄像机和红外摄像机同时在同一地点分别拍摄的图像组成。OSU Color-Thermal（Davis和Sharma，2007）数据集是在2007年收集并发表的数据集。此数据集在大学校园中一个繁忙的十字路口拍摄，包含6个序列，前3个序列在同一地点拍摄，后3个序列在另一地点拍摄，图像中包含大量行人。数据集中图像为白天场景下采集，红外图像的优势并不突出。KAIST（Hwang等，2015）数据集是目前跨模态行人检测领域最受欢迎并且应用最广泛的数据集。该数据集由在校园、街道以及乡下等各种常规交通场景中捕获的全天可见光—红外热图像对组成。共包括95 328幅图像和1 182个行人，每幅图像都由可见光图像和红外图像对组成。包含person、people和cyclist共3个类别，比较容易区分的个体标注为person，不易区分的个体标注为people，骑行者标注为cyclist。此外，根据行人遮挡情况，KAIST数据集可分为3类，即无遮挡、部分遮挡（≤ 50%行人区域被遮挡）和严重遮挡（ 50%的行人区域被遮挡）。随着KAIST数据集的广泛应用，KAIST数据集的修改提升版逐渐提出。Liu等人（2016a）提出消除错误边界框标注后的提升版测试数据集。Li等人（2018）提出净化版本的训练数据集，消除了原始训练数据集中的一些错误注释。Zhang等人（2019a）为解决可见光—热图像对之间的不对齐问题，分别为每个模态重新标记行人并建立联系，提出了新的配对版KAIST数据集。CVC-14（computer vision center-14）（Gonz􀅡lez等，2016）数据集是由车载双摄像机昼夜在各种场景下拍摄的，该数据集中的可见光图像为灰度图。根据拍摄时间段，该数据集可分成白天和夜晚两个子序列。对于训练数据集，白天和夜间子序列分别包含3 695和3 390个可见光—红外图像对。对于测试数据集，白天和夜晚子序列分别包含706和727个可见光—红外图像对。如图8所示，可见光和红外摄像机的视野和分辨率存在不一致问题。红外图像分辨率为640 × 512像素，可见光图像分辨率为1 280 × 1 024像素。可见光摄像机的视野更广，拍摄到的范围更大，可以捕捉位于车两旁的行人。红外摄像机的视野较小，主要集中于车的正前方，无法捕捉位于车两旁的行人。因此，Gonz􀅡lez等人（2016）对两种模态图像都单独提供注释，使用CVC-14的数据集时，需要手动进行空间位置对齐和裁剪。10.11834/jig.220670.F008图8CVC-14数据集的相关图像Fig.8Related images of the CVC-14 dataset （（a） fixed position diagram of two cameras；（b） a pair of sample images）Utokyo（University of Tokyo）（Takumi等，2017）数据集包括7 512组图像，其中白天图像3 740组，夜晚图像3 772组，由可见光、远红外、中红外和近红外4种摄像机在大学校园中拍摄，包含6 066组图像未对齐的训练图像和1 466组图像对齐的测试图像。目前使用UTokyo数据集的跨模态行人检测方法大都只使用对齐的测试集图像。FLIR（forward looking infrared radiometer）（F. A. Group，2018）数据集是由车载可见光和红外相机捕获，包含10 000个可见光—红外图像对，只有红外图像经过标注。Zhang等人（2020a）对FLIR数据集进行清洗，保留了FLIR数据集中最常用的人、汽车、自行车3个类别，移除了未对齐的可见光—红外图像对。清洗后的FLIR训练数据集和测试数据集分别包含4 129和1 013个对齐的可见光—红外图像对。DIML（digital image media laboratory）（Park等，2018）数据集是在2018年提出的基于室内监控场景的双光谱数据集，包含1 003个对齐的可见光—红外图像对以及1 792个行人注释。红外图像和可见光图像分辨率都是640 × 480像素。LLVIP（low-light visible-infrared paired）（Jia等，2021）数据集是在2021年提出的基于弱光场景的可见光—红外图像对数据集，包含30 976幅图像（15 488对），每幅图像都包含行人。由于数据集的拍摄时间段在18时—22时之间，因此大部分图像都处于较暗的场景。如图9所示，该数据集是由可见—红外一体双目摄像机所拍摄的，原始拍摄的图像也存在视野和分辨率不同的问题。但LLVIP数据集已经过裁剪和校准处理，因此数据集中的每个图像对严格意义上在空间和时间都是对齐的。10.11834/jig.220670.F009图9LLVIP数据集的相关图像Fig.9Related images of the LLVIP dataset（（a） schematic diagram of the binocular camera；（b） a pair of sample images before calibration）本文对现有数据集在不同层面上进行了详细对比，如表1所示。10.11834/jig.220670.T001表1跨模态行人检测数据集对比Table 1Comparison of datasets for cross-modal pedestrian detection数据集分辨率/像素拍摄时间段拍摄场景摄像机视角是否对齐提出年份OSU Color-Thermal320 × 240白天室外道路监控是2007KAIST640 × 512全天室外车载摄像头是2015CVC-14640 × 512全天室外车载摄像头否2016UTokyo320 × 256全天室外车载摄像头测试集对齐2017FLIR640 × 512全天室外车载摄像头否2018DIML640 × 480白天室内房间监控是2018LLVIP1 080 × 72018:00—22:00室外道路监控是20212.2　评价指标错误的检测结果可能会使控制决策系统发出错误的信号。漏检率（miss rate，MR）是跨模态行人检测领域最常用评价指标之一，计算为MR=1-NtpNg （1）式中，Ntp表示预测为正样本且预测结果为正确的边界框数量，Ng表示真实边界框的数量。MR表示正样本未被检测到的概率，可表示为MR=NfnNg （2）式中，Nfn表示预测为负样本但真实为正样本的边界框数量。通过设定不同的置信度阈值，可以得到以每幅图像的平均误检个数（false positives per image，FPPI）为X轴，MR为Y轴的FPPI曲线。其中，MR为固定FPPI值对应的最小MR。FPPI计算为FPPI=NfpNp （3）式中，Nfp代表被预测为正样本但预测结果错误的边界框数量，即误检或虚检个数。Np代表总图像的个数。采用FPPI曲线，均匀选取［10-2， 100］范围内的9个FPPI，得到对应的9个MR的值，则平均对数漏检率MR-2为MR-2=e19∑i=19ln(MRi) （4）除跨模态行人检测器模型的准确度外，检测器的速度（speed）也是一个重要的评价指标。这里的速度指的是检测器处理一个可见光—红外图像对所需要的时间。一般来说，参数越多，模型复杂度越高。所以，除使用推断时间评估检测器模型的速度外，模型参数数量是另一个较为有效的评估指标。2.3　前沿方法比较和分析以MR-2为评价指标时，MR-2值越低越好。为保证公平地比较，检测器都使用KAIST数据集中的原始训练集进行训练，在Liu等人（2016a）提出的提升版KAIST测试集进行测试。表2为国内外前沿方法以MR-2为指标在KAIST数据集中的无遮挡、部分遮挡（行人身体部分 ≤ 50%被遮挡）和严重遮挡（行人身体部分 50%被遮挡）以及近距离（车与人距离 ≤ 11 m）、中等距离（车与人距离在11～28 m之间）和远距离（车与人距离 ≥ 28 m）6个测试数据集上的比较结果。可以看出，AR-CNN（area-region convolutional neural network）、MBNet和BAANet（bi-directional adaptive attention network）解决了可见光—红外图像对之间的弱对齐问题，并且采用较好的融合方式，在近距离的行人检测任务上MR-2达到0.00%。CIAN、MBNet和BAANet等3种方法借鉴SSD多尺度检测的思想，将不同尺寸的特征图的检测结果融合，更有助于小目标行人的检测，在KAIST的远距离测试数据集上性能有较大提升。表2　前沿方法在KAIST无遮挡、部分遮挡、严重遮挡以及近距离、中等距离、远距离测试数据集上的MR-2性能比较Table 2　Comparison of log-averaged miss-rate of the state-of-the-art methods on no-occlusion， partial-occlusion，heavy-occlusion， near-scale， medium-scale， and far-scale test sets of KAIST dataset/%10.11834/jig.220670.T002方法无遮挡部分遮挡严重遮挡近距离中等距离远距离ACF+T+THOG（Hwang等，2015）62.9481.4088.0828.7453.6788.20Halfway Fusion（Liu等，2016a）43.1365.2174.368.1330.3475.70Fusion RPN+BDT（König等，2017）47.4556.1072.200.0430.8788.86IAF R-CNN（Li等，2019）40.1748.4069.700.9625.5477.84IATDNN+IASS（Guan等，2019a）45.4346.2564.570.0428.5583.42CIAN（Zhang等，2019b）30.3141.5762.483.7119.0455.82MSDS-RCNN（Li等，2018）29.8638.7163.371.2916.1963.73AR-CNN（Zhang等，2019a）31.4038.6355.730.0016.0869.00MBNet（Zhou等，2020）27.7435.4359.140.0016.0755.99BAANet（Yang等，2022）25.1534.0757.920.0013.7251.25注：加粗字体表示各列最优结果。表3为国内外前沿方法以MR-2为指标在CVC-14数据集中的全天、白天、黑夜3个测试数据集上的比较结果。由于CVC-14数据集中图像未对准问题较为严重，相比于KAIST数据集，跨模态行人检测器在CVC-14数据集上性能表现较低。表3　前沿方法在CVC-14全天、白天、黑夜测试数据集上的MR-2性能比较Table 3　Comparison of log-averaged miss-rate of thestate-of-the-art methods on all， day，and night test sets of CVC-14 dataset/%10.11834/jig.220670.T003方法全天白天黑夜ACF + T + THOG（Hwang等，2015）60.1061.3048.20CNN + SVR（Choi等，2016）47.3049.3043.80Halfway Fusion（Liu等，2016a）37.0038.1034.40CWF + APF（Park等，2018）31.4031.8030.80AR-CNN（Zhang等，2019a）22.1024.7018.10MBNet（Zhou等，2020）21.1024.7013.50TVPD（Kim等，2022b）19.8823.6912.35UFF+UCG（Kim等，2022a）18.7023.8711.08注：加粗字体表示各列最优结果。表4为19种先进的跨模态行人检测方法以MR-2为指标在KAIST数据集中的全天、白天、黑夜3个测试数据集上，仅考虑在无遮挡或部分遮挡且身高像素大于50像素的行人的比较结果。从表4可以看出，每种方法对于夜间图像和白天图像的行人检测结果都存在着一定的差异，有的方法对于白天图像的检测效果比较好，而有的方法相反。本文发现，CMT-CNN（cross-modality transfer convolutional neural network）、Halfway Fusion、IAF R-CNN（illumination-aware faster region convolutional neural network）、IATDNN+ IASS（illumination-aware two-stream deep convolutional neutral networks + illumination-aware semantic segmentation）和MSDS-RCNN（multispectral simultaneous detection and segmentation-region convolutional neutral networks）等直接使用级联方式融合红外—可见模态的方法，不能充分利用红外图像在夜间场景下的优势，因此相比于夜间图像，对于白天场景下的行人检测效果更好。而引入注意力机制的CIAN、GAFF、BAANet方法以及引入差分融合模块的MBNet方法，以自注意力、差分融合的方式调整红外特征图在特征融合过程中的权重，更充分地利用红外图像在夜间场景下的优势，因此在夜间场景下行人检测效果更好。IAF R-CNN和IATDNN+IASS引入光照权重网络，根据光照条件自适应的调整红外—可见光图像在融合过程中的权重，但由于权重只用于两分支的检测结果融合而未在特征融合过程中使用，所以MR-2并无明显提升。虽然MSDS R-CNN并未引入光照权重，但是其MR-2提升至11.63%，这表明将语义分割和目标检测任务结合学习有助于提高检测性能。表4　前沿方法在KAIST全天、白天、夜间测试数据集上的MR-2性能比较Table 4　Comparison of log-averaged miss-rate of thestate-of-the-art methods on all， day，and night test sets of KAIST dataset/%10.11834/jig.220670.T004方法全天白天黑夜ACF + T + THOG（Hwang等，2015）47.2442.4456.17CMT-CNN（Xu等，2017）36.8334.5641.82CWF+APF（Park等，2018）31.3631.7930.82Halfway Fusion（Liu等，2016a）26.1524.8527.59Fusion RPN + BD（König等，2017）16.5316.3918.16IAF R-CNN（Li等，2019）16.2213.9418.28IATDNN+IASS（Guan等，2019a）15.7815.0817.22RFA（Zhang等，2019a）14.6116.7810.21CIAN（Zhang等，2019b）14.1214.7711.13DCRD（刘万军等，2021）12.5813.1211.65MSDS-RCNN（Li等，2018）11.6310.6013.73CS-RCNN（Zhang等，2020b）11.4311.868.82GAFF（Zhang等，2021a）10.6210.8210.14CFR_3（Zhang等，2020a）10.059.7210.80AR-CNN（Zhang等，2019a）9.349.948.38DCRL（刘万军等，2021）9.169.868.18MBNet（Zhou等，2020）8.138.287.86BAANet（Yang等，2022）7.928.376.98UFF+UCG（Kim等，2022a）7.898.186.96注：加粗字体表示各列最优结果，加下划线方法表示仅用可见光图像测试。表5以速度为指标对国内外方法在KAIST测试集上进行比较，速度的值越低表示检测器效率越高，但速度同时也取决于机器。如表5所示，由于CFR_3方法采用双模态特征循环融合的思想而未引入其他模块，模型所需要的参数量较小，因此相比于运行在1080Ti的其他方法，速度较快。基于两阶段检测网络的Halfway Fusion、Fusion RPN + BDT、IAF R-CNN、IATDNN + IASS等方法，虽然检测精度上有较大提升，但速度较慢，不符合现实场景对于实时检测的要求。10.11834/jig.220670.T005表5前沿方法在KAIST数据集的速度比较Table 5Comparison of speed of the state-of-the-art methods on KAIST dataset方法运算平台速度/sACF + T + THOG（Hwang等，2015）MATLAB2.73Halfway Fusion（Liu等，2016a）TITANX0.43Fusion RPN + BDT（König等，2017）MATLAB0.80IAF R-CNN（Li等，2019）TITANX0.21IATDNN + IASS（Guan等，2019a）TITANX0.25MSDS-RCNN（Li等，2018）TITANX0.22CIAN（Zhang等，2019b）1080Ti0.07AR-CNN（Zhang等，2019a）1080Ti0.12CFR_3（Zhang等，2020a）1080Ti0.05MBNet（Zhou等，2020）1080Ti0.07BAANet（Yang等，2022）1080Ti0.07注：加粗字体表示最优结果。3　未来方向展望尽管近年来提出了一系列基于深度神经网络的跨模态行人检测方法并取得相对优异的性能，对比Li等人（2018年）为KAIST数据集创建的人眼检测基线，检测器的表现仍然与人眼检测的表现存在较大差距，跨模态行人检测仍然是一个需要深入研究的方向。本文对跨模态行人检测领域尚未解决的问题进行讨论，并提出对于未来可行方向的思考。1）模态间数据未对准问题。如图8和图9所示，CVC-14数据集采用的双摄像机与LLVIP数据集采用的双目单摄像机都由于不同传感器的视野和视角不同，造成可见光—红外图像在空间上的未对准问题。在现实生活中，设备老化或外界干扰等原因将导致两传感器拍摄不同步，造成可见光—红外图像在时间上的未对准问题。当两模态图像间存在未对准问题时，两种模态图像（包括其产生的特征图）在同一空间位置所表示的行人信息不一致，从而产生错误的信息干扰检测器的优化。所以，解决两模态图像未对准问题将是一个重要的研究方向，不仅可以促进未对齐跨模态数据集（如CVC-14，FLIR等）的使用，还可以促进双传感器在现实生活中的应用。2）不同视角下的跨模态行人检测问题。目前对于跨模态行人检测领域的研究大都基于车载数据集KAIST、CVC-14和FLIR，对于监控视角下的跨模态行人检测研究比较缺少。车载数据集相较于监控视角拍摄的数据集场景多变，可以有效防止检测模型对某一特定环境过拟合。图10为KAIST数据集和LLVIP数据集的可见光图像的对比。从图10（a）可以看出，由于夜间车辆行驶时通常会开启前照灯，相比于监控视角数据集，车载数据集中的夜间图像可能较为明亮。因此，如果同时将车载—道路监控两种视角摄像头拍摄的数据集用于跨模态行人检测器的训练，既可以增加模型在更暗场景下的鲁棒性，又可以防止模型对某一场景过拟合。10.11834/jig.220670.F010图10KAIST数据集和LLVIP数据集的可见光图像对比Fig.10Comparison of a visible image between KAIST dataset and LLVIP dataset （（a） KAIST；（b） LLVIP）3）机载场景下的跨模态行人检测问题。在过去几年中，无人机在监视、搜索、救援以及快递等民用领域中的应用不断增加。针对大面积流行性疫情（如新冠疫情）造成的社会形式，Shao等人（2021）提出使用无人机进行行人之间社交距离检测。首先检测器通过实时人头检测以准确定位行人，其次利用获得的无人机图像（垂直图像和倾斜图像）到真实世界坐标的变换矩阵，计算出无人机图像上行人之间的社交距离，以实现可靠的行人个体之间的社交距离监控，既可以节省人力也可以保证行人之间的距离，但此研究仅针对白天场景。本文认为，若引入红外模态辅助，可实现全天候的行人距离监测，将更具实用价值。表6展示了目前先进的无人机目标检测数据集的对比。目前机载场景下没有公开的跨模态行人检测数据集，近几年关于跨模态行人检测的研究（de Oliveira和Wehrmeister，2016，2018；Beleznai等，2018；Wang等，2022）都是基于私有的数据集。因此，提出机载场景下的跨模态行人数据集是具有较大贡献价值的一项工作，且机载场景下的跨模态行人检测研究具有非常重要的现实意义。10.11834/jig.220670.T006表6目前先进的无人机目标检测数据集对比Table 6Comparison of the current state-of-the-art UAV object detection datasets数据集任务分辨率/像素模态提出年份GMVRT-v2（Blondel等，2014）行人检测1 280×720RGB2014CARPK（Hsieh等，2017）目标检测1 280×720RGB2017UAVDT（Du等，2018）目标检测1 080×540RGB2018VisDrone-2018（Zhu等，2018）目标检测3 840×2 160RGB2018DAC-SDC（Xu等，2019）目标检测640×360RGB2019VisDrone-2019（Zhu等，2020）目标检测3 840×2160RGB2019Drone Vehicle（Sun等，2022）目标检测840×712RGB+Thermal2020AU-AIR（Bozcan和Kayacan，2020）目标检测1 920×1 080RGB2020BIRDSAI（Bondi等，2020）目标检测640×480Thermal2020UVSD（Yang等，2019）目标检测960×540～5 280×2 970RGB2020MOHR（Zhang等，2021c）目标检测5 482×3 078或7 360×4 912RGB2021P-DESTRE（Kumar等，2021）行人检测及追踪3 840×2 160RGB20214）遮挡条件下的跨模态行人检测问题。根据Dollar等人（2012）的调查，在实际应用中，行人遮挡情况在繁华拥挤的街道、大型商场、机场等场景是很常见的，70%左右的行人都存在遮挡情况。从表2可以看出，目前跨模态行人检测的研究大多关注于检测部分遮挡或没有遮挡情况下的行人，跨模态行人检测器在严重遮挡情况下的表现并不理想。但Hwang等人（2015）的实验表明，不论是在无遮挡、部分遮挡还是严重遮挡情况下，在可见光图像没有足够信息识别遮挡的行人时，红外图像由于可以提供清晰的轮廓而具有一定的辅助检测作用。因此，结合红外图像和可见光图像用于进行遮挡条件下的行人检测是未来值得关注的一个研究方向。5）小目标行人检测问题。对比于大目标行人包含的丰富检测信息，小目标行人的外表和轮廓信息都较模糊，检测器很难将小目标行人对象与周围环境区分开来。如表2所示，即使最先进的跨模态行人检测方法对于检测小目标行人的效果仍不理想，跨模态行人检测领域中对于小目标行人检测技术的研究仍然存在着很大空白。因此，将红外图像与可见光图像结合起来进行小目标行人检测也是未来值得关注的一个研究方向。6）恶劣天气条件下的行人检测问题。雾天由于雾的遮挡导致可见光图像中行人能见度低，雨天由于摄像头前的雨滴导致可见光图像中的行人不可见。而在上述情况下，红外图像都能提供较为清晰的行人轮廓，所以本文提出应将跨模态行人检测器应用于雨、雾等恶劣天气条件。目前的跨模态行人检测的数据集都是在良好天气场景下拍摄的，目前先进的跨模态行人检测方法也仅适用于良好天气下的全天行人检测。要实现全天候的跨模态行人检测系统，仅关注良好天气下的白天和黑夜数据是不够的，也需要关注如雾天、雨天等恶劣天气下的数据。因此，提出基于雾天、雨天等天气下的多光谱行人数据集是有实际意义的，并且针对恶劣天气下的跨模态行人检测任务也是一个可行的方向。7）实时行人检测的问题。自动驾驶系统和机器人系统需要快速返回行人检测结果，如表5所示，大多跨模态行人检测器在GPU（graphics processing unit）上处理一对输入图像耗时较短，但在实际应用设备上跨模态行人检测器在GPU上处理一对输入图像的耗时并不理想。行人检测系统的检测错误将导致控制决策模块发出错误的决策信号，行人检测系统检测耗时长将导致决策模块发出的决策信号不及时。对于自动驾驶系统，错误或者延迟的决策信号都极有可能导致汽车与行人的碰撞。因此，准确高效的行人检测算法对于保障行人安全具有非常重要的现实意义，实时检测也将是跨模态行人检测持续发展的方向之一，并应同时保证行人检测的精度。4　结语本文首先回顾了基于背景建模和手工特征的跨模态行人检测研究，并根据基于深度学习方法的跨模态行人检测研究针对的问题进行仔细分类并逐一展开介绍。其次，本文总结了7个可用的数据集和3个常用于评估跨模态行人检测器性能的评价指标。根据7个数据集的不同使用场景、拍摄时段等进行比较说明，并在不同的数据集上以不同的评价指标对近几年前沿的跨模态行人检测方法进行比较分析。最后，本文讨论了目前跨模态行人检测领域仍然存在的问题并提出未来可行的研究方向。尽管基于深度学习的跨模态行人检测近些年来取得了巨大的研究进展，但是相关技术仍然难以满足需求，仍然需要深入研究。希望通过本文能够使更多读者了解当前工作，进而提出更有价值的跨模态行人检测方法。