网刊加载中。。。

论文引用格式：Leng J X， Mo M J C， Zhou Y H， Ye Y M， Gao C Q and Gao X B. 2023. Recent advances in drone-view object detection. Journal of Image and Graphics， 28（09）：2563-2586（引用格式:冷佳旭，莫梦竟成，周应华，叶永明，高陈强，高新波. 2023. 无人机视角下的目标检测研究进展. 中国图象图形学报， 28（09）：2563-2586）［0　引言以目标检测为代表的计算机视觉等先进技术为无人机赋予了自主感知、分析和决策能力，使其在现实生活中发挥着愈发重要的作用。无人机结合智能目标检测技术可自主定位感兴趣目标，可充分发挥其独特空中视角及高机动性的优势，从而实现灵活高效的数据收集能力。随着目标检测技术的发展，无人机在交通监控（Byun等，2021）、电力巡检（Abdelfattah等，2021）、作物分析（Osco等，2021）和灾害救援（Božić-Štulić等，2019）等多个领域中展现出广阔的应用前景。例如在交通监控领域，无人机可以空中飞行进行侦测，不受道路限制，具有速度快、自由度高和视野宽广等优点。当交通事故等突发事件发生时，无人机可以第一时间进行响应，到达现场进行图像采集与分析，为应急救援与管理提供及时有效的数据支撑。在深度学习的驱动下，目标检测技术获得了长足的发展，取得了诸多令人瞩目的成就。然而，大多数研究聚焦于地面视频监控图像的分析，面向无人机视角图像的目标检测还未得到充分的研究。目前，即使是最好的目标检测算法，在无人机图像上的平均精确率也难以达到40%（Cao等，2021）。无人机视角下的目标检测之所以难，其主要原因在于无人机图像存在尺度变化、疏密分布、目标数量较多且小目标占比较高等问题，特别是无人机高分辨率图像高计算需求与现阶段低功耗芯片有限算力之间的矛盾难以平衡。相对于地面视角拍摄的自然图像，无人机视角下的广阔视场在提供更为丰富的可视化信息的同时，也意味着更为复杂的场景和更加多样的目标，给目标检测任务带来了更多无用噪声的干扰。而且在无人机视角下，图像中的目标往往因远端拍摄、背景遮挡或光照影响等因素检测难度较大，需要使用高分辨率图像提供更多的信息以达到较好的检测效果。这极大地增加了目标检测算法的计算开销与内存需求，直接使用未经过特殊设计的通用目标检测算法将带来难以承受的计算开销与内存需求，进一步加剧了目标检测的难度。在实际应用场景中，往往面临着类似于识别车辆种类这种细粒度分类的问题，这些相似目标给模型正确识别目标带来了巨大的挑战。此外，受限于现实世界中的目标数量，无人机视角下某些类别的样本数量往往极为有限，这种数据不均衡也对模型的学习能力提出了更高的要求。因此，紧密结合智能目标检测技术，针对无人机视角下图像的特性设计行之有效的方法，促使模型更好地学习理解无人机视角下的视觉数据，对于无人机在实际场景中充分发挥其效用是至关重要的。无人机视角下的目标检测在应用广泛的同时面临着诸多挑战，具有深刻的现实意义与重要的研究意义。对无人机视角下的目标检测展开研究将有助于推动目标检测领域的进一步发展，增强目标检测在面对真实场景时的应用能力。目标检测作为计算机视觉领域的基础研究，已有学者对此进行研究与总结，并发表许多优秀的综述。Zou等人（2019）梳理了400多篇关于目标检测技术发展的论文，系统而全面地展现了目标检测领域。Oksuz等人（2021）从目标检测中存在的类别不平衡、尺度不平衡、空间不平衡以及优化目标不平衡等4大不平衡问题出发，对现有的目标检测算法进行了深入的总结。Chen等人（2020）从小目标4大基础方法的角度出发，总结并分析了小目标检测的相关优化思路。曹家乐等人（2022）回顾并总结了基于单目相机的视觉目标检测方法，并对比介绍了单目目标检测和双目目标检测的国内外研究进展情况。然而，以上综述对于无人机视角下目标检测的关注不够，未能系统地梳理无人机视角下的目标检测方法和面临的挑战。聚焦到无人机视角下的目标检测，Mittal等人（2020）关注低空无人机数据集，评估并总结了当前流行的目标检测算法，但是局限于简单的性能对比，没有深入总结分析。Sambolek和Ivašić-Kos（2020）介绍了在搜索和救援行动中使用无人机的可能性，并提供了在无人机图像中检测相关人员的方法概述。Srivastava等人（2021）关注无人机图像的车辆检测，从提高精度和减少计算开销两个方面回顾了这些工作。Bouguettaya等人（2022）关注于无人机视角下的车辆检测应用，总结并介绍了多种网络结构对于改善车辆检测的贡献。江波等人（2021）对常见的航空影像数据集进行了梳理，并对近期的无人机目标检测研究进行了归纳和分析。杨浩然和张雨晗（2022a）对目标检测相关算法进行了简单的优缺点分析。然而，这些综述对于无人机视角下面临的挑战总结不够系统，在算法方面的趋势总结较为薄弱，而且对于目标检测算法的实际应用阐述也较为简略。与以往关注于通用领域目标检测的综述或仅关注于无人机在特定应用场景下应用的综述不同，本文着重于对无人机视角下的目标检测这一意义重大且极具挑战性的研究领域进行系统且深入的分析与总结。首先简要阐述无人机视角下目标检测的重要研究意义，然后对无人机视角下目标检测领域中存在的挑战进行系统的归纳和总结，随之介绍并分析无人机视角下的目标检测优化思路，包括数据增强、多尺度特征融合、区域聚焦策略、多任务学习、模型轻量化以及其他优化策略等。本文将特别展示无人机视角下目标检测算法的应用，阐明该研究的实际意义。此外，本文将介绍无人机视角下适用于检测任务的相关数据集，并在常用的数据集上分析对比现有算法的检测性能。最后，对本文内容进行简要的总结，并讨论无人机视角下的目标检测未来可能的研究方向和发展趋势。1　无人机视角下目标检测的挑战相较于常规图像，无人机视角下的图像因其拍摄平台的特殊性，有着许多独有的特性。其中最为显著的特性便是广阔的空中视野，这种空中视野使得无人机可以捕获更为丰富的信息，进而实现强大的数据收集能力，但同时也给目标检测带来了极大的挑战。不同与以往综述简单地罗列无人机视角下目标检测面临的问题，本文尝试从数据不均衡的角度来分析并总结无人机视角下的挑战。如图1所示，无人机视角下的目标检测中存在着目标尺度不均衡、空间分布不均衡、样本数量不均衡、类别语义不均衡以及优化目标不均衡等五大不均衡问题。接下来，本文将基于这五大不均衡问题对无人机视角下目标检测难度高的原因以及其面临的挑战进行分析与总结。10.11834/jig.220836.F001图1无人机视角下目标检测存在的5大不均衡问题Fig.1Five imbalance challenges of object detection from the drone viewpoint（（a） scale imbalance；（b） spatial imbalance；（c） sample imbalance；（d） semantic imbalance；（e） objective imbalance）1.1　目标尺度不均衡无人机灵活自由的飞行高度导致了无人机与拍摄目标之间的距离容易产生急剧变化，加之无人机有着多变的拍摄视角，往往同时含括近处与远端的目标，这使得无人机图像中的目标存在着极度的尺度不均衡问题。如图1（a）所示，无人机图像中同一类别目标尺寸分布范围较广，而且在分布上小尺寸的目标占比极高。一方面，这种目标尺度上的剧烈变化对于网络的泛化能力提出了更高的要求。现有方法大多基于深度卷积神经网络，随着网络层数的加深，特征的语义信息逐渐加强，而细节信息也随之弱化，难以提取合适的特征同时处理无人机视角下不同尺寸的目标。另一方面，无人机图像中小目标所携带的可视化信息少，在复杂场景中易受到背景噪声干扰，难以提取有效特征，往往需要使用高分辨率图像，检测器才能较好地识别。1.2　空间分布不均衡无人机图像视野广阔，在覆盖较多目标的同时也涵盖了较多的背景物体。事实上，车辆往往行驶于道路之上，行人往往集中于空地之上，反映到图像上便是目标呈现聚集性分布。如图1（b）所示，无人机视角下不同区域之间的差异较大，目标往往集中于图像中的小部分区域，即目标的空间分布存在极度不均衡问题。一方面，小部分区域目标聚集，极易产生目标之间的密集遮挡问题，检测模型需投入更多的关注才能有效区分不同目标；另一方面，大部分区域目标稀疏甚至没有目标，若无差别地对这些空白区域进行处理将极大地浪费计算资源。1.3　样本数量不均衡现有数据驱动的模型极度依赖数据质量与数量，当数据集中某个类别相对于其他类别占有更高的比例时，模型在学习时便极易产生偏见，导致整体性能下降。从目标检测的角度来看，无人机视角下数据集中存在着两种样本数量不均衡：正—负样本不均衡和不同类别之间的样本数量不均衡。相对于自然图像，无人机图像中目标数量较多，但是图像中前景目标的覆盖面积却极小。这种前后景占比之间的巨大差距带来了正—负样本不均衡问题，使得模型的学习过程更易被背景噪声所干扰，从而难以关注到无人机视角下的感兴趣目标。此外，在基于无人机视角的数据集中，类别之间在数量上往往存在着不均衡的问题，不同类别目标的数量占比存在较大差别。如图1（c）所示，在VisDrone（Cao 等，2021）数据集中，“Car”与“Awning-tricycle”这两个类别的数量相差近30倍。若不进行特殊的设计，这种不均衡将导致模型过于关注样本数量多的类别，而对于样本数量少的类别学习不足，泛化性能极差。此外，不同类别的外观表征不同，检测难度不一。例如，“Bus”与“Tricycle”的数量相当，但是“Bus”的可视特征较为明显，易于检测；而“Tricycle”这一类别结构复杂，难以从环境中区分出来，导致其检测性能远低于“Bus”类别。1.4　类别语义不均衡在尺度变化之外，无人机自由灵活的运动方式还带来了视角转换、运动模糊等问题。此外，在不同应用场景中天气往往不同，带来了光照影响、云雾遮挡等问题。如图1（d）所示，这些因素导致属于同一类别的不同目标外观差异较大，对检测模型的泛化能力提出了极大挑战。此外，现有数据集往往仅关注于某一领域的具体应用，不同类别标签所定义的语义信息往往相近。例如在适用于交通监控领域的VisDrone（Cao等，2021）数据集中，“People”与“Pedestrian”、“Car”与“Van”虽然属于不同类别，但是外观极为相似，这种类间差异小的问题导致检测器难以有效区分不同目标。1.5　优化目标不均衡如图1（e）所示，相对于地面视角的自然图像数据集，无人机数据集中的图像分辨率往往较高。一方面，这得益于无人机广阔的空中视角可以捕获较高分辨率的图像；另一方面，无人机视角下，目标极易受到复杂环境噪声的干扰，需要高分辨率图像才能有效识别。然而，处理高分辨率图像所需的显存与计算量都是无人机平台的芯片难以承受的。相对于普通的消费级显卡，轻量化的嵌入式芯片仅能提供不到1/10的计算能力。这给无人机视角下目标检测算法的实际部署带来了极大的挑战。此外，面向无人机高分辨率图像的目标检测往往有着低延迟的要求。这进一步加剧了模型计算量与检测精度之间的矛盾，由此产生了无人机视角下目标检测的优化目标不均衡的问题。2　无人机视角下目标检测研究思路前文简要地总结并分析了无人机视角下目标检测面临的五大不均衡问题。这些不均衡问题阻碍了航拍图像中目标检测精度的进一步提升，一定程度上影响了无人机视角下目标检测的应用。为此，学者们进行了大量研究工作，涌现出许多创新优化思路以解决这些不均衡问题。本文收集了相关论文并依据其作者的国家、机构、发表的期刊/会议、年份、所属的优化思路以及重点解决的问题进行了梳理与分析。如图2所示，中国在无人机视角下的目标检测研究领域占据着主导地位，国内有较多的机构进行了相关研究工作，包括中国科学院大学、北京工业大学、武汉大学、北京航空航天大学等。此外，无人机视角下目标检测的相关研究大多聚焦于解决目标尺度不均衡问题，这一问题也是无人机图像最为突出、阻碍性能进一步提升的因素。10.11834/jig.220836.F002图 2无人机视角下目标检测研究概览Fig.2Overview of object detection research from the drone viewpoint2.1　数据增强策略无人机视角下的目标检测尚处于发展阶段，其数据集相对于自然图像数据集规模较小，而且场景往往较为单一，加之同一场景中不同帧之间差距较小，这导致了目标在样本数量和质量上的欠缺。此外，无人机视角下往往还存在着尺度变化、运动模糊和光照影响等因素干扰，检测器难以有效学习到识别目标所需的特征。面对这些挑战，数据增强便是一种很自然且有效的思路。通过不同的数据增强策略可以扩充训练数据集的规模，丰富数据集的多样性，从而增强检测模型的健壮性和泛化能力，一定程度上缓解无人机视角下数据匮乏的问题。在目标检测领域，数据增强因其有效性得到了广泛的应用。例如，属于区域卷积神经网络（region convolutional neural network，R-CNN）（Girshick等，2014）系列的Fast R‐CNN（Girshick，2015）、Cascade R‐CNN（Cai和Vasconcelos，2018）中使用的水平翻转，单次检测器YOLO（you only look once）（Redmon等，2016）、YOLO9000（Redmon和Farhadi，2017）中使用的调整图像曝光和饱和度，还有常被使用的CutOut（DeVries 和Taylor，2017）、Mix‐Up（Zhang等，2017）、CutMix（Yun等，2019）等方法。而后，更是有诸如马赛克增强（Bochkovskiy 等，2020）、保持增强（Gong等，2021）、自适应增强（Zoph等，2020）等创新策略提出。这些数据增强策略一定程度上可以提升无人机视角下的目标检测性能。然而，无人机视角下目标尺度变化范围更广，目标形式更为多样，不同类别之间的样本数量极不均衡，需要更具针对性的数据增强策略。为此，学者们进行了大量的研究。受尺度正则化图像金字塔（scale normalization for image pyramids，SNIP）（Singh和Davis，2018）及其后续工作SNIPER（Singh等，2018）的启发，Ünel等人（2019）针对无人机视角下的小目标检测问题，通过统一裁剪的方法有效降低了显存占用。Zhang等人（2019d）将裁剪后的图片用于训练阶段，进一步提高了检测性能。但是，这种方法容易破坏目标的完整性，且忽视了无人机图像中存在的样本数量不均衡问题，从而阻碍了检测性能的进一步提升。Hong等人（2019）参照Kisantal等人（2019）的方法，针对无人机视角下目标覆盖的面积小、出现位置缺乏多样性、检测框与真值框之间的交并比远小于期望阈值等问题，引入“复制—粘贴”数据增强方法，通过在图像中多次复制粘贴小目标的方式来增加小目标的训练样本数，从而提升了图像中小目标的检测性能，并在一定程度上缓解了正负样本不均衡问题。而后，Chen等人（2019a）提出一种自适应重采样策略（如图3（a）所示）进行数据增强，通过预训练的语义分割网络获取图像的上下文信息指导前景目标的复制，以解决简单复制过程中可能出现的背景不匹配和尺度不匹配问题，从而达到较好的数据增强效果。Tang等人（2020）进一步构建前景图像库，在分割图的指导下添加不同的前景图像。以上方法对于小目标问题和样本数量不均衡问题取得了较好的解决效果，但是对于无人机视角下存在的尺度变化问题的关注不够充分。10.11834/jig.220836.F003图3数据增强策略的代表性方法Fig.3Representative approaches of data augmentation（（a） adaptive resampling augmentation strategy；（b） unified foreground packing strategy）Wei等人（2020）通过对统一裁剪生成图像中的目标尺度进行统计，并依据统计结果采取自适应的缩放策略，从而一定程度上缓解了尺度变化问题。Yu等人（2020）提出了一种简单有效的尺度匹配（scale match）方法，用于在两个数据集之间对齐目标尺寸分布，以实现更为有效的微小目标表示。而后，该团队（Jiang等，2021）改善了从图像层面到实例层面的尺度匹配，通过更为精细尺度匹配实现了较好的尺度分布对齐。此外，还提出了一种概率结构绘画（probabilistic structure inpainting，PSI）方法用于图像的背景处理，实现了更为自然的数据增强效果。如图3（b）所示，Huang等人（2022）提出了一种统一前景增强（unified foreground packing，UFP）策略，通过将原始无人机图像转换为统一的马赛克图像，从而显著提高前景比例并平衡不同大小目标的尺寸。此外，Cai等人（2019）通过加入亮度噪声模拟晴天或夜晚，以及使用柏林噪声模拟云雾遮挡，从而增强模型检测性能的稳定性。而Kiefer等人（2021b）则通过虚拟数据集扩充合成大规模的高分辨率数据，用于帮助网络处理现实世界中相似的目标检测任务。总的来说，数据增强是一种行之有效且几乎不增加推理成本的方法，一定程度上解决了无人机视角下的目标尺度不均衡、样本数量不均衡以及类别语义不均衡等问题，有效提高了网络在不同场景下检测的健壮性。但是数据增强策略带来了训练成本的大幅增加，如何设计高效的数据增强策略仍是值得探究的重点问题。此外，如果增加的数据不能模拟真实场景，则会误导模型。在面对真实复杂场景中的不同实际应用任务时，往往需要针对新任务的特性再次进行设计与训练，迁移成本较高。2.2　多尺度特征融合由于飞行高度以及拍摄视角的变化，无人机图像中同一类目标呈现的尺寸随之急剧变化，这给目标检测带来了严峻的挑战。不同尺度中含有差距较大的深层语义信息和浅层表征信息，基于单一尺度的模型往往难以同时处理这两种信息。而多尺度特征融合可以结合不同层次的有效信息，从而有效缓解无人机视角下的目标尺度不均衡问题。在通用目标检测领域，多尺度特征融合已经得到了较为广泛的应用。早期的目标检测方法（Lowe，2004；Dalal和Triggs，2005）中多尺度的思路主要基于图像金字塔（Adelson等，1984）。如图4（a）所示，这类方法通过输入不同尺度的图像，对不同尺度大小的目标进行检测。但是，基于图像金字塔训练卷积神经网络模型对计算机算力和内存都有极高的要求，在实际研究应用中较少被使用，仅有SNIP/SNIPER（Singh和Davis，2018；Singh等，2018）等方法针对不同数据集之间目标尺度分布差异过大的问题而使用。为节省计算资源并获得更好的特征融合效果，Lin等人（2017a）结合单一特征映射、金字塔特征层次和综合特征的优点，提出了特征金字塔网络（feature pyramid network，FPN）。如图4（b）所示，FPN是目前最流行的多尺度网络，它引入了一种自底向上、自顶向下的网络结构，通过融合相邻层的特征以达到特征增强的目的。在FPN的基础上，又涌现出一批创新方法（Tan等，2020；Qiao等，2021；Huang等，2021）。10.11834/jig.220836.F004图4多尺度特征融合的代表性方法Fig.4Representative approaches of multi-scale feature fusion （（a） image pyramid network；（b） feature pyramid network）聚焦于无人机视角下的目标检测领域，Vieira-e-Silva等人（2021）在图像层级应用多尺度检测，一个分支检测降采样图像中的大目标，一个分支检测均匀裁剪后的高分辨率原图，提高了性能。Liu等人（2020）在使用多个分支处理不同尺度的基础上，通过残差块和跳跃连接融合不同尺度的特征，获得更为丰富的空间信息。Liang等人（2020）在Li和Zhou（2017）工作的基础上，通过增加一个额外的反卷积模块分支和平均池化来调整特征融合模块，并使用特征融合和反卷积模块产生的两个特征金字塔对无人机图像中的小目标进行预测，从而提升了检测性能。Yang等人（2019b）设计了一种采样融合网络，将多层特征融合到有效的锚点采样中，以提高对小目标的灵敏度。而后，Xiao等人（2020）在多尺度融合的基础上进一步进行多尺度预测，获得了较好的检测精度。Lyu等人（2020）提出了一种基于无锚框架的尺度自适应平衡机制，并将不同感受野的浅层特征映射加入主干网络中，有效提升了小目标检测性能。Lin等人（2021）提出了一种三路融合特征金字塔网络，通过构建一种三路融合结构捕获更为丰富的相邻尺度层级上的上下文信息。Tang等人（2021）提出了一种水平特征金字塔网络，在水平方向构建层数逐层递减的特征金字塔，生成更为丰富的特征。Liu和Zhang（2021）针对无人机高分辨率图像中的小目标问题，提出了多深度图像金字塔网络和多尺度特征金字塔网络，通过将低分辨率图像送入深层网络提取语义，高分辨率图像送入浅层网络用于定位，从而实现了较好的检测性能。Amudhan和Sudheer（2022）重点考虑上下文信息对于小目标的辅助作用，通过构建浅层特征与深层特征之间的跳跃链接，从而有效提升了航拍图像中的小目标检测性能。多尺度特征融合同时考虑了浅层的表征信息和深层的语义信息，有利于不同尺寸目标的特征提取，能够有效地缓解目标尺度不均衡问题。然而，处理高分辨率的无人机图像时，使用多尺度特征融合方法将带来巨额的计算量与显存占用，一定程度上阻碍了模型的实际部署及应用。此外，无人机视角下所拍摄的图像往往包含较多背景物体，在特征融合过程中，难以避免地带来额外的背景噪声干扰，这阻碍了相关算法的检测性能进一步提升。2.3　区域聚焦策略无人机图像中存在着目标空间分布不均衡的问题，不同区域的检测难度之间存在着较大差异。若平等对待不同区域将在不重要的区域浪费大量的计算资源，从而限制目标检测性能的提升。因此，引导网络学习聚焦于重要区域并进行精细处理是一种不错的优化思路。早期的开创性工作（Lu等，2016；Gao等，2018）提出了自适应搜索策略，即在自然图像中搜索目标可能存在的区域，然后不断放大，通过减少所需计算的像素数，高效地处理图像中的小目标。在此基础（Lu等，2016；Gao等，2018）上，Yang等人（2019a）首先提出通过检测目标的聚集区域而非直接检测单个目标，然后将目标聚集区域裁剪出来送入精细检测器进行进一步的检测，这一方法一定程度上解决了无人机图像中存在的小目标聚集问题和不均匀分布问题。随后，Li等人（2020）和Duan等人（2021）引入了一些其他领域的网络，例如人群计数领域的多列卷积神经网络（multi-column convolutional neural network，MCNN）（Zhang等，2016），通过预测图像中物体的分布来辅助获得更好的重点关注区域。受在线困难样本挖掘（online hard example mining，OHEM）（Shrivastava等，2016）和焦点损失函数（focal loss）（Lin等，2017b）的启发，Zhang等人（2019b）和Wang等人（2020）通过裁剪出低置信度目标聚集的区域进行特别关注，从而实现了较好的检测性能。Deng等人（2021）在根据低分辨率图像上的粗糙检测结果选取重点区域的基础上，进一步对重点区域进行超分处理，然后再次进行检测，同时兼顾了检测精度与网络计算开销。Leng等人（2023）从不同区域目标检测难度不同的角度出发，指导网络学习聚焦于困难目标所在的区域，并首次引入区域独有上下文辅助困难区域的检测，获得了较好的检测性能。此外，Xu等人（2021b）通过引入强化学习搜索重点关注区域，一定程度上减少了误检结果对于区域选取的干扰。该类方法在检测速度与精度之间取得了较好的平衡，一定程度上缓解了无人机视角下存在的空间分布不均衡问题。然而，现有方法对于无人机视角下丰富的上下文信息缺乏显式的利用，往往忽略了易于检测的目标对于难以检测的目标的辅助作用。此外，该类方法框架中往往涉及较多超参数设置，难以端到端地优化，影响了性能的进一步提升。图5展示了区域聚焦策略的代表性方法。10.11834/jig.220836.F005图5区域聚焦策略的代表性方法Fig.5Representative approaches of regional focusing strategy （（a） based on dense small objects；（b） based on low-confidence objects）2.4　多任务学习现有模型多为数据驱动，而无人机视角下的视野较宽阔，上下文信息较多。若能充分利用这些先验信息，构建“数据—知识”双驱动的检测模型，将有助于进一步提升检测性能，进而推动无人机视角下目标检测算法的实际应用。Chang等人（2018）指出无人机航拍图像中物体的透视投影变形影响了模型的识别能力，并提出通过图像分割和消失点变换来克服上述挑战。Pi等人（2019）依据场景上下文信息进行辅助推理，通过分析并去除误检候选框，以提高检测精度。Zhou等人（2019b）通过使用金字塔场景解析网络（pyramid scene parsing network，PSPNet）（Zhao等，2017）进行像素级的场景解析，然后利用场景类别相关知识来微调修正目标的分类置信度。受Mask R-CNN（He等，2017）启发，Zhang等人（2019d）构建了一个目标边界框与遮罩联合学习的交错层级结构，改善了无人机图像中密集小目标的检测效果。如图6（a）所示，Wu等人（2019b）提出了一种名为干扰解缠特征转换（nuisance disentangled feature transform，NDFT）的新框架，通过使用高度、天气和视角等辅助信息，实现了更为稳健的目标检测。Messmer等人（2021）针对无人机视角下存在的目标尺度不均衡问题，通过使用无人机数据集的高度信息，约束同一类别的尺寸大小，获得了不错的效果。Li等人（2021）将“距地采样距离”作为先验知识，辅助确定目标的物理尺寸，并通过结合图像场景信息，提高了相似目标之间的可辨别性。此外，还在目标检测任务中引入目标计数任务作为约束，进一步提升了模型的检测性能和泛化能力。Fang等人（2021）基于自注意力机制提出一种有效的跨模态特征融合方法，通过充分利用不同模态综合性信息，显著改善了航拍图像中多光谱目标检测的性能。如图6（b）所示，Sun等人（2022）提出了一个不确定性感知跨膜态车辆检测（uncertainty aware cross-modality rehicle detection，VA-CMDet）框架，通过融合可视图像与红外图像两种模态的信息，并使用光照估计量化不同目标的不确定性，从而减少高不确定性目标带来的检测偏差，实现了全天候极端场景下的车辆检测。10.11834/jig.220836.F006图6多任务学习的代表性方法Fig.6Representative approaches of multi-task learning（（a） methodological framework of NDFT；（b） methodological framework of UA-CMDet）多任务学习可以有效抑制数据中存在的噪声，提高模型的泛化能力。然而，现有模型对于无人机视角下图像的特性关注还不够深入，主要倾向于关注目标尺度不均衡问题，而忽略了类别语义不均衡这一重要问题。此外，这些方法大多隐式地利用的高度、光照等先验信息或融合可视图像、红外图像等不同模态的信息，未能显式地利用特定目标在不同场景下呈现的外观表征来优化检测结果。2.5　模型轻量化现有的先进目标检测方法大多依赖强大的基础神经网络，这些网络通常有着巨大的内存开销与计算需求，难以直接应用于无人机这种低功耗图像处理平台。为此，诸多学者对低功耗的目标检测算法进行了大量且深入的研究。较为通用的做法是进行模型压缩，即在已经训练好的模型上简化，使得网络携带更少的网络参数，从而可以同时解决内存与计算速度的问题。例如，靳丽蕾等人（2018）提出了一种结合权重剪枝和卷积核剪枝的混合剪枝方法。基于YOLOv3（Redmon和Farhadi，2017）改进的SlimYOLOv3（Zhang等，2019c）通过剪枝减少计算量，显著降低了网络所需功耗。Ringwald等人（2019）通过自适应地修剪模型，改进网络预测层，从而在计算能力较弱的无人机上实现了较好的检测效果。冀树伟等人（2019）提出了一种基于特征复用的卷积神经网络压缩模块特征复用单元（feature-reuse unit，FR-unit），实现了在保证准确率的同时减小卷积神经网络模型的体积与计算量。这些方法一定程度上推进了无人机平台上目标检测算法的部署与应用。但该类方法在训练阶段难以收敛，结果稳定性较差，实际操作过程复杂。另一种较为流行的思路是设计更为高效的卷积拓扑结构。Iandola等人（2016）从网络结构优化的角度出发，通过使用1 × 1卷积来替代部分3 × 3卷积，并减少输入通道的数量，从而有效降低了卷积计算量。Howard等人（2017，2019）和Sandler等人（2018）发挥深度可分离卷积的优势，提升了卷积计算的效率。Zhang等人（2018）和Ma等人（2018）在分组卷积的思想上提出了通道混洗操作，避免了大量1 × 1卷积操作。Azimi（2019）通过使用通道混洗和分组卷积，并通过增加网络宽度实现了对于不同尺寸和几何形状车辆的高效检测。Wu等人（2019a）通过使用引导层作为分类与定位回归的预先配置，从而在边缘计算设备上实现了20帧/s的检测速度。最近，谷歌（Xiong等，2021）提出了一种轻量化目标检测网络，通过设计一种基于正则卷积构建块的增强搜索空间系列，使得神经结构搜索算法可以获得更优的网络架构，从而在各种移动设备上实现更好的延迟—准确性权衡。针对低功耗设备的有限算力，百度提出了一种新的实时目标检测器（Yu 等，2021a），通过采用自研的超轻量骨干网络与检测头，并采用更精准的采样策略，从而有效推动了轻量化目标检测算法的应用部署。如图7所示，Yang等人（2022）提出了一种名为查询检测器（query detector，QueryDet）的网络，通过使用一种新颖的查询机制来加快基于特征金字塔的目标检测器的推断速度，在利用高分辨率特征图细节信息的同时，避免了对背景区域的无效处理，从而实现了检测速度与精度之间较好的平衡。10.11834/jig.220836.F007图7QueryDet（Yang等，2022）方法主框架图Fig.7Main methodological framework of QueryDet （Yang et al.，2022）模型轻量化很大程度上缓解了无人机视角下目标检测的计算压力，在特定应用场景下获得了较好的性能，使得算法的实际部署应用成为可能。但是相较于目前的先进检测器，轻量化网络在检测精度上还存在较大差距，仅能用于特定的简单场景。在复杂真实场景中，如何构建稳定有效的轻量化检测器仍然是亟待解决的重点问题。2.6　其他方法针对无人机视角下的目标检测任务，除了前文总结的方法外，还有诸多方法取得了不错效果。Chen等人（2019c）针对无人机图像中的小目标问题，通过在图像超分辨率重建生成对抗网络（generative adversarial network for image super- resolution，SRGAN）（Ledig等，2017）的基础上添加分类分支，并引入分类损失以获得利于分类鉴别的高质量特征，从而提升了无人机视角下的小目标检测性能。Li等人（2019）从目标的表示方式入手解决尺度变化问题，提出了一种尺度自适应的边界框表示，并使用循环网络结构指导特征提取，加强不同尺度特征之间的信息交互。Adaimi等人（2020）提出了一种新颖的目标表示方法，在考虑目标的宽高之外，还关注各个方向与中心点的联系，然后使用投票机制综合信息剔除干扰，在航拍图像上获取较好的检测效果。Wang等人（2021）受Zhou 等人（2019a）工作的启发，提出了一种基于多中心点的学习网络，通过提升网络的定位性能缓解了航拍图像中的极小目标检测问题。Xu等人（2021a）通过使用目标中心点之间的距离代替常规的交并比作为度量，一定程度上缓解了航拍图像中定位小目标时，边界框难以回归的问题。Albaba和Ozer（2021）从不同检测器的学习能力及倾向角度入手进行考虑，将多阶段的方法与单阶段的方法相结合，提升了检测质量。Yu等人（2021b）基于密度图指导的目标检测网络（density-map guided object detection network，DMNet）（Li等，2020），通过使用双分支网络，在不同困难目标占比的数据集上进行训练，然后融合两个分支的检测结果，从而一定程度上缓解了长尾分布带来的检测精度下降问题。此外，Zhang等人（2021）通过引入自注意力机制（Carion等，2020）获得更好的特征提取能力，一定程度上缓解了尺度变化、复杂背景和灵活视点等挑战带来的检测精度下降问题。Zhu等人（2021）通过使用额外的分类器区分易混淆类别，从而提高了检测性能。Shaniya等人（2021）针对无人机图像中存在的光照变化与运动模糊问题，通过构建可视图像与红外图像的成对数据集，有效提高了网络对于小目标的检测性能。Yang等人（2022b）针对夜间条件下目标难以检测的问题，通过使用仿真模拟平台（Shah等，2018）和循环生成对抗网络（Zhu等，2017）创建合成红外图像，融合多模态信息辅助检测器学习进一步识别夜间目标。3　无人机视角下目标检测的应用与地面监控图像相比，无人机视角下的图像具有独特的空中视野。高机动性的无人机可以有效规避地面建筑的遮挡，结合智能目标检测算法可以实现高效灵活的数据收集能力。如图8所示，这种大范围、低成本的监控及分析能力使得无人机视角下的目标检测具有广阔的商业前景，已广泛应用于交通监控（如图8（a））、电力巡检（如图8（b））、作物分析（如图8（c））以及灾害救援（如图8（d））等多个领域。10.11834/jig.220836.F008图8无人机视角下目标检测的应用Fig.8Applications of object detection in drone view（（a） traffic surveillance；（b） power inspection；（c） crop monitoring；（d） search and rescue）3.1　交通监控随着城市化进程的推进，城市规模不断扩大，传统的基于地面监控的交通监控系统已难以满足当前的实时响应需求。相对于传统的道路监控，无人机高度机动、布点灵活，在事故处理、秩序管理、交通疏导和流量检测等方面具有巨大应用优势，特别是在一些监控盲区，无人机可以发挥重要作用。Hsieh等人（2017）针对基于回归的计数方法无法精确地定位目标物体的问题，提出了一个新的大规模停车场数据集（car parking lot dataset，CARPK），通过利用空间布局信息（例如，汽车经常有规律地停放），并将这些空间规则化的约束引入网络模型，以提高检测精度，成功实现了基于无人机图像的高效且精确的车辆计数。Zhu等人（2018a）通过无人机捕获超高分辨率的交通监控视频，并提出了一种增强型检测器，实现了更高精度的车辆检测与识别，利用这些技术进一步地进行城市交通密度估计。Liu等人（2021）基于YOLOv4（Bochkovskiy 等，2020）设计了一种面向城市环境的车辆自动检测和跟踪方法，有效提高了城市智能交通监控的效率。Byun等人（2021）提出了一种基于深度神经网络的方法，通过分析无人机采集的视频数据以检测并跟踪车辆，进而实现了高效的车辆速度估计，为道路交通监控系统提供数据支持。Chen等人（2023）通过优化卷积网络中的残差连接模块，并增加卷积核的数量，从而增强网络对于高分辨率航拍图像的特征提取能力，在真实无人机视角场景下取得了较好的检测效果。3.2　电力巡检输配电线路是现代电力系统的重要组成部分。定期巡检相关线路及设备并及时发现设备缺陷和线路安全隐患，是保证输电线路安全和稳定运行的一项基础工作。然而，输配电线路分布范围较广，所处的户外自然环境往往较为恶劣，这给传统人工巡检带来了极大挑战。使用无人机巡视不受地理障碍限制，飞行速度快，覆盖范围广，可以极大地提升巡检效率并有效保障人员安全。Zhang等人（2019a）提出了一种基于卷积神经网络的方法，通过充分利用多尺度特征，并引入结构化的先验信息以克服嘈杂背景干扰问题，实现了准确而高效的检测。Jalil等人（2019）通过在可见光图像的基础上融合热图像信息，使得算法更为关注温度差异，并在一定程度上可以避免光照变化对于元器件的影响，从而实现更为健壮实用的缺陷检测方法。Shihavuddin等人（2019）关注于无人机视角下风力涡轮机的污损检测，通过使用数据增强等策略构建了一个泛化性能更好的智能污损检测系统，可以更为高效地完成电力巡检任务。Vemula和Frye（2020）通过使用迁移学习，在Mask R-CNN（He等，2017）的基础上实现了智能高效的无人机电力巡检系统的开发、集成以及测试。Iversen等人（2021）通过收集正式场中的困难案例，构建新的数据集辅助网络进行训练，结合工业相关技术开发并验证了一个用于自主电力线检查的综合性无人机系统。3.3　作物分析在农业生产中，实时监控田间作物的表型信息是掌握作物生长状况最简单有效的方式。相对于固定的地面监控，无人机具备灵活高效的数据收集能力，可以快速有效地获取大面积农田中可靠的作物信息，从而为作物生长进程的监控与分析提供支撑。Chen等人（2019b）开发了一种基于无人机图像的草莓花检测系统，用于准确估计草莓花的数量及其在草莓田中的分布，进而预测未来的草莓产量。这种精准的产量预测结果使得农业生产者可以为收获、运输以及销售分配最佳的劳动力和设备等资源，获得更高的收益。Wittstruck等人（2020）借助无人机拍摄的高分辨率图像，实现了大面积的南瓜检测，为南瓜种植户提供详细的收成预测。Shams和Desbarats（2020）从生物防治入手，提出了一种基于无人机的检测方法，通过分析可见光谱和前视红外图像以识别隐藏在树叶间的亚洲大黄蜂巢穴，从而避免其对于生态系统的不利影响。Yuan和Choi（2021）基于无人机实现了一种防冻需求评估方法，通过及时高效的空中检测避免了苹果园中霜冻保护处理不充分或过度加热导致能源的浪费。Osco等人（2021）提出了一种基于深度学习的作物检测方法，适用于在高度密集的种植园中检测作物并分析其分布，从而辅助决策作物的种植规划，促进农业系统的智能管理。3.4　灾害救援迅速而准确定位遇险人员是灾害救援中的关键。具备空中视野与高机动性的无人机可以实现高效且安全的大面积区域搜索和救援，对于掌控现场态势以及保障人员安全起着重要的作用。Božić-Štulić等人（2019）提出了一种在无人机空中图像中进行人员检测的新方法，通过使用注意力机制减少搜索空间，从而提高了搜索与救援任务的效率。Domozi等人（2020）开发了一种轻量化的实时目标检测系统，可以实际部署于常见的无人机平台，从而有效地辅助搜寻失踪人员。Queralta等人（2020）开发了无人机搜索与救援平台，搭载有自适应深度学习算法的无人机，可以高效地执行侦察任务以协助海上救援行动。Perdana等人（2020）通过使用卷积神经网络检测无人机拍摄的红外热图像，可以从复杂的背景中识别人员，从而帮助搜救队及时找到并救援遇险者。Bultmann等人（2021）提出了一种用于实时语义推理和融合多种传感器模式的无人机系统，基于可见光图像与红外热图像实现了较好的目标检测性能，可有效应用与灾害救援场景。Dong等人（2021）通过模型剪枝和参数调优获得了一个可实际部署于无人机的轻量化模型，用于实现高效的灾后幸存人员检测。Rizk等人（2021）通过使用智能检测技术辅助无人机迅速找到遇险人员，以辅助指导救援人员和医疗队的工作，从而实现更高效且经济的救援。4　数据集介绍及性能评估在自然图像数据集上，现有研究对常规目标的检测已取得了不错的成效。然而，无人机视角下的目标检测性能仍然不尽人意。这一方面是由于无人机视角下目标自身的特性导致检测器难以识别，另一方面是因为相较于常规目标检测数据集，无人机视角下的目标检测数据集规模较小，受到的关注较少。如图9所示，本文选取了部分影响力较大的无人机图像数据集，并对其被引数量、年份、图像数量以及标注数量等信息进行了展示。其中，数据集气泡面积的大小代表其被引用数量的多少。在无人机视角下的目标检测数据集中，较受关注的数据集（Zhu等，2018b；Du等，2018）主要集中在交通监控领域，检测目标多为行人、车辆等，而且无人机数据集图像中的目标数量相对较多。10.11834/jig.220836.F009图9无人机视角下的目标检测数据集Fig.9Datasets of object detection in drone view接下来，本文将按照时间顺序简要介绍现有的基于无人机视角的目标数据集，并在两个常用的公开数据集上对现有算法进行性能评估。4.1　数据集介绍1）CARPK（car parking lot）数据集（Hsieh 等，2017）为无人机视角下的大规模停车场数据集，涵盖在不同场景下的多个停车场，用于车辆的检测和计数任务。数据集图像分辨率为1 280 × 720像素，使用目标边界框的形式对车辆进行标注。2）无人机目标检测与追踪（unmanned aerial vehicle detection and tracking，UAVDT）数据集是中国科学院大学Du等人（2018）在欧洲计算机视觉国际会议（European Conference on Computer Vision，ECCV）上提出的大规模目标检测基准数据集，图像分辨率为1 080 × 540像素，包括“car”、“truck”和“bus”3种类别的车辆标注。该数据集覆盖广场、主干道、收费站、高速公路、交叉口和T形交叉口等多个常见场景，并在边界框之外详细注释了多达14种属性（例如天气条件、飞行高度、相机视图、车辆类别和遮挡信息等）。3）无人机视觉（visual in drone，VisDrone）数据集（Zhu等，2018b）由天津大学机器学习和数据挖掘实验室收集，适用于无人机视角下的目标检测任务。该数据集由10 209幅分辨率为2 000 × 1 500像素的图像组成，涵盖了不同天气和照明条件下的多个场景，并特别提供了目标遮挡、截断的比例等信息。此外，该数据集中对于目标进行了细粒度分类标注。例如，姿势为站立和行走的人被标记为“Pedestrian”，而具有其他姿势的人被标记为“People”。4）DTU-Drone数据集（Shihavuddin 等，2019）为无人机视角下的风力涡轮机图像数据集，由丹麦技术大学（Technical University of Denmark，DTU）提出，共包含701幅分辨率为4 000 × 3 000像素的图像。该数据集提供了损坏或安装对象的示例，主要用于检测风力涡轮机叶片的表面损伤，减少停机时间和避免可能的灾难性结构故障。5）无人机视频中运动物体识别（moving object recognition in unmanned aerial vehicle videos，MOR-UAV）数据集（Mandal等，2020）由无人机平台在高速公路、立交桥、交通路口、城区和农田等多个位置捕获收集，包括遮挡、光照变化、天气变化、运动模糊、高度变化和视角变化等多种挑战。图像分辨率从1 280 × 720像素到1 920 × 1 080像素不等，包含89 783个车辆标注。6）输电塔和输电线路航空图像（transmission towers and power lines aerial-image，TTPLA）数据集（Abdelfattah等，2021）为关注于输电塔和输电线路检测和分割的航拍图像数据集，主要应用于无人机视角下的电力巡检。TTPLA数据集由1 100幅分辨率为3 840 × 2 160像素的图像组成，包含手动标记的8 987个输电塔和电力线实例。7）自动空中监控（autonomous aerial surveillance，AU-AIR）数据集（Bozcan和Kayacan，2020）是首个用于多模态目标检测任务的航拍图像数据集，其中图像的最大分辨率为1 920 × 1 080像素。该数据集拥有多模态数据，着重强调低空航拍图像与自然图像之间存在的差异，在提供常规可视数据外还额外标注了无人机拍摄时的时间、位置、角速率、高度和线速度等参数信息。8）DroneCrowd数据集（Wen等，2021）关注于无人机视角下拥挤场景中人群的密度图估计、计数和跟踪。DroneCrowd数据集由33 600幅分辨率为1 920 × 1 080像素的图像组成，这些图像涵盖了城市、乡村等不同场景中，其中包含多种照明条件、比例和密度下的人群。9）PeopleOnGrass数据集（Kiefer 等，2021a）为无人机视角下的人员检测数据集，包含2 900幅分辨率为3 840 × 2 160像素的图像，共标注13 713个目标。其中，每幅图像都注释有拍摄高度、角度、时间、位置以及无人机速度等信息。10）无人机对无人机的检测与追踪（UAV to UAV detection and tracking，U2U-D&T）数据集（Li 等，2022）主要面向于无人机之间的检测与跟踪应用场景，由70 250帧分辨率为1 920 ×1 080像素或1 280 × 1 060像素的视频图像组成，包含超过7万个实例标注。随着无人机数量的增加，越来越需要无人机对无人机的检测和跟踪系统来规划路径以避免碰撞。11）DroneVehicle数据集（Sun等，2022）由56 878幅分辨率为840 × 712像素的图像组成，包含可视图像与红外图像两种模态，用于复杂场景（如低光照条件）下的车辆检测。DroneVehicle数据集共有“car”、“truck”、“bus”、“van”、“freight car”等5种类型的目标，并且含有真实环境的遮挡和尺度变化。12）SeaDroneSee数据集（Varga等，2022）旨在推动在海上场景中使用无人机进行搜索与救援工作。数据集系统注释了54 000多帧图像，包含5～260 m不同高度和0～90°不同视角下的约40万个目标实例。此外，该数据集还提供了拍摄高度、视角等额外的图像注释。现有的基于无人机视角的目标数据集如表1所示。10.11834/jig.220836.T001表1基于无人机视角的检测数据集Table 1Drone-view object detection datasets名称简介年份发表期刊/会议尺寸/像素类别图像数量标注数/103链接CARPK汽车计数、检测2017ICCV1 280 × 72011 573106https://lafi.github.io/LPN/UAVDT车辆检测、跟踪2018ECCV1 080 × 540337 084842https://sites.google.com/view/grli-uavdt/VisDrone行人、车辆检测2018ECCV workshop2 000 × 1 5001010 209466http://aiskyeye.comDTU-Drone风力涡轮机的污损检测2019Energies4 000 × 3 00047019https://orbit.dtu.dk/en/publications/dtu-drone-inspection-images-of-wind-turbineMOR-UAV车辆检测2020ACM MM1 820 × 1 080210 94890https://visionintelligence.github.io/Datasets.htmlTTPLA输电塔及输电线路检测2020ACCV3 840 × 2 16021 1009https://github.com/r3ab/ttpla_datasetAU-AIR多模态交通目标检测2020ICRA1 920 × 1 080832 823132https://bozcani.github.io/auairdatasetDroneCrowd密集人群中的目标检测2021CVPR1 920 × 1 080133 600486https://github.com/VisDrone/DroneCrowdPeopleOnGrass陆地人员检测2021ICAR3 840 × 2 160129 0013https://cloud.cs.uni-tuebingen.de/ index.php/s/yFztfJePREqj4omU2U-D&T无人机检测2021TETC1 920 × 1 080170 25071https://engineering.purdue.edu/～bouman/UAV_Dataset/DroneVehicle车辆检测和计数2022TCSVT840 × 712556 878819https://github.com/VisDrone/DroneVehicleSeaDronesSee海上人员检测2022WACV3 840 × 2 16015 63054https://seadronessee.cs.uni-tuebingen.de/4.2　性能评估本文在两个常用的无人机视角的检测数据集上对现有算法的性能进行评估，并提供了较为经典算法的检测效率数据，便于研究人员更好地了解无人机视角下目标检测的发展现状，从而推动该领域的进一步发展。4.2.1　在VisDrone数据集上的性能评估表2给出了较为先进的检测算法在VisDrone- DET数据集上的检测结果。其中，AP50、AP75分别表示交并比（intersection over union，IoU）设为0.5、0.75时的平均精准率（average precision，AP），AR1、AR10、AR100以及AR500分别表示最大检测数目设置为1、10、100、500时的平均召回率（average recall， AR）。10.11834/jig.220836.T002表2VisDrone-DET 数据集上的简要性能评估Table 2Performance evaluation on VisDrone-DET dataset方法主干网络APAP50AP75AR1AR10AR100AR500Faster R-CNN（Ren等，2015）ResNet-5023.543.722.20.32.218.335.7RetinaNet（Lin等，2017b）ResNet-5015.127.714.30.21.324.625.8Cascade R-CNN（Cai和Vasconcelos，2018）ResNet-5024.142.923.60.42.321.035.2DREN（Zhang等，2019b）ResNeXt-15230.3------FCOS（Tian等，2019）ResNet-5016.628.816.70.42.224.424.4DSOD（Zhang等，2019d）ResNet-5028.847.129.3----ClusDet（Yang等，2019a）ResNeXt-10129.449.330.6----AFSM（Gong和Li，2020）CBResNet-5034.060.532.70.77.340.349.8DMNet（Li等，2020）ResNeXt-10129.449.330.6----DSHNet（Yu等，2021b）ResNet-5030.351.830.9----HRDNet（Liu等，2021b）ResNet-10128.349.328.20.53.336.936.9ViT-YOLO（Zhang等，2021）MHSA-Darknet38.563.240.52.314.948.055.5UFPMP-Det（Huang等，2022）ResNet-10140.166.841.31.810.951.759.6QueryDet（Yang等，2022）ResNet-5028.348.128.80.56.036.539.4注：加粗字体表示各列最优结果， “-”表示无数据。%在所有比较的算法中，使用统一前景增强策略的多代理检查网络（multi-proxy detection network with unified foreground packing，UFPMP-Det）（Huang 等，2022）通过使用统一前景库平衡样本数量以及目标尺度不均衡问题，并使用多代理检测网络进一步缓解了类别语义不均衡问题，从而取得了最好的检测性能，在平均精确度上达到了40.1%。4.2.2　在UAVDT数据集上的性能评估表3给出了较为先进的检测算法UAVDT数据集上的检测结果。APS、APM、APL分别表示小目标、中等尺寸目标、大尺寸目标的平均精准率。在比较算法中，粗粒度密度图网络（coarse-grained density map network，CDMNet）（Duan等，2021）设计了一个轻量的密度估计网络，通过预测的密度图指导检测器关注于目标聚集区域，并改进马赛克（Mosaic）数据增强以缓解航拍图像中存在的类别不平衡问题，获得了20.7%的平均精准率。10.11834/jig.220836.T003表3UAVDT 数据集上的简要性能评估Table 3Performance evaluation on UAVDT dataset /%方法主干网络APAP50AP75APSAPMAPLFaster R-CNN（Ren等，2015）VGG5.817.42.53.812.39.4R-FCN（Dai等，2016）ResNet-507.017.53.94.414.712.1SSD（Liu等，2016）-9.321.46.77.117.112.0RON（Kong等，2017）-5.015.91.72.912.711.2ClusDet（Yang等，2019a）ResNet-5013.726.512.59.125.131.2CenterNet（Duan等，2019）Hourglass-5216.429.716.612.225.111.3DREN（Zhang等，2019b）ResNet-10117.7-----DMNet（Li等，2020）ResNet-5014.724.616.39.326.235.2GLSAN（Deng等，2021）ResNet-5017.028.118.8---UCGNet（Liao等，2021）CSPDarknet5319.136.718.011.131.036.6AdaZoom（Xu等，2021b）ResNet-10120.134.521.514.229.228.4CDMNet（Duan等，2021）ResNet-5020.735.522.413.933.519.8注：加粗字体表示各列最优结果， “-”表示无数据。4.2.3　算法效率评估表4给出了较为经典的检测算法的检测效率数据，包括相关算法的主干网络、测试数据集、输入尺寸、实验设备、单张检测时间以及发表年份等信息。现有的无人机视角下的目标检测算法在图形工作站上表现尚可，但是在真实应用场景中，无人机所能搭载的芯片性能远低于实验所用的图形处理器。因此，在确保有效检测目标的同时，如何尽可能地减少计算量以提高检测速度，仍然是当前航拍图像目标检测相关算法所需关注的重点问题。10.11834/jig.220836.T004表4无人机视角下目标检测算法的效率评估Table 4Efficiency evaluation of drone-view object detection algorithms方法主干网络测试数据集输入尺寸/像素实验设备单幅检测时间/sFaster R-CNN（Ren等，2015）ResNet-50VisDrone-DET600 × 1 000GTX 1080 Ti0.055ClusDet（Yang等，2019a）ResNet-50VisDrone-DET600 × 1 000GTX 1080 Ti0.773DMNet（Li 等，2020）ResNet-50VisDrone-DET600 × 1 000GTX 1080 Ti0.290HRDNet（Liu 等，2021b）ResNeXt-101VisDrone-DET960 × 1 360GTX 2080 Ti1.428D2Det（Cao等，2020）ResNet-101VisDrone-DET800 × 1 333GTX TITAN XP0.169MOR-UAVNet（Mandal等，2020）ResNet-50MOR-UAV608 × 608GTX 2080 Ti0.095DSHNet（Yu等，2021b）ResNet-50VisDrone-DET1 500 × 2 000GTX 1080 Ti0.093GLSAN（Deng等，2021）ResNet-50VisDrone-DET600 × 1 000GTX 1080 Ti0.760UFPMP-Det（Huang等，2022）ResNet-50VisDrone-DET800 × 1 333GTX 1080 Ti0.152QueryDet（Yang等，2022）ResNet-50VisDrone-DET800 × 1 333GTX 2080 Ti0.364注：加粗字体表示最优结果。5　结语无人机视角下的目标检测因其挑战性和重要性成为新的研究热点，本文对近年来无人机视角下的目标检测相关研究进行了归类分析与比较，并对应阐述了这些方法解决的问题。首先，本文对无人机视角下存在的目标尺度不均衡、空间分布不均衡、样本数量不均衡、类别语义不均衡以及优化目标不均衡等五大不均衡问题进行了系统而全面的总结。针对无人机视角下的这些挑战，本文分类介绍了不同目标检测算法的优化思路，包括数据增强、多尺度特征融合、区域聚焦策略、多任务学习、模型轻量化以及其他优化策略等。然后，本文展示了无人机目标检测算法在交通监控、电力巡检、作物分析以及灾害救援等多个领域的实际应用。最后，本文全面介绍了已有的无人机视角下目标检测数据集，并在最常用的两个数据集上对现有算法进行了性能比较和分析。尽管在人工智能浪潮下，深度学习技术的应用使得无人机视角下的目标检测算法获得了快速发展。但是无人机视角下的目标检测性能仍受限于复杂的真实场景，难以满足健壮稳定的实际应用需求。因此，本文从无人机视角下的目标检测存在的5大不均衡问题出发，对未来的研究趋势进行展望。1）数据增强方面。相对于通用目标检测领域的自然图像数据集，当前无人机视角下的目标检测数据集规模较小，而且目标种类数量往往较少。这在一定程度上限制了网络模型所能学习到的泛化能力。加之无人机视角下，图像成像易受到视角变换、云雾遮挡以及光照变化等因素的影响，使得待检测的目标外观表征不明显，进一步加剧了网络识别的难度。因此，如何在常规数据增强策略的基础上结合无人机视角下的图像特性，为网络提供数量更多、质量更好的学习样本，是未来极具价值的研究方向。2）多尺度表示方面。无人机视角，因为无人机飞行高度及拍摄视角的变化，目标与镜头之间距离的变化极为剧烈，由此产生了目标尺度不均衡这一亟待解决的问题。现有的方法通过融合不同层级的多尺度特征，一定程度上缓解了尺度变化带来的类间差异问题。尽管这类方法有效提升了无人机图像中目标的特征表达能力，但是在融合过程中往往忽略了无人机视角下目标存在的空间分布不均衡问题，导致了算力的浪费，并可能引入额外的噪声干扰。因此，如何在特征融合中使用更为高效的融合策略从而有效提取不同尺度的关键信息是未来一个可行的研究方向。3）视觉推理方面。现有模型大多为数据驱动，未能充分利用无人机视角下丰富的上下文信息，特别是未能充分利用复杂场景中存在的先验知识以及目标与目标之间的密切联系来辅助检测目标。因此，如何使用无人机视角下所独有的信息，从图像中挖掘出有利于识别目标的上下文信息，并利用易检目标来辅助提升难检目标的检测性能，是未来的一个重要研究方向。