论文引用格式:Li Z H, An J T, Jia H Y and Fang Y. 2023. Lightweight object detection model in remote sensing image by combining rotation box and attention mechanism. Journal of Image and Graphics, 28(09):2706-2718(引用格式:李朝辉, 安金堂, 贾红雨, 方艳. 2023. 结合旋转框和注意力机制的轻量遥感图像检测模型. 中国图象图形学报, 28(09):2706-2718)[0 引 言基于光学遥感图像的目标检测与识别是遥感数据分析领域的重要研究方向。光学遥感图像包含着丰富的纹理、细节和地物特征,通过对其进行目标检测,可以详细掌握图像中各地物的类别及其分布。光学遥感图像目标检测在国防安全、海洋监测等领域有着广阔的应用前景(Zhao等,2021)。基于人工手动提取特征的传统目标检测方法步骤烦琐且泛化能力差。基于深度学习的方法可以自动提取特征而不需要手动设计且具有很强的鲁棒性,因此基于深度学习的目标检测得到迅速发展,这对于未来的遥感图像智能感知发展具有重要的意义。基于深度学习的目标检测算法主要分为基于回归的单阶段目标检测算法和基于候选框生成的多阶段目标检测算法。前者是直接在图像的多个区域上进行回归,此类方法中最典型的代表是YOLO(you only look once)(Redmon 等,2016)。后者首先生成候选区域,然后在候选区域上进行分类与回归,代表算法有Faster-RCNN(faster regions with convolutional neural network)(Ren 等,2017)等。多阶段目标检测算法相比单阶段检测精度高,但是存在计算复杂度高、推理速度较慢、训练步骤烦琐以及部署困难等问题。为追求更高的准确率,大型及超大型的特征提取网络结构层出不穷,如ResNet101将网络深度增加至101层,Liu等人(2021)提出的Swin Transformer虽然在机器视觉各项任务表现非常出色,但是其网络参数和计算量非常庞大,拥有强大特征提取能力的同时却忽略了模型性能和本身规模及计算量之间的性价比,大部分场景中设备的算力不足以部署大型网络模型,也满足不了实时推理,所以轻量级的遥感目标检测将是下一步的研究重点。通过网络剪枝、网络参数量化和知识蒸馏等方法可以减少模型参数量,它们都是在已经设计好的网络模型上进行优化,会影响模型的检测精度。还可以采用特定的硬件部署来加速模型,比如TensorRT、Jetson、TensorFlow-slim等。除上述方法之外还可以直接定制轻量化网络,例如谷歌提出的MobileNetv3(Howard 等,2019)和EfficientNet(Tan 等,2020),这些方法利用深度可分离卷积大大减少了网络的参数量和计算量。旷世科技(Zhang 等,2018)提出的ShuffleNet,在分组卷积中加入通道重排(channel shuffle),使得通道与通道之间可以信息交互。华为(Han 等,2020)提出的GhostNet,对特征图进行简单的线性运算(cheap operations),从而生成更多相似特征图,以减少模型的参数。然而这些轻量级网络模型在面对复杂背景的遥感图像时特征提取能力有限,易出现漏检、检错的情况。常见的目标检测模型多为水平框检测,然而面对遥感图像中方向任意排列的目标实例,特别是排列密集的目标,采用水平框检测会包含过多的冗余信息,使得定位不够精细。随着对遥感图像目标检测的深入研究,学者提出了不少针对旋转框目标检测的模型和方法,Ding等人(2019)提出的ROI(region of interest)-Transformer模块通过对水平锚框进行空间变换,使其能够在旋转框标注的监督下学习。SCRDet(detection for small, cluttered and rotated objects)通过添加IoU(intersection over union)常数因子设计了一种改进的平滑L1损失,用于解决旋转边界框回归的边界问题(Yang 等,2019)。Chen等人(2020)提出的PIoU(pixels intersection over union)通过近似计算旋转框的IoU,替代了传统的Smooth L1损失。Yang等人(2021)提出的KLD(Kullback-Leibler divergence)损失则是直接将旋转框转换为二维高斯分布,再通过KLD计算预测框与真实框分布之间的距离,从而实现对旋转框对角度的学习。目前,基于深度学习的目标检测方法的研究主要集中于构建更深的网络,以达到提高检测精度,但是忽略了模型本身的性价比,面对背景复杂的遥感图像轻量级网络则特征提取能力有限。因此本文以光学遥感图像为实例背景设计了一种端到端的轻量级旋转框目标检测模型(YOLO-RMV4),使模型精度和参数量达到强平衡。1 数据集本文选取开源数据集DOTA2.0(dataset of object detection in aerial images)(Ding 等,2022)、FAIR1M(fine grained object recognItion in high-resolution remote sensing imagery)(Sun 等,2022)和HRSC2016(high-resolution ship dataset)作为基础数据集进行数据集的制备,并以船舶、飞机、小型交通工具和大型交通工具4类常见交通工具为实例目标。由于不同数据集其类别名称、标注形式、图像尺寸和图像存储格式都不尽相同,经过筛选、切分、转换、重新标注以及合并数据集等数据预处理,建立了AVSP(aerial images of vehicle ship and plane)数据集,AVSP数据集共分为水平框(horizontal bounding box,HBB)和旋转框(oriented bounding box,OBB)两种标注形式,其中OBB采用8参数表示,即为(xi,yi),i∈1,2,⋯,4,其中(xi,yi)表示矩形边界框顶点的第i个坐标,并且按顺时针方向排列,图像格式为png格式,本文以AVSP-OBB为研究对象。AVSP数据集包含19 406幅1 024 × 1 024像素的图像,共637 466个目标实例。按照约3∶1划分训练集和验证集,各类别数量统计如表1,图像示例和数据统计如图1所示。10.11834/jig.220839.T001表 1AVSP数据集各类别数量统计Table 1Quantity statistics of each category in the AVSP dataset类别训练集/幅验证集/幅实例总计/幅图像数量实例数量图像数量实例数量总计14 411490 1024 995147 364637 466船舶6 063130 7462 44138 298169 044飞机4 64742 4261 51511 10453 530小型交通工具5 760258 9281 75885 884344 812大型交通工具3 62058 00286312 07870 080注:由于1幅图像中可能存在不同类别实例,故各类别图像数量总和大于总计数量。10.11834/jig.220839.F001图1AVSP图像示例和数据统计Fig.1An example image and data statistics from AVSP ((a) a typical image; (b) the instance density of per image;(c) the scale distribution of all instances; (d) the orientation distribution of all instances)经统计和分析,AVSP数据集中各类别数量分布相对均衡,类别间最大数量比只有1∶6。每幅图像中实例数量分布情况如图1 (b)所示,平均每幅图像约有33个实例,超过50%的图像中实例数量小于20个,有7.2%的图像中实例数量超过100个,可以看到,不同的遥感图像密集程度存在较大差异。因为存在很多目标分布密集的场景,例如停车场、港口和机场。除此之外,遥感图像中实例的尺度范围分布很广,图1 (c)展示了数据集中所有目标的尺度分布情况,目标尺度定义为wh,国际光学工程学会将面积小于图像面积0.12%的目标定义为小目标,对于1 024 × 1 024像素的图像,即wh小于35,可以看到大约80%的实例尺度范围在(4,32)之间,属于小目标,其中有16.4%的实例尺度范围小于8,属于极小物体,同时也存在极大尺度的实例。遥感图像中目标通常具有任意的方向,在图像中表现为处于不同程度的倾斜状态。图1(d)为数据集中实例倾斜角度分布直方图,其中横坐标角度为弧度制,可以看到倾斜角度分布相对均衡。综上,遥感图像数据集中目标实例小且分布密集,同时尺度范围广、变化大,以及角度方向任意,这为遥感图像的目标检测增加了难度。2 YOLO-RMV4网络模型设计如前文所述,数据集中存在大量小且密集分布的目标且目标尺度范围变化大,所以要根据数据的实际分布情况进行网络设计。本文的模型设计的目标是依据数据特点,在保证性能的前提下尽可能使网络更轻量化。本文设计的YOLO-RMV4主要由主干特征提取网络(backbone)、多尺度融合网络(neck)和检测头(head) 3个部分构成,顶层框图如图2所示。为了实现更轻量级的方法,主干特征提取网络采用了大量的深度可分离卷积,并且加入通道注意力机制使网络可以自动调整通道的权重;同时加入多尺度融合网络PANet和4种尺度检测头以满足不同尺度大小目标的检测。10.11834/jig.220839.F002图2YOLO-RMV4顶层框图Fig.2The overview of YOLO-RMV42.1 主干特征提取网络如何使用最少的参数和计算量达到最佳的性能,本文借鉴谷歌提出的轻量级的网络架构MobileNet中深度可分离卷积的思想设计了网络基本单元(IRes-ECA),如图3所示。IRes-ECA单元由深度可分离卷积和ECA模块组成,先通过1 × 1卷积降维,批归一化(batch normalization,BN)和ReLU6激活函数,然后使用3 × 3可分离卷积,再经过BN层和ReLU6激活函数,最后通过1 × 1卷积升维。由于使用了大量的1 × 1卷积,在降低参数和计算量的同时也导致了部分特征信息的丢失,因此加入通道注意力机制ECA模块。ECA模块通过考虑每个通道及其k个近邻来捕获本地跨通道交互,并通过一维卷积来完成跨通道间的信息交互,一维卷积的卷积核大小ksize(如式(1))通过一个函数来自适应,使得通道数较大的层可以更多地进行跨通道交互(Wang等,2020),其中C为给定通道维数,γ和b为超参数,分别设置为2和1。ksize=φ(C)=log2(C)γ+bγ (1)10.11834/jig.220839.F003图3IRes-ECA单元Fig.3The architecture of IRes-ECA主干特征提取网络结构主要通过堆叠IRes-ECA单元和SPPF(spatial pyramid pooling fast)模块,构建了一个更加轻量级的主干特征提取网络。网络结构如图4所示,图中左侧为主干网络,主要负责图像特征与语义信息的提取。IRes-ECA模块中的逆残差结构能够更好地利用问题的低秩性质来制作更高效的层结构,以保证网络的浅层特征能重复利用,提高了网络的检测精度;同时ECA模块能获得更丰富的特征信息,保证了网络的性能。图中IRes-ECA模块中RE表示采用ReLU6激活函数,HS则表示h-swish激活函数。在主干网络的最后加入SPPF模块(如图5所示),以丰富特征图的表达能力,从而提高检测精度。此处SPPF采用3个5 × 5的卷积核替代了传统5 × 5、9 × 9、13 × 13的空间金字塔池化(spatial pyramid pooling,SPP)结构,经实验证明SPPF结构同样能得到SPP的效果,同时能带来更多性能上的提升,包括前向计算和反向计算。10.11834/jig.220839.F004图4YOLO-RMV4网络结构图Fig.4The architecture of the YOLO-RMV410.11834/jig.220839.F005图5SPPF网络结构图Fig.5The architecture of SPPF2.2 多尺度融合轻量级的主干特征提取网络特征提取能力有限,所以加入了特征融合模块。图4中间部分是对主干网络提取特征进行多尺度融合,与YOLOv3中的特征金字塔网络(feature pyramid network,FPN)结构类似。但是FPN是自顶向下的模式,将高层特征传下来,而底层特征却无法影响高层特征,并且FPN中顶部信息流逐层向下传,计算量比较大。PANet则解决了这一问题,PANet引入了自底向上的路径,使得底层信息更容易传递到高层顶部。若要将底层特征传递到特征图顶部,PANet采用的是:在进行自顶向下的特征融合后,再进行自下向顶的特征融合,这样特征传递需要“穿越”的特征图数量大大减少,在FPN的基础上加了一个自底向上方向的增强,使得顶层特征图也可以享受到底层带来的丰富的位置信息,从而提升了大物体的检测效果。其中C3结构(如图6)由3个标准二维卷积(convolution,CONV)层与Bottleneck组成。10.11834/jig.220839.F006图6C3结构图Fig.6The architecture of C32.3 检测头图4右侧为多尺度检测头,由于数据集中目标尺度范围变化大且存在大量小目标,所以分别在其4、8、16和32倍下采样后输出4种尺度的检测头,以增加小目标物体的召回率。角度预测则是将传统的角度回归方式转换成角度分类方式,并且将角度标签转换为环形平滑标签,通过一维高斯函数将角度标签转换为环形圆滑标签(circular smooth label,CSL),使得角度具有周期性,以达到在分类中可以衡量预测角度和真实角度之间的距离(Yang 和Yan,2022)。锚框大小采用聚类的方式得到3组最优大小的锚框。最后每一种尺度输出一个567((4 + 1 + 4 + 180) × 3)维张量,其中第1个4代表预测框的位置参量(tx,ty,tw,th),1代表预测框的置信度,第2个4代表AVSP数据集的4类目标物体,180代表180个度数类别,3代表该尺度下的3种不同比例大小的锚框。2.4 损失函数设计及优化在网络实现过程中,目标检测损失可分为4部分:分类损失、角度损失、目标置信度损失和定位目标框的损失。损失函数公式定义如式(2)。其中lossconfidence为置信度损失,lossclass为分类损失,lossxywh为目标框回归损失,lossangle为角度损失。lossobject=lossconfidence+lossclass+lossxywh+lossangle (2)检测的关键点在于目标框的解码,样本的采样策略决定了解码结构。目标检测在训练过程中往往会出现正负样本严重失衡的问题,这很大程度上影响了训练结果。Lin等人(2017)曾提出了Focal Loss用来解决样本不均衡的问题。本文则采用了更简明的方式来扩增正样本集,如图7所示。图7中假设深灰色为原正样本对应边框数据,绿色为补充正样本边框数据。假设A~E为正样本集中心点坐标,则选取与正样本中心点距离最近的两个网格为扩展后正样本集。扩展后的正样本中心点坐标则为原中心点坐标减去扩展后网格左下角坐标。经扩展后正样本增加为原来的3倍,使模型更充分训练。解码公式为bx=2σ(tx)-0.5+cx (3)by=2σ(ty)-0.5+cy (4)bw=pw(2σ(tw))2 (5)bh=ph(2σ(th))2 (6)式中,tx,ty,tw,th为模型预测输出,bx,by,bw,bh分别为最终预测的目标边框中心点、宽和高,pw,ph为当前网格大小,cx,cy为检测点中心所在网格区域的左下角坐标。最终中心点偏移量值域为[-0.5, 1.5],宽高偏移量值域为[0, 4]。10.11834/jig.220839.F007图7正样本采样策略Fig.7Positive sample sampling strategy置信度损失、分类损失和角度损失都采用交叉熵损失。由于角度问题转换为分类问题,所以目标框位置损失仍采用水平框的CIoU(complete intersection over union)损失,CIoU相比GIoU(generalized intersection over union)和DIoU(distance intersection over union)具有更好的宽高拟合效果。3 实验过程与结果分析3.1 实验环境与参数设置本文的实验环境为Ubuntu16.04系统,Intel(R) Core(TM) i7-11700F处理器,内存为16 GB,显卡型号为NVIDIA GeForce RTX 3060 Ti 8 GB,驱动程序版本为471.41,使用的CUDA版本为11.3,搭建模型使用的深度学习框架为PyTorch1.7。使用AVSP-OBB数据集进行训练和验证。对输入图像使用数据增强,包括随机裁剪、翻转、缩放、HSV(hue, saturation, value)增强和马赛克数据增强等。设置初始学习率为0.001,学习率衰减采用余弦退火衰减,权重衰减因子设置为0.000 5,采用Adam(adaptive moment estimation)优化器,批量大小设置为4,训练50轮。模型的性能通过模型参数量(parameter)、平均精度均值(mean average precision,mAP)、平均召回率(average recull,AR)以及每秒传输帧数(frames per second,FPS)来评估。3.2 对比实验为了验证提出的轻量级目标检测算法性能,设计了对比实验。参与对比的检测算法有YOLOv3、YOLOv5l、YOLOv5s、GhostNet、EfficientNet、ShuffleNetV2、PP-LCNet和MobileNetV3,参与对比的网络模型均为主干特征提取网络+PANet+3尺度水平框检测头。将本文提出的YOLO-RMV4与其他目标检测模型分别在AVSP数据集上进行训练,然后比较它们在验证集上的检测性能(IoU = 0.5)。本文为YOLO-RMV4设计了不同大小的网络,其中YOLO-RMV4网络参数数量约为5.3 M,通过模型压缩和剪枝得到YOLO-RMV4S,参数量约为4.5 M,通过扩展网络得到YOLO-RMV4L,参数量约为13.5 M。对比实验结果如表2所示,表2中RYOLOv5l和RMobileNetV3是对YOLOv5l和MobileNetV3的检测头进行了相应的旋转框检测改造。10.11834/jig.220839.T002表2各模型实验结果对比Table 2Comparison of the experimental results ofeach model模型参数量mAP/%AR/%FPS/(帧/s)YOLOv32.93×10656.752.871YOLOv5l4.61×10761.356.525YOLOv5s1.76×10655.652.199GhostNet1.00×10756.352.765EfficientNet8.66×10660.254.552ShuffleNetV27.16×10657.553.762PPLCNet7.84×10659.755.775MobileNetV35.21×10658.954.466RYOLOv5l4.75×10779.271.623RMobileNetV31.32×10775.768.953YOLO-RMV4S4.78×10678.572.333YOLO-RMV45.58×10680.473.230YOLO-RMV4L1.42×10781.476.126注:加粗字体表示各列最优结果。从表2中可以看到,本文YOLO-RMV4系列检测模型在检测精度和召回率方面远远高于其他水平框检测模型。YOLO-RMV4L在mAP和AR上相比RYOLOv5l分别提升了2.2%和4.5%,参数量仅是RYOLOv5l的1/4,但是高于部分轻量级网络,FPS与YOLOv5持平,低于其他轻量级网络。本文提出的YOLO-RMV4和YOLO-RMV4S参数量远小于轻量级网络,其中YOLO-RMV4在检测精度和召回率方面比RYOLOv5l分别提升了1.2%和1.6%,FPS高于RYOLOv5l,但是仍低于其他轻量级网络模型。YOLO-RMV4S检测精度上略低于YOLOv5l,但召回率方面优于YOLOv5l。从模型检测效率来看,YOLOv5s拥有最高的检测效率,FPS达到了99 帧/s,因为YOLOv5s网络结构简单,参数也仅1.9 M,故推理速度快,但是特征提取能力有限,导致其检测性能下降严重。本文提出的模型在检测效率上与RYOLOv5l相近,但要低于其他轻量级网络,原因在于其有4个检测头,造成推理时间增加,但是同样可以做到实时检测,额外增加的4倍下采样检测头提升了模型的召回率,降低了对极小目标的漏检率,可以看到YOLO-RMV4S的AR也高于RYOLOv5l。本文提出的3个模型中,从YOLO-RMV4S到YOLO-RMV4模型参数增加0.77 M,mAP和AR分别增加1.9%和1%,FPS减少3 帧/s。从YOLO-RMV4到YOLO-RMV4L模型参数增加8.22 M,其参数增长超过0.77 M的10倍,但mAP和AR分别增加0.9%和2.9%,FPS减少4 帧/s。在数据集复杂度一定的情况下,当模型的参数量达到一定程度时,会达到模型的性能瓶颈,即随着模型参数增加,mAP和AR的增长趋势逐渐平缓直到趋近于0,此时性价比逐渐下降。本文提出的YOLO-RMV4,在此数据集的复杂度下,其模型性价比趋于最高附近。以上结果表明,本文提出的网络模型能够在极有限的参数数量下学习到丰富的物体特征信息,并且有着先进的网络的性能。同时该网络模型没有复杂的网络结构,可以达到实时检测,并且对于硬件条件受限的环境部署非常友好,模型的综合表现已经达到了较优的水平。3.3 消融实验为了更好地分析各个模块对模型的影响,设计了两个消融实验。消融实验1以MobileNetV3作为消融实验的基准,将本文提出的不同改进模块依次应用到MobileNetV3中,并保持每组实验超参数相同,分别在AVSP数据集上训练,比较添加不同改进模块对模型性能的影响。消融实验2在YOLO-RMV4的基础上消除其中某个模块,比较模型性能下降程度,从而反映模型中每个模块的独特作用。表3展示了消融实验1的结果。可以看出,在分别加入PANet、旋转框检测头(R)、ECA模块、SPPF模块和4倍下采样后检测精度和召回率有明显的提升,但是检测速度方面略有降低。在添加PANet后mAP提升了8.4%,AR提升了6.1%,通过实验证明了PANet能够很好地将不同层的特征进行融合。添加旋转框检测头后mAP和AR有非常大的提升,结合旋转框后,使其在训练中减少了冗余信息的学习,使得定位更加精细。添加ECA模块后mAP和AR分别提升了1.6%和1.7%,ECA模块能够更好地刺激主干特征提取网络利用有限的参数量来学习目标物体的特征信息,从而提高模型的精度。SPPF模块对模型的检测精度也有提升,但不明显。添加4倍下采样后mAP和AR分别提升3.0%和2.4%,4倍下采样可以极大地增强对极小目标物体的检测效果。10.11834/jig.220839.T003表3消融实验1结果对比Table 3Comparison of the results of ablation experiment 1模型参数量mAP/%AR/%FPS/(帧/s)MobileNetV32.69×10650.548.384MobileNetV3+PANet5.21×10658.954.466MobileNetV3+PANet+R5.70×10675.768.953MobileNetV3+PANet+R+ECA4.66×10677.370.645MobileNetV3 +PANet+R+ECA +SPPF4.93×10677.470.844YOLO-RMV45.58×10680.473.230注:加粗字体表示各列最优结果。表4展示了消融实验2的结果。可以看出每个模块在YOLO-RMV4中的独特作用,其中旋转框检测头(-R)和PANet模块(-PANet)对模型性能影响较大,由于遥感图像中目标物体呈任意角度分布且存在大量密集分布的场景,所以水平检测效果不理想,PANet模块则通过进行多尺度融合大大提升了模型性能。4倍下采样(-4)和ECA模块(-ECA)影响次之,SPPF模块(-SPPF)对模型影响作用最小。从检测效率看,PANet模块、4倍下采样和旋转检测头模块对推理速度影响较大,其中PANet模块增加了大量参数,4倍下采样和旋转检测头模块则是增加了计算复杂度,从而造成了推理时间增加。10.11834/jig.220839.T004表4消融实验2结果对比Table 4Comparison of the results of ablation experiment 2模型参数量mAP(%)AR(%)FPS/(帧/s)YOLO-RMV45.58×10680.473.230-R4.50×10661.356.441-44.93×10677.470.844-ECA5.58×10678.271.530-PANet2.00×10662.859.645-SPPF5.02×10680.173.230注:加粗字体表示各列最优结果。3.4 实验结果展示及分析图8为部分YOLO-RMV4L模型的实验结果,由于实例目标分布密集,故隐藏了预测标签。可以看到无论是在目标密集分布的港口或停车场,还是面对极小目标小型交通工具,模型的检测效果都非常理想,符合预期效果。10.11834/jig.220839.F008图8YOLO-RMV4L在验证集中部分可视化结果Fig.8Some visualization results from YOLO-RMV4L on validation set表5为YOLO-RMV4L在AVSP验证集上(IoU =0.5)各类别的平均准确率和召回率。图9为各类别尺度分布和混淆矩阵。可以看到,飞机类别在mAP和AR上最高,原因分析为飞机特征单一并且实例大小大多分布在(16,64)之间,属于较易检测目标;船舶和大型交通工具次之,原因分析为船舶种类繁多、特征复杂,船舶实例大小在(4,1 024)之间不等,增大了检测难度,大型交通工具虽然特征单一且实例大小集中在(16,32)之间,但是大型交通工具多为密集分布,预测框容易出现重叠现象,导致准确率不高,故筛选预测框时需要更高的置信度和IoU;小型交通工具最低,原因分析为小型交通工具实例大小大多分布在(4,16)之间,属于小目标或极小目标物体,特征较难提取,再加以遥感图像背景复杂,容易出现将背景识别为小型交通工具的情况,故属于难检测目标。10.11834/jig.220839.T005表5各类别实验结果Table 5Experiment results of various categories类别mAP/%AR/%all81.476.1plane93.192.1ship85.478.6large-vehicle72.561.9small-vehicle74.671.8注:加粗字体表示各列最优结果。10.11834/jig.220839.F009图9各类别尺度分布及混淆矩阵Fig.9The scale distribution and confusion matrix of each category ((a) (b) (c) (d) are the instance size distribution diagrams of plane, ship, small-vehicle and large-vehicle;(e) confusion matrix is made at IoU threshold of 0.5)为验证本文提出的模型在DOTA数据集上的检测性能,表6为YOLO-RMV4L在DOTA数据集上的实验结果(IoU = 0.5)。可以看到,所有类别的mAP为56.7%,AR为51.4%,由于本文提出的YOLO-RMV4L模型结构简单,参数仅13.5 M,对于复杂度极高的DOTA数据集,很难学习到全部的信息,再加以DOTA数据集类间数量比差距大,导致其在DOTA数据集上的检测性能不理想。10.11834/jig.220839.T006表6DOTA实验结果Table 6Experiment results of DOTA类别mAP/%AR/%all56.751.4plane84.480.3baseball-diamond50.743.4brige30.529.0ground-track-filed30.616.8small-vehicle65.858.5large-vehicle78.278.0ship89.385.5tennis-court94.091.8basketball-court68.453.8storage-tank68.566.8soccer-ball-filed29.215.7roundabout50.747.3harbor57.354.0swimming-pool63.555.7helicopter17.15.3container-crane21.310.2注:加粗字体表示各列最优结果。若从宏观角度看,即对数据集与网络模型而言图像特征复杂度(feature complexity)及类别(class)等与网络模型参数(model parameter)与网络模型性能(performance)之间必然存在关联,若得到它们之间的关系表达式,这对不同数据集选择不同大小的网络模型具有非常重要的指导意义,可使其之间的性价比最大化。4 结 论针对大型的目标检测模型本身规模大,对硬件算力要求高,无法满足实时推理的要求,同时水平框目标检测面对遥感图像中方向任意排列的目标实例会出现定位不准的情况,本文设计了一种轻量级旋转框目标检测模型(YOLO-RMV4)。本文模型改进MobileNet轻量化网络并引入ECA模块,同时加入PANet大大提高底层信息的利用率和传播效率,弥补了轻量级网络特征提取能力的不足,对于角度回归问题加入了环形圆滑标签(CSL),巧妙地将角度回归转换为角度分类,解决了预测角度和真实角度之间距离不能衡量的问题。该网络模型(YOLO-RMV4)大小仅为YOLOv5l模型的1/8,并且在AVSP验证集的mAP和AR远优于EfficientNet等一系列轻量级网络,在推理速度上略低,但可以满足实时检测的需求,该模型在一些计算力和内存受限的应用场景中部署非常友好。但是该模型面对极小目标实例体和排列密集的目标实例也会出现漏检、重叠现象,比如面对小型交通工具和停车场、港口等密集排列的场景。本文的下一步工作将考虑如何提升极小目标物体的检测精度,在有限参数量和计算量的前提下提高网络特征提取能力,并改进不同类别之间IoU和置信度的分配策略,以减少出现重叠现象,进而也将会探究图像特征复杂度、模型参数与性能之间的关系。