发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210866
2022 | Volume 27 | Number 12

遥感图像处理

融入混合注意力的可变形空洞卷积近岸SAR小舰船检测

龚声蓉^1,2, 徐少杰^1,2, 周立凡², 朱杰¹, 钟珊²

1. 东北石油大学计算机与信息技术学院, 大庆 163318;

2. 常熟理工学院计算机科学与工程学院，常熟 215500

收稿日期: 2021-09-13; 修回日期: 2021-11-26; 预印本日期: 2021-12-02

基金项目: 国家自然科学基金项目(61972059，42071438)；江苏省自然科学基金项目(BK20191474)

作者简介: 龚声蓉，男，教授，博士生导师，主要研究方向为计算机视觉。E-mail: shrgong@cslg.edu.cn
徐少杰，男，硕士研究生，主要研究方向为目标检测。E-mail: 18352728177@163.com
周立凡，通信作者，男，副教授，主要研究方向为遥感图像处理。E-mail: zhoulifan@cslg.edu.cn
朱杰，男，硕士研究生，主要研究方向为语义分割。E-mail: 653725215@qq.com
钟珊，女，副教授，主要研究方向为强化学习。E-mail: sunshine620@cslg.edu.cn
*通信作者: 周立凡 zhoulifan@cslg.edu.cn

中图法分类号: TP183

文献标识码: A

文章编号: 1006-8961(2022)12-3663-14

摘要

目的在近岸合成孔径雷达(synthetic aperture radar，SAR)图像舰船检测中，由于陆地建筑及岛屿等复杂背景的影响，小型舰船与周边相似建筑及岛屿容易混淆。现有方法通常使用固定大小的方形卷积核提取图像特征。但是小型舰船在图像中占比较小，且呈长条形倾斜分布。固定大小的方形卷积核引入了过多背景信息，对分类造成干扰。为此，本文针对SAR图像舰船目标提出一种基于可变形空洞卷积的骨干网络。方法首先用可变形空洞卷积核代替传统卷积核，使提取特征位置更贴合目标形状，强化对舰船目标本身区域和边缘特征的提取能力，减少背景信息提取。然后提出3通道混合注意力机制来加强局部细节信息提取，突出小型舰船与暗礁、岛屿等的差异性，提高模型细分类效果。结果在SAR图像舰船数据集HRSID(high-resolution SAR images dataset)上的实验结果表明，本文方法应用在Cascade-RCNN(cascade region convolutional neural network)、YOLOv4(you only look once v4)和BorderDet(border detection)3种检测模型上，与原模型相比，对小型舰船的检测精度分别提高了3.5%、2.6%和2.9%，总体精度达到89.9%。在SSDD(SAR ship detection dataset)数据集上的总体精度达到95.9%，优于现有方法。结论本文通过改进骨干网络，使模型能够改变卷积核形状和大小，集中获取目标信息，抑制背景信息干扰，有效降低了SAR图像近岸复杂背景下小型舰船的误检漏检情况。

关键词

舰船检测; 合成孔径雷达(SAR)图像; 可变形卷积; 视觉注意力机制; 空洞卷积

Deformable atrous convolution nearshore SAR small ship detection incorporating mixed attention

Gong Shengrong^1,2, Xu Shaojie^1,2, Zhou Lifan², Zhu Jie¹, Zhong Shan²

1. School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China;

2. School of Computer Science and Engineering, Changshu Institute of Technology, Changshu 215500, China

Supported by: National Natural Science Foundation of China (61972059, 42071438); Natural Science Foundation of Jiangsu Province, China (BK20191474)

Abstract

Objective Synthetic aperture radar (SAR) image based vessels detection is essential for marine-oriented detection and administration. Traditional constant false alarm rate (CFAR) algorithms have contributed on the targets analyses, such as reliance on hand-made features, slow speed, and susceptibility to interference from ship-like objects like roofs and containers. Convolutional neural network (CNN) based detectors have fundamentally improved detection accuracy. However, there are a large number of vessels detection results are restricted of complicated docking directions and multiple sizes in the high-resolution SAR images, so the recognition rate of the model remains low for some, especially small ships in the complex scenarios near the shore. Using the convolution kernel to extract features, the weights in the convolution kernel are multiplied with the values at the corresponding locations of the feature map. Therefore, the matching degree between the convolution kernel shape and the target shape could determine its efficiency and quality of feature extraction to a certain extent. If the shape of the convolution kernel is more similar to the target shape, the extracted feature map will contain the complete information of the target. Otherwise, the feature map will contain many background features that interfere with model classification and localization. Traditional methods are still challenged that the square convolutional kernel does not fit the shape of a ship with a long strip of random docking direction well. So, we tend to develop a backbone network based on deformable cavity convolution for that. Method Weighted fusion deformable atrous convolution (WFDAC) can somewhat adaptively change the shape and size of the convolution kernels and weight the features extracted by different convolution kernels in terms of the learned weights. In this way, the network can be made to actively learn any feature kernels are more capable of extracting features that match the target shape, thus the information-related is enhanced for the extraction of target region and suppressing background. The WFDAC module consists of two deformable convolutional kernels with different atrous rates and a 1 × 1 convolutional kernel that computes the fusion weights of the two deformable convolutional kernels in parallel. Furthermore, different perceptual fields are resulted in since the two parallel deformable convolutional kernels have different atrous rates. Therefore, deep feature extraction is challenged that smaller atrous rate-derived deformable convolutional kernel may duplicate the features within the perceptual field of larger atrous rate-context deformable convolutional kernel in shallow feature extraction. That is, features within the same receptive field are extracted and fused by at least two cross-layer deformable convolutional kernels. This can enhance the feature extraction efficiency of the network. In addition, to extract the discrepancy between small targets and near shore reefs and coastal zone buildings, we proposed a three-channel mixed attention (TMA) mechanism as well. It uses three parallel branches to obtain the cross-latitude interactions of model parameters by means of rotation and residual connection, as a method to calculate the weight relationship between model parameters. By multiplying the weights with the original parameter values, the differences between small vessels and shaped buildings and islands can be sharpened, and the weight of similarity features between them in model classification can be reduced, thus improving the model fine classification effect. Result The ablation and comparative experiments are conducted on SAR image ship datasets: high-resolution SAR images dataset (HRSID) and SAR ship detection dataset (SSDD). The model is first trained using the training set, and then the accuracy of the model is tested using the test set. We use several evaluation metrics to judge the model performance in terms of the internet of union (IoU) and the target pixel size. The experimental results show that our method can improve the detection accuracy of the model for SAR ship targets effectively, especially for small ones. Using our backbone network feature extraction network (FEN) instead of ResNet-50, the results on the HRSID dataset show that the detection accuracy is increased by 3.5%, 2.6%, and 2.9%, respectively on the three detection models: cascade region convolutional neural network (Cascade-RCNN), you only look once v4 (YOLOv4), and border detection (BorderDet). For small ships, an overall accuracy is reached of 89.9%. In order to verify whether the models improve the detection accuracy of small ships in the nearshore-complicated background, we segment the test set of the HRSID dataset into two scenarios: nearshore and offshore. The test analyses show that the accuracy is improved by 3.5% and 1.2% in the nearshore and offshore scenarios, respectively. Additionally, we designed a set of experiments to validate the effect of the atrous rate on the WFDAC module, which the atrous rate of one branch of two parallel deformable convolutions is fixed to 1, and the atrous rate of the other branches are set to 1, 3, and 5 sequentially. The experimental results show that the WFDAC module performs quite well when the atrous rate of one branch is 1 and the atrous rate of the other branch is 3. The overall accuracy on the SSDD dataset reached 95.9%. Conclusion Our backbone network-improved model can change the shape and size of the convolution kernel to focus on acquiring target information and suppressing background information interference. It reduces the false/loss ratio of small ships detection of SAR images effectively in the complex background of near shore.

Key words

ship detection; synthetic aperture radar(SAR) image; deformable convolution; visual attention mechanism; atrous convolution

0 引言

合成孔径雷达(synthetic aperture radar，SAR)可以提供全天候全天时的高分辨率图像，在海洋监测和海上交通监管中发挥着重要作用(Liu等，2019)。近年来，SAR图像的舰船检测引起了人们的关注(Heiselberg和Heiselberg，2017；阮晨等，2021)，传统方法主要依赖于恒虚警率(constant false-alarm rate，CFAR)及其改进算法(Dai等，2016；Ao等，2018)，这些方法基于手工制作的特征，速度慢，易受屋顶、集装箱等类似船舶的物体或由海杂波引起的干扰，对复杂背景下的小型船舶识别效果不佳。因此，迫切需要新的目标检测模型来提高SAR舰船的检测性能，尤其是提高近岸复杂背景下小型舰船检测性能。

卷积神经网络(convolutional neural network，CNN)可以从数据本身学习深层特征，它的特征提取能力比手工制作的特征提取器更为优越(Wang等，2019)。因此，基于CNN的检测器已经广泛应用于SAR图像舰船检测中。Li等人(2017)使用迁移学习和困难样本挖掘等策略将Faster-RCNN(faster region convolutional neural network)(Ren等，2017)算法用于SAR舰船检测，但忽略了SAR图像中各种舰船尺寸差距过大的问题。Zhao等人(2019)在Li等人(2017)方法的基础上，采用多层次特征融合改进了一阶段检测器SSD(single shot multibox detector)(Liu等，2016)，大幅改善了模型对多尺寸舰船检测效果。

但是，针对SAR图像近岸复杂背景下小型舰船检测任务的深度学习目标检测模型依然较少，且具有诸多挑战(阮晨等，2021)。首先，与光学图像不同，SAR图像主要通过不同目标的后向散射回波来构建图像。因此，在SAR图像中没有颜色、纹理等特征，只能大致显示目标的形状和亮度。在空旷海面上，舰船目标在SAR图像中呈现亮白色舰船形状，海水则是黑色，易于网络区分学习。然而，近岸港口情况多变，现有方法无法正确区分部分建筑物、暗礁与小型船舶，造成误检和漏检。此外，在内陆河道、港口等场景中，小型舰船通常紧密停靠在一起，在SAR图像中呈现为连成一体的形状，现有方法难以精确定位每艘船的边界，导致多艘舰船检测为1艘舰船，造成漏检。

针对上述问题，Lin等人(2019)在Zhao等人(2019)方法的基础上，使用编码尺度向量排序来过滤向量值较低的候选框，减少了近岸建筑物的干扰，但同时也使网络直接忽略图像质量不高的小型舰船，造成漏检。Gui等人(2019)基于轻量级检测器，直接合并浅层和高层(丢弃中间层)来提高模型定位精度，却降低了模型对中型舰船的检测精度。Dai等人(2020)引入双向多尺度特征融合技术来加强网络对已提取特征图的融合效果，却忽略了对近岸复杂背景的抑制，虽然提升了对小型舰船的查全率，但降低了查准率。阮晨等人(2021)在Dai等人(2020)方法的基础上，引入权重机制，区分不同尺度特征图的重要性，并在融合前使用视觉注意力机制引导网络抑制近岸复杂背景，提出了一种无锚框近岸舰船检测方法。

上述方法主要考虑对SAR图像提取的多层级特征图做一些复杂融合，用上层语义信息辅助模型进行分类，下层空间信息辅助模型进行定位，未充分考虑卷积核形状与舰船形状之间的联系，导致模型对近岸小型舰船检测精度依然较低。本文以Cascade-RCNN(Cai和Vasconcelos，2018)模型为基线模型，分析模型误检漏检的场景及原因，针对性地提出一种基于可变形空洞卷积的SAR舰船特征提取网络。首先，使用一种加权融合可变形空洞卷积(weighted fusion deformable atrous convolution，WFDAC)替代ResNet-50(He等，2016)中的3×3卷积模块，扩大模型感受野，进行多感受野特征提取与融合，引入目标极点的局部信息辅助模型分类。接着，提出3通道混合注意力机制(triple mixed attention，TMA)，引导网络更加关注近岸细节提取，提高模型细分类效果。

1 本文算法

1.1 FENDet模型整体结构

为了探究传统方形3 × 3卷积在SAR舰船领域的使用效果，本文使用HRSID(high-resolution sar images dataset)数据集(Wei等，2020)进行研究与实验。HRSID数据集将舰船分为近岸场景与离岸场景，近岸场景与离岸场景的舰船图像示例如图 1所示，其中，绿色矩形框为舰船标注。

图 1 HRSID数据集示例

Fig. 1 Samples of HRSID

((a) offshore sample; (b) inshore sample)

表 1展示了Cascade-RCNN在HRSID数据集中近岸和离岸场景下的检测结果。Cascade-RCNN在离岸简单背景下的平均精度(average precision，AP)为98.0%，在近岸复杂背景下的AP值却只有79.6%。其中，小舰船与大舰船的AP值较低。表明模型对近岸复杂背景下的小舰船和大舰船检测效果不佳。在HRSID数据集中，小、中、大型舰船的占比分别为60.2%、36.8%、3%。大型舰船检测精度低可能是由于样本数量较少等原因造成的。

表 1 Cascade-RCNN在HRSID数据集上的检测精度
Table 1 Cascade-RCNN detection precision on HRSID

下载CSV

/%
场景	$ {\rm{AP}}_{50}$	$ {\rm{AP}}_{{\rm{s}}}$	$ {\rm{AP}}_{{\rm{m}}}$	$ {\rm{AP}}_{{\rm{l}}}$
近岸	79.6	54.5	69.6	32.7
离岸	98.0	84.9	81.1	65.4
注：$ {\rm{AP}}_{50}$: 阈值选择为0.5；$ {\rm{AP}}_{{\rm{s}}}$：面积较小；$ {\rm{AP}}_{{\rm{m}}}$: 面积中等；$ {\rm{AP}}_{{\rm{l}}}$: 面积较大。

为了探究小型舰船在近岸复杂场景下检测精度低的原因，本文分别选取在简单背景下、近岸复杂场景下、近岸密集场景下和近岸建筑物干扰场景下的SAR舰船图像，Cascade-RCNN的检测结果如图 2所示。可以看出，在简单场景下(图 2(a))，Cascade-RCNN检测舰船的能力较高，但是对图像边缘和紧靠在一起的舰船出现了误检和漏检情况，说明模型对舰船定位精度不够。在近岸复杂场景下(图 2(b)—(d))，Cascade-RCNN容易将近岸的建筑物或水中的岛屿误检成舰船。通过对误检漏检小目标的观察与分析，本文发现许多误检的岛屿和陆地建筑，在某些特征上与舰船目标相似，如长宽比都在1.5~2.2之间，整体亮度均衡等。说明Cascade-RCNN对小目标的细节特征提取与细分类效果不佳。原因可能是这些小目标像素总量较小，在高层次特征图上无法提供详细语义信息，在低层次特征图上提供了许多相似的细节信息。

图 2 Cascade-RCNN在不同场景下的检测结果可视化

Fig. 2 Visualization of detection results of Cascade-RCNN in different scenarios

((a) offshore simple; (b) inshore complex; (c) inshore dense; (d) inshore building disturbance)

针对模型对小目标的细节特征提取与细分类效果不佳问题，本文提出一种针对复杂背景下SAR近岸舰船的特征提取网络(feature extraction network，FEN)。图 3展示了FEN与Cascade-RCNN结合后的检测器FENDet结构。本文算法首先使用加权融合可变形空洞卷积模块取代残差块中的3 × 3传统卷积，接着在每一层级特征图前使用3通道混合注意力机制引导网络关注细节特征，最后通过原Cascade-RCNN检测网络进行特征融合、候选框筛选与预测，生成最终结果。

图 3 FENDet模型结构

Fig. 3 The structure of FENDet

1.2 加权融合可变形空洞卷积

一般情况下，出于性能和计算量的考虑，大部分基于CNN的检测模型以ResNet-50为骨干网络，这种模型深度限制了网络的感受野，导致模型在浅层特征提取时只能提取每一像素点周围8个点的特征并进行融合，在高级语义特征提取时也只是机械性提取方形区域内固定点的信息。而在SAR图像中，舰船通常为长条形斜向停靠，在舰船目标周围的任一方形区域内，既存在舰船信息，也存在舰船附近的背景信息。因此，固定方形形状与大小的传统卷积核，会同时提取舰船与舰船周围的背景特征，给模型分类和定位造成干扰。此外，传统卷积的感受野$ R F_i$较小，计算为

$R F_i=R F_{i-1}+\left(k_i-1\right) \prod\limits_{j=1}^{i-1} s_j$

(1)

式中，$ R F_{i-1}$表示上一层的感受野，$ k_i$表示第$ i$层的卷积核尺寸，$ s_j$表示第$ j$层的卷积步长。

在浅层网络中获得舰船目标的整体信息有助于模型进行分类。然而，普通的卷积在浅层的感受野有限，因此本文引入空洞卷积(Chen等，2018)来扩大卷积的感受野。空洞卷积是一种能够扩大卷积核感受野的有效技术。空洞率为$ r$的空洞卷积会在普通的卷积核权值之间引入$ r-1$个零点，相当于将$ k\times k$卷积核扩大到$ k+(k-1)\times (r-1)$，却不增加任何参数或计算量。然而，单纯的使用空洞卷积提取特征，由于零点的存在，会造成特征图中相邻信息的不连续性。因此，本文对不同空洞率卷积核提取的特征图进行加权融合，增加了特征图中特征的关联性。此外，大部分舰船在SAR图像中呈长条形。如果直接使用空洞卷积进行特征提取，方形提取框会引入更多的背景信息干扰模型进行分类与定位。因此，本文在空洞卷积的基础上引入可变形卷积(Zhu等，2019)，使卷积核提取的位置更加贴合舰船形状，极大程度地减少了背景信息对目标分类的干扰。

图 4直观展示了传统卷积和本文所提加权融合可变形空洞卷积的感受野对比。图 4(a)中的绿色方形框表示传统卷积的感受野，图 4(b)中的紫色不规则多边形框表示加权融合可变形空洞卷积的感受野。可以看出，在同一深度条件下，加权融合可变形空洞卷积的感受野更大，能基本包含舰船目标整体，使网络获得舰船整体信息。

图 4 传统卷积与加权融合可变形空洞卷积感受野对比

Fig. 4 Comparison of traditional convolution and WFDAC perceptual fields

(a) traditional convolution; (b) WFDAC)

图 5对比了同一网络深度下，传统3 × 3卷积与WFDAC在特征提取时卷积核权重的相对位置。在图 5中，绿色圆点和橙色圆点分别表示3 × 3传统卷积和空洞率为3的3 × 3空洞卷积在提取特征时权重的相对位置，绿色矩形框表示舰船目标。传统卷积如图 5(a)所示，通过权重与固定位置像素相乘来提取特征。图 5(b)为在传统卷积的基础上增加一个空洞卷积后，两个卷积权重的相对位置，通过不同空洞率卷积核权重分别与固定位置像素相乘并融合来提取特征。图 5(c)为对两个卷积分别逐一预测相对偏移位置，使权重相对位置更贴合舰船形状后，可变形空洞卷积权重的相对位置。然后将不同空洞率卷积核权重分别与相对偏移位置上的像素相乘并加权融合来提取特征。

图 5 传统卷积与WFDAC卷积核权重相对位置对比

Fig. 5 Comparison of the relative positions of ordinary convolution and WFDAC convolution kernel weights

((a) traditional convolution; (b) add atrous convolution; (c) WFDAC)

对一个以$ x$为输入，$ w$为权重，空洞率$ r$为1的传统卷积$ Conv(x, w, 1)$，转化为WFDAC的计算过程为

$\begin{aligned} & f_{\text {WFDAC }}=S(x) \cdot D {conv}(x, w, 1)+ \\ & (1-S(x)) \cdot D {conv}(x, w+\Delta w, r) \end{aligned}$

(2)

式中，$ S(\cdot)$由5 × 5的平均池化和1 × 1的卷积组成，$ Dconv$为可变形卷积，$ \Delta w$为空洞率为$ r$的卷积核的偏移权重。如果不做特别说明，在实验中，$ r$=3。

WFDAC模块在浅层特征图中提取更大范围的细节信息，并使模型感受野更贴合舰船形状，减少对复杂背景的特征提取。在深层特征图中，空洞率为1的卷积由于其感受野自然增加，会重复提取浅层特征图中空洞率为3的卷积感受野内的特征，这使得同一感受野、同一区域下的图像区域至少为两个跨层卷积提取特征并进行加权融合，增加了特征提取效率。

加权融合可变形空洞卷积WFDAC的总体结构如图 6所示，在WFDAC模块的前后分别增加了一个全局上下文模块。这个模块与SENet(Hu等，2020)相似，但没有任何非线性层，且输出被加回输入特征图而不是与它相乘。增加前处理全局上下文模块是为了给$ S(\cdot)$函数提供全局上下文指导，使其能生成更有效的融合权重。增加后处理上下文模块是为了减少不同感受野特征图相加带来的混叠效应。实验表明，前后全局上下文模块使AP值提升了0.5。

图 6 WFDAC模块结构

Fig. 6 The structure of WFDAC

在实验时，本文加载了在ImageNet上训练好的权重文件作为骨干网络ResNet-50的初始权重。但对于从传统卷积层转化来的WFDAC卷积来说，缺少了空洞率为3的权重。针对这一问题，基于不同尺寸的物体可以被同一组权重粗略检测出来这一实际经验，将空洞率为1的卷积权重初始化为$ W_1$，空洞率为3的卷积权重初始化为$ W_1$+$ \Delta W$，这就是图 6中的锁定参数机制。其中，$ W_1$是ResNet-50在ImageNet上的预训练权重，$ \Delta W$初始化为0。实验表明，当固定$ \Delta W$为0时，会有0.1AP的下降。但是没有锁定机制的模型会造成5AP的下降，其原因本文推测是因为不同权重会提取特征图的不同信息，如果权重相差过大，在信息加权融合时会出现干扰和矛盾。

1.3 3通道混合注意力机制

人类在视觉感知过程中会将注意力集中于视野中的一部分而忽略其他部分。人类感知中的注意力涉及选择性地集中于给定信息的一部分而忽略其余部分的过程。这种机制有助于提炼感知信息，同时保留其上下文。一些方法提出在CNN架构中有效地合并这种注意机制，以提高大规模视觉任务的性能。这些注意力机制具有通过明确建立通道之间的依赖性或空间上的加权掩膜来改进由传统卷积层生成的特征表示的能力。学习注意力权重本质上是使网络有能力学习不同特征点的重要程度，从而进一步关注目标对象。Wang等人(2017)在残差注意力网络中提出了一种额外掩膜编解码器模块来直接生成立体注意力权重矩阵。Hu等人(2020)在Wang等人(2017)方法的基础上，提出了SENet，通过学习网络中每个通道的权重来模拟特征图中的跨通道关系。Woo等人(2018)在Hu等人(2020)的通道注意力基础上再度集成了空间注意力机制，提出了CBAM(convolutional block attention module)，在通道维度和空间维度上利用全局平均池化和全局最大池化来生成注意力权重。Zhao等人(2020)将CBAM注意力模块和空洞卷积模块引入到SAR舰船目标检测任务中来，提高了舰船检测精度。

尽管CBAM引入空间注意力作为通道注意的补充模块，弥补了空间信息的主要损失，但它的空间注意权重和通道注意权重是相互独立计算的，并不考虑两者之间可能存在的依赖关系。受Misra等人(2021)方法的启发，本文引入了跨维度交互的概念，通过捕捉输入张量的空间维度和通道维度之间的交互来解决这个缺陷，提出了3通道混合注意力机制TMA。

本文通过旋转和残差连接寻找不同维度之间权重的依赖关系，并通过一个3分支结构和池化操作融合交叉维度之间权重的依赖关系。3通道混合注意力机制示意图如图 7所示，由3个平行的分支组成，其中两个负责捕捉通道维度$ C$与空间维度$ H$或$ W$之间的跨维度权重，另一个分支类似于CBAM，用于建立空间注意力权重。所有3个分支的输出通过简单的平均进行融合。输入特征映射$ \boldsymbol{F} \in {\bf{R}}^{C \times H \times W}$分别与空间注意权重矩阵$ \boldsymbol{W}_S \in {\bf{R}}^{1 \times H \times W}$、通道—横向注意权重矩阵$ \boldsymbol{W}_{CW} \in {\bf{R}}^{1 \times C \times W}$和纵向—通道注意权重矩阵$ \boldsymbol{W}_{HC} \in {\bf{R}}^{1 \times H \times C}$相乘，获得显著特征映射$ \boldsymbol{F}^{\prime} \in {\bf{R}}^{C \times H \times W}$。计算过程为

$\boldsymbol{F}^{\prime}=\frac{1}{3}\left(\boldsymbol{W}_S(\boldsymbol{F}) \odot \boldsymbol{F}+\boldsymbol{W}_{C W}(\boldsymbol{F}) \odot \boldsymbol{F}+\boldsymbol{W}_{H C}(\boldsymbol{F}) \odot \boldsymbol{F}\right)$

(3)

图 7 TMA模块结构

Fig. 7 The structure of TMA

式中，$ \odot$表示点乘。

空间注意模块主要提取特征映射的位置信息。

首先，沿通道轴分别进行最大池化和最小池化，突出显示特征图空间中的极值信息并将结果拼接起来。接着，使用一个7 × 7的卷积层对拼接后的特征图进行降维与特征提取，生成空间注意图。计算过程为

$\boldsymbol{W}_S(\boldsymbol{F})=\sigma\left({conv}^{7 \times 7}\left({concat}\left(P_{\max }(\boldsymbol{F}), P_{\min }(\boldsymbol{F})\right)\right)\right)$

(4)

式中，$ \sigma $表示sigmoid函数，$ conv^{7\times 7} $表示7×7的卷积和批归一化运算，$ concat$表示拼接操作，$ P_{\max}$表示最大池化，$ P_{\min}$表示最小池化。通道—横向注意模块和纵向—通道注意模块主要提取跨维度权重的相互关系，如图 7所示，计算过程与空间注意力相似，只是在开始和末尾对输入特征映射$ \boldsymbol{F} \in {\bf{R}}^{C \times H \times W}$进行了90°的旋转与逆旋转操作。

本文将TMA模块添加在每个阶段输出特征图之前，通过连续的空间注意力和跨维度注意力提高特征图的区域关注能力，可有效减少SAR近岸场景中的复杂背景干扰，如暗礁、近岸形似建筑等。

2 实验与分析

2.1 实验平台

实验运行环境为i7-9750 CPU，Nvidia Tesla P100 GPU，16 GB显存。操作系统Ubuntu16.04，深度学习框架Pytorch 1.6.0，脚本语言Python 3.7。CUDA(compute unified device architecture)和cuDNN(compute unified device architecture deep neural network)版本分别为CUDA 10.1和cuDNN 7.6.4。

2.2 实验数据集

选用HRSID(Wei等，2020)和SSDD(SAR ship detection dataset)数据集(Li等，2017)评估本文方法。SSDD是第1个公开的SAR舰船检测数据集，数据主要由RadarSat-2, TerraSAR-X, and Sentinel-1提供，拍摄于中国烟台和印度维萨卡帕特南，分辨率为1~10 m，包含海洋和近岸地区的大量船舶目标，共有1 160幅图像和2 456个舰船目标，平均每幅图像包含2.12艘舰船，小型、中型和大型舰船占比分别为60.2%、36.8%和3%，训练集和测试集分别包含928和232幅图像。

HRSID数据集是2020年发布的一个大型SAR舰船检测数据集，包含不同场景、不同雷达和不同极化方式生成的图像。HRSID中有5 604幅经过裁剪的舰船图像，包含16 951个舰船目标，平均每幅图像包含3艘舰船，小型、中型和大型舰船占比分别为54.5%、43.5%和2%，训练集和测试集分别包含3 642和1 962幅图像。

SSDD和HRSID数据集的对比如表 2所示。

表 2 SSDD和HRSID数据集参数对比
Table 2 Comparison between SSDD and HRSID datasets

下载CSV

参数	SSDD	HRSID
数据来源	RadarSat-2, TerraSAR-X, Sentinel-1	Sentinel-1B, TerraSAR-X, TanDem
极化方式	HH, HV，VV，VH	HH, VV，HV
拍摄地点	烟台、印度维萨卡帕特南	美国休斯顿、圣保罗等
分辨率/m	1~15	0.5~3
图像尺寸/像素	190 × 214~526 × 668	800 × 800
训练集图像数量	928	3 642
测试集图像数量	232	1 962
舰船目标总数	2 456	16 951

2.3 模型评价指标

采用精度$ P$(precision)和召回率$ R$(recall)两个平均精度系列指标评价和对比模型效果。

精度$ P$定义为预测正确的正例占预测结果中所有正例的比例，即

$P=\frac{T P}{T P+F P}$

(5)

召回率$ R$定义为预测正确的正例占被预测样本中所有正例的比例，即

$R=\frac{T P}{T P+F N}$

(6)

式中，$ TP$为预测正确的正样本数量，$ FP$为预测错误的负样本数量，$ FN$为预测错误的正样本数量。

以舰船类目标的精度为$ x$轴以及召回率为$ y$轴绘制P-R(precision-recall)曲线，然后计算这条曲线与坐标轴之间的面积，得到舰船类目标的$ {\rm{AP}}$，具体为

$A P=\int_0^1 P(R) \mathrm{d} R$

(7)

式中，$ P$表示精度，$ R$表示召回率。

根据区域交并比(inter of union，IoU)取值的不同和目标大小的不同，本文将$ AP$指标细分为$ AP$、$ AP_{50}$、$ AP_{75}$、$ AP_{{\rm{s}}}$、$ AP_{{\rm{m}}}$和$ AP_{{\rm{l}}}$。$ AP$系列指标有10个IoU阈值，分布在0.5~0.95之间，步长为0.05。$ AP$是10个IoU阈值$ AP$分数的算数平均，$ AP_{50}$和$ AP_{75}$分别是IoU阈值选择为0.5和0.75时的$ AP$分数。$ AP_{{\rm{s}}}$、$ AP_{{\rm{m}}}$和$ AP_{{\rm{l}}}$分别是尺寸较小(面积＜32×32像素)、尺寸中等(32×32像素＜面积＜64×64像素)和尺寸较大(64×64像素＜面积)对象的$ AP$分数。

2.4 模型训练参数

为保持检测器的相同超参数，选择mmdetection(Chen等，2019)进行训练和测试。为了进行更精确的分类与定位，训练和测试过程中，SAR图像按比例调整为1 000 × 1 000像素。检测器用GPU(graphics processing unit)训练，共12轮；动量和权重衰减分别设置为0.9和0.000 1。训练和测试中对低精度边界框严格过滤时，IoU阈值设置为0.7。Cascade-RCNN中的IoU阈值设置为{0.5，0.6，0.7}。本文选择初始学习率为0.002 5的SGD(stochastic gradient descent)作为优化器，其他超参数在mmdetection中设置为默认值。

2.5 结果与分析

2.5.1 各模块有效性分析

为了验证WFDAC和TMA两个模块对检测效果的影响，对各模块进行评估，在HRSID数据集上以Cascade-RCNN为检测模型，对两个模块进行消融实验，结果如表 3所示。可以看出：1)添加WFDAC模块(第2行)后，模型在各方面，尤其是大型舰船检测精度得到较大提升，从26.6%提升到31.4%。主要是由于WFDAC模块扩展了模型每一层的感受野，使模型能够将大型舰船当做一个整体来学习。此外，空洞率为1的卷积与空洞率为3的卷积融合方式，使模型在不同深度上提取同一感受野不同层次的特征并加以融合，这种特征重提取也是模型能提高小型舰船检测精度的原因。2)TMA注意力机制模块(第3行)的$ AP_{75}$指标有较大提升，这是因为原来的Cascade-RCNN提取底层位置信息不够明确，造成了模型预测时高质量目标框不多。TMA模块增强了网络对舰船区域的关注度，使预测的目标框更加精准。3)两个模块结合使用后，模型对特征信息的提取更加精准，能有效区分小型舰船与相似岛屿、小型建筑物之间的细微区别，$ AP_{50}$和$ AP_{{\rm{s}}}$在原来的基础上分别增加了2.8%和3.5%。

表 3 在HRSID数据集上的消融实验
Table 3 Ablation experiments on HRSID dataset

下载CSV

/%
网络	$ AP$	$ AP_{50}$	$ AP_{75}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$
ResNet50	66.6	87.1	76.6	67.7	67.3	26.6
ResNet50+WFDAC	67.1	89.3	77.9	68.2	67.8	31.4
ResNet50+TMA	67.2	88.7	78.6	71.3	68.2	25.3
ResNet50+WFDAC+TMA	68.0	89.9	79.1	71.2	69.4	27.5
注：加粗字体表示各列最优结果。

空洞率$ r$对WFDAC模块的性能影响如表 4所示。为提高特征提取效率，本文根据两个可变形空洞卷积相对位置偏移不重合和传统卷积跨两个阶段对可变形空洞卷积感受野特征进行高级语义特征提取这两个规则，将实验中的空洞率$ r$设置为1、3、5。可以看到，当$ r$=3时，效果最佳。当$ r$=1时，WFDAC模块退化为两个同样感受野的可变形卷积进行特征提取与融合，因此提升较小。当$ r$=5时，可能由于两个卷积之间距离太远，模型难以获取两个卷积之间的权重关系，造成精度下降。

表 4 空洞率$ r$对可变形空洞卷积模块性能的影响
Table 4 Effect of void ratio on WFDAC module

下载CSV

$ r$	$ AP_{50}$	$ AP_{{\rm{s}}}$	$ AP_{\rm{m}}$	$ AP_{{\rm{l}}}$
1	87.3	68	67.6	26.7
3	89.9	71.2	69.4	27.5
5	88.1	69.1	68.5	27.1
注：加粗字体表示各列最优结果。

TMA与其他注意力模块在ResNet-50上的参数增加量对比如表 5所示。在参数计算公式中，$ C$表示该层的输入通道数量，$ r$表示在计算通道注意力时在MLP(multi-layer perceptron)瓶颈中使用的缩减率，$ k$表示注意力模块中卷积核的大小。实验中，设置$ r $ = 16，$ k$ = 7。结果表明，TMA的参数开销较小。

表 5 不同注意力模块在ResNet-50上的参数增加对比
Table 5 Comparison of parameter increases for different attention modules on ResNet-50

下载CSV

注意力模块	参数计算公式	参数增加/M
SE	$ 2 C^2 / r$	2.514
CBAM	$ 2 C^2 / r+2 k^2$	2.532
TMA(本文)	$ 6 k^2$	0.004 8
注：加粗字体表示最优结果。

传统卷积和WFDAC在相同深度下的特征提取结果对比如图 8所示。图 8(b)(c)分别取自原始ResNet-50模型第一层和最后一层卷积的前9个通道，图 8(d)和图 8(e)分别取自WFDAC替换传统卷积后ResNet-50模型第一层和最后一层卷积的前9个通道。可以看出，相比于传统卷积提取的细节特征(图 8(b))，WFDAC在浅层网络可以提取更多全局信息(图 8(d))，且对输入图像中各物体的位置保留得非常完整，更有利于模型对舰船目标进行定位。相比于传统卷积提取的语义特征(图 8(c))，WFDAC在深层网络可以提取更多有效语义信息(图 8(e))，辅助模型进行分类。

图 8 传统卷积与WFDAC特征提取结果对比

Fig. 8 Comparison of traditional convolution and WFDAC feature extraction results

((a) ground truth; (b) detailed features by traditional convolution; (c) semantic features by traditional convolution; (d) detailed features by WFDAC; (e) semantic features by WFDAC)

图 9展示了模型增加TMA前、后对输入图像的类激活图的对比结果。图 9(a)中，舰船目标用绿色矩形框标出。图 9(b)和图 9(c)分别为模型增加TMA前、后对输入图像的类激活图，蓝、绿、黄、红表示激活程度递增。

图 9 TMA模块的类激活图对比

Fig. 9 Comparison of class activation diagrams with and without TMA modules

((a) ground truth; (b) without TMA; (c) with TMA)

从图 9(b)可以看出，原模型对舰船目标的关注度较为宽泛，对舰船目标周边的背景像素给予了较高关注度，在舰船像素上的激活程度不高。增加TMA模块约束了模型的关注范围，降低了模型对舰船目标周边背景像素的特征提取能力。此外，TMA模块在一定程度上增加了模型对舰船像素的类激活度，突出了舰船和舰船周边相似建筑的差异性。

2.5.2 FEN有效性分析

为验证骨干网络FEN的有效性，在两阶段、一阶段和无锚框目标检测器中分别挑选一种经典方法Cascade-RCNN、YOLOv4(you only look once v4)(Bochkovskiy等，2020)和BorderDet(Qiu等，2020)作为检测器在HRSID数据集上进行实验，结果如表 6所示。在第1组实验中，3种模型使用ResNet-50作为骨干网络进行特征提取。结果表明，在相同训练参数下，BorderDet的检测精度最高，可能是因为HRSID数据集中小型舰船占比较高，且舰船一般呈斜向分布。而通过预测极值点来确定目标位置，并通过极值点信息进行分类的无锚框方式不容易受到舰船目标周围环境的影响。3种检测器中，Cas-cade-RCNN对大型舰船的检测精度最高，因为在区域推荐过程中，所有特征图压缩为20 × 20像素，有利于模型生成更能多包含大型目标的候选框。在第2组实验中，3种模型使用本文所提的FEN作为骨干网络。可以发现，3种检测器的$ AP_{50}$分别增长了2.8%、2.6%和1.6%。说明FEN能够显著增强模型的特征提取能力，并进一步提升舰船检测精度。在小型舰船检测精度上，3种检测器分别增长了3.5%、2.6%和2.9%，在中型舰船和大型舰船上，3种检测器的精度也有一定上涨，充分验证了FEN特征提取网络在改善小型舰船误检漏检情况时的有效性。值得一提的是，在BorderDet中，模型主要通过4个极值点的信息进行目标的定位和分类，致力于提取目标周边局部信息的FEN反而对模型造成了干扰，导致模型对大型舰船的检测精度有所下降。

表 6 在HRSID数据集上不同模型使用ResNet-50和FEN作为骨干网络的平均精度比较
Table 6 Comparison of the average accuracy among different models on the HRSID dataset using ResNet-50 and FEN as the backbone network

下载CSV

/%
骨干网络	Cascade-RCNN				YOLOv4				BorderDet
骨干网络	$ AP_{50}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$	$ AP_{50}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$	$ AP_{50}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$
ResNet-50	87.1	67.7	67.3	26.6	87.0	66.2	66.2	22.7	88.5	68.6	67.4	22.6
FEN(本文)	89.9	71.2	69.4	27.2	89.6	68.8	69.6	24.1	90.1	71.5	69.2	20.8
注：加粗字体表示各列最优结果。

本文方法在HRSID数据集上不同场景的测试结果可视化样例如图 10所示。图 10(a)是在空旷海面上对稀疏简单背景下小型舰船的检测结果，图 10(b)—(d)分别是在近岸复杂背景下对小型密集分布舰船、多尺度分布舰船和大型舰船的检测结果。可以看出，本文算法对简单背景下的小型舰船检测基本无漏检误检，对近岸复杂背景下停靠较近的小型舰船可分辨舰船数量并精准定位，对与舰船相似的岛屿和岸上建筑物，由于注意力机制的存在，也能区分它们与舰船的差别。此外，对占据图像大部分区域的大型舰船，由于模型感受野的增加，也能较为准确地识别。

图 10 Cascade-RCNN+FEN在HRSID数据集上的检测结果

Fig. 10 Detection results on HRSID dataset with Cascade-RCNN+FEN

((a) small ships in sparse background empty sea surface; (b) small and densely distributed ships in nearshore complex background; (c) multi-scale distribution of ships in nearshore complex background; (d) large ships in nearshore complex background)

为探究本文方法主要提升简单背景还是复杂背景的舰船检测精度，对本文基准方法和Faster-RCNN(Ren等，2017)、RetinaNet(Lin等，2017)、Mask-RCNN(He等，2017)、Mask Scoring RCNN(Huang等，2019)、Cascade Mask RCNN(Cai和Vasconcelos，2018)等先进检测器以及本文方法进行测试。测试时，将HRSID数据集分为近岸和离岸场景，近岸场景背景较为复杂，离岸场景背景较为简单。测试结果如表 7所示。可以看到，本文方法在近岸和离岸场景中均取得了最优结果。其中，相较于基准模型Cascade-RCNN，本文方法在近岸和离岸场景中$ AP$分别提升了3.5%和1.2%，表明本文方法的提升主要体现在复杂场景下的精度提升，证明了本文方法在复杂场景下的有效性。

表 7 HRSID数据集中近岸与离岸场景检测情况对比
Table 7 nearshore and offshore scenario detection results in the HRSID dataset

下载CSV

/%
模型	近岸						离岸
模型	$ AP$	$ AP_{50}$	$ AP_{75}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$	$ AP$	$ AP_{50}$	$ AP_{75}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$
Faster-RCNN	51.4	78.3	58.1	50.4	64	24.1	80.7	98.0	94.5	82.0	78.2	31.3
Cascade-RCNN	55.9	79.6	63.6	54.5	69.6	32.7	83.6	98.0	95.5	84.9	81.1	65.4
RetinaNet	41.3	69.0	42.5	39.4	57.9	28.4	79.6	98.6	93.2	81.2	75.0	57.4
Mask-RCNN	53.1	79.0	60.7	52.5	63.6	20.0	81.0	98.8	94.6	82.3	79.0	44.9
Mask Scoring RCNN	52.8	78.6	60.8	52.3	64.7	24.9	80.2	98.0	94.6	81.6	77.9	43.4
Cascade Mask RCNN	56.3	80.0	64.9	55.5	67.6	24.8	84.1	98.9	95.6	85.2	81.9	59.0
FENDet(本文)	59.4	80.6	66.6	59.1	71.6	33.7	84.8	98.9	96.2	86.2	82.0	66.2
注：加粗字体表示各列最优结果。

2.5.3 泛化性分析

HRSID数据集是2020年提出的SAR舰船检测数据集。为了证明本文模型的泛化性，在经典SAR舰船检测数据集SSDD上，将本文方法与其他先进检测器精度进行对比，结果如表 8所示。可以看到，一阶段的目标检测器精度落后于二阶段检测器，在二阶段检测器中，级联的检测器精度高于原本的检测器。需要说明的是，由于SSDD数据集并没有语义标注，所以表 8中的检测器都没有语义分支。实验结果表明，与其他先进检测器相比，本文方法效果最佳。

表 8 在SSDD数据集上本文方法与其他检测器的精度对比
Table 8 Accuracy comparison of our method and other detectors on the SSDD dataset

下载CSV

/%
模型	$ AP$	$ AP_{50}$	$ AP_{75}$	$ AP_{{\rm{s}}}$	$ AP_{{\rm{m}}}$	$ AP_{{\rm{l}}}$
Faster-RCNN	59.1	93.8	68.6	55.2	66.0	47.3
Cascade-RCNN	59.7	93.1	67.6	54.8	67.1	57.8
RetinaNet	55.5	90.2	62.3	51.2	62.6	45.4
Mask-RCNN	58.9	93.4	66.6	55.3	64.9	49.7
Mask Scoring RCNN	59.4	94.7	67.8	55.6	65.3	51.2
Cascade Mask RCNN	59.7	93.1	68.9	55.5	65.9	53.2
YOLOv4	58.7	92.1	66.4	52.8	64.1	56.8
FENDet (本文)	62.6	95.9	68.9	57.1	69.2	56.8
注：加粗字体表示各列最优结果。

3 结论

SAR图像舰船检测的挑战之一在于对近岸小舰船目标的细节特征提取和细分类效果不佳。为了缓解上述问题，本文从微观上引入加权融合可变形空洞卷积替代传统卷积，使每层网络可以自适应提取和融合不同感受野特征。此外，本文引入3通道混合注意力机制，使网络可以关注更重要的信息，减少陆地复杂情况干扰。本文方法提高了模型在HR-SID和SSDD舰船检测数据集上的检测精度，分别从87.1%和93.1%提高到89.9%和95.9%。然而，本文方法所需计算资源较多，在下一步工作中，将重点关注现有模型无法在卫星等资源受限场所应用的问题，围绕模型压缩与轻量化展开研究，进一步提升模型的实用性。

参考文献

Ao W, Xu F, Li Y C, Wang H P. 2018. Detection and discrimination of ship targets in complex background from spaceborne ALOS-2 SAR images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 11(2): 536-550 [DOI:10.1109/JSTARS.2017.2787573]

Bochkovskiy A, Wang C Y and Liao H Y M. 2020. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2021-04-23]. https://arxiv.org/pdf/2004.10934.pdf

Cai Z W and Vasconcelos N. 2018. Cascade R-CNN: delving into high quality object detection//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6154-6162 [DOI: 10.1109/CVPR.2018.00644]

Chen K, Wang J Q, Pang J M, Cao Y H, Xiong Y, Li X X, Sun S Y, Feng W S, Liu Z W, Xu J R, Zhang Z, Cheng D Z, Zhu C C, Cheng T H, Zhao Q J, Li B Y, Lu X, Zhu R, Wu Y, Dai J F, Wang J D, Shi J P, Ouyang W L, Loy C C and Lin D H. 2019. MMDetection: open MMLab detection toolbox and benchmark [EB/OL]. [2021-06-17]. https://arxiv.org/pdf/1906.07155v1.pdf

Chen L C, Zhu Y K, Papandreou G, Schroff F and Adam H. 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 833-851 [DOI: 10.1007/978-3-030-01234-2_49]

Dai H, Du L, Wang Y, Wang Z C. 2016. A modified CFAR algorithm based on object proposals for ship target detection in SAR images. IEEE Geoscience and Remote Sensing Letters, 13(12): 1925-1929 [DOI:10.1109/LGRS.2016.2618604]

Dai W X, Mao Y Q, Yuan R A, Liu Y J, Pu X M, Li C. 2020. A novel detector based on convolution neural networks for multiscale SAR ship detection in complex background. Sensors, 20(9): #2547 [DOI:10.3390/s20092547]

Gui Y C, Li X H, Xue L. 2019. A multilayer fusion light-head detector for SAR ship detection. Sensors, 19(5): #1124 [DOI:10.3390/s19051124]

He K M, Gkioxari G, Dollár P and Girshick R. 2017. Mask R-CNN//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2980-2988 [DOI: 10.1109/ICCV.2017.322]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]

Heiselberg P, Heiselberg H. 2017. Ship-iceberg discrimination in sentinel-2 multispectral imagery by supervised classification. Remote Sensing, 9(11): #1156 [DOI:10.3390/rs9111156]

Hu J, Shen L, Albanie S, Sun G, Wu E H. 2020. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8): 2011-2023 [DOI:10.1109/TPAMI.2019.2913372]

Huang Z J, Huang L C, Gong Y C, Huang C and Wang X G. 2019. Mask scoring R-CNN//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 6402-6411 [DOI: 10.1109/CVPR.2019.00657]

Li J W, Qu C W and Shao J Q. 2017. Ship detection in SAR images based on an improved faster R-CNN//Proceedings of 2017 SAR in Big Data Era: Models, Methods and Applications. Beijing, China: IEEE: 1-6 [DOI: 10.1109/BIGSARDATA.2017.8124934]

Lin T Y, Goyal P, Girshick R, He K M and Dollár P. 2017. Focal loss for dense object detection//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2999-3007 [DOI: 10.1109/ICCV.2017.324]

Lin Z, Ji K F, Leng X G, Kuang G Y. 2019. Squeeze and excitation rank faster R-CNN for ship detection in SAR images. IEEE Geoscience and Remote Sensing Letters, 16(5): 751-755 [DOI:10.1109/LGRS.2018.2882551]

Liu L, Gao Y S, Wang F, Liu X Z. 2019. Real-time optronic beamformer on receive in phased array radar. IEEE Geoscience and Remote Sensing Letters, 16(3): 387-391 [DOI:10.1109/LGRS.2018.2875461]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot Multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37 [DOI: 10.1007/978-3-319-46448-0_2]

Misra D, Nalamada T, Arasanipalai A U and Hou Q B. 2021. Rotate to attend: convolutional triplet attention module//Proceedings of 2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa, USA: IEEE: 3138-3147 [DOI: 10.1109/WACV48630.2021.00318]

Qiu H, Ma Y C, Li Z M, Liu S T and Sun J. 2020. BorderDet: border feature for dense object detection//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 549-564 [DOI: 10.1007/978-3-030-58452-8_32]

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Ruan C, Guo H, An J B. 2021. SAR inshore ship detection algorithm in complex background. Journal of Image and Graphics, 26(5): 1058-1066 (阮晨, 郭浩, 安居白. 2021. 复杂背景下SAR近岸舰船检测. 中国图象图形学报, 26(5): 1058-1066) [DOI:10.11834/jig.200266]

Wang F, Jiang M Q, Qian C, Yang S, Li C, Zhang H G, Wang X G and Tang X O. 2017. Residual attention network for image classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6450-6458 [DOI: 10.1109/CVPR.2017.683]

Wang Y Y, Wang C, Zhang H, Dong Y B, Wei S S. 2019. Automatic ship detection based on RetinaNet using multi-resolution gaofen-3 imagery. Remote Sensing, 11(5): #531 [DOI:10.3390/rs11050531]

Wei S J, Zeng X F, Qu Q Z, Wang M, Su H, Shi J. 2020. HRSID: a high-resolution SAR images dataset for ship detection and instance segmentation. IEEE Access, 8: 120234-120254 [DOI:10.1109/ACCESS.2020.3005861]

Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19 [DOI: 10.1007/978-3-030-01234-2_1]

Zhao J P, Guo W W, Zhang Z H, Yu W X. 2019. A coupled convolutional neural network for small and densely clustered ship detection in SAR images. Science China Information Sciences, 62(4): #42301 [DOI:10.1007/s11432-017-9405-6]

Zhao Y, Zhao L J, Xiong B L, Kuang G Y. 2020. Attention receptive pyramid network for ship detection in SAR images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13: 2738-2756 [DOI:10.1109/JSTARS.2020.2997081]

Zhu X Z, Hu H, Lin S and Dai J F. 2019. Deformable ConvNets V2: more deformable, better results//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 9300-9308 [DOI: 10.1109/CVPR.2019.00953]