发布时间: 2018-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180323
2018 | Volume 23 | Number 12

遥感图像处理

联合显著性特征与卷积神经网络的遥感影像舰船检测

余东行, 张保明, 郭海涛, 赵传, 徐俊峰

信息工程大学, 郑州 450001

收稿日期: 2018-05-18; 修回日期: 2018-07-16

基金项目: 国家自然科学基金项目（41601507）

第一作者简介: 余东行, 1993年生, 男, 硕士研究生, 主要研究方向为深度学习、遥感影像目标检测与识别。E-mail:dong_hang@aliyun.com;
张保明, 男, 教授, 主要研究方向为数字摄影测量和遥感影像处理。E-mail:zbm1961@163.com;
郭海涛, 男, 副教授, 主要研究方向为数字摄影测量和变化检测。E-mail:ghtgip2002@163.com;
赵传, 男, 博士研究生, 主要研究方向为深度学习与点云数据处理。E-mail:zc_mail163@163.com;
徐俊峰, 男, 博士研究生, 主要研究方向为遥感影像变化检测。E-mail:xjf4606@foxmail.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2018)12-1947-12

摘要

目的针对高分辨率遥感影像舰船检测受云雾、海浪以及海岛等复杂因素干扰，存在虚警率高、漏检率高、目标检测和识别困难等问题，提出一种联合视觉显著性特征与卷积神经网络的海面舰船目标检测方法。方法基于频率域相位谱显著性检测能够有效抑制高分辨率遥感影像上云层、海面杂波干扰的特点，计算影像多尺度显著图并进行加权融合。采用对数变换对融合后的图像进行空间域灰度增强以提高目标与背景的区分度，利用灰度形态学闭运算填充舰船目标孔洞，采用大津分割法来提取疑似舰船目标作为兴趣区域。最后构建舰船样本库，利用迁移学习的思想训练卷积神经网络模型，对所有兴趣区域切片进行分类判断和识别，得到最终检测结果。结果利用多幅不同背景下的高分辨率遥感影像，分别从视觉显著性检测、舰船粗检测与船只类型识别3个方面进行实验验证，选取检测率、虚警率、识别率3个指标进行定量评价。结果表明，本文方法相比于其他方法能有效排除云雾、海岛等多种因素的干扰，检测率、虚警率、识别率分别为93.63%、3.01%、90.09%，明显优于其他算法，能够实现大范围影像上多种类型舰船的快速准确检测和识别。结论本文将图像视觉显著性检测快速获取图像显著目标的特点与卷积神经网络在图像分类的优势相结合，应用于遥感影像的海域舰船目标检测，能够实现对复杂背景下舰船目标的检测和船只类型的精细化识别。

关键词

舰船检测; 遥感影像; 频率域显著性检测; 卷积神经网络; 迁移学习

Joint salient feature and convolutional neural network for ship detection in remote sensing images

Yu Donghang, Zhang Baoming, Guo Haitao, Zhao Chuan, Xu Junfeng

Information Engineering University, Zhengzhou 450001, China

Supported by: National Natural Science Foundation of China (417601507)

Abstract

Objective Ships and warships are important sea-based transportation carriers and military targets. Thus, detecting and recognizing these targets in high resolution remote sensing images are of substantial practical significance to. However, satellite imaging can be affected by weather, illumination, cloud, and atmosphere scattering. In addition, the targets in the image can be disturbed by sea clutters and other objects, which render the ship detection and recognition increasingly difficult. The majority of ship recognition algorithms typically adopt low-level features, such as shape, invariant moment, and histogram of gradient (HOG), which are simple but not robust to disturbances, such as waves, clouds, and islands. In general, handcraft features can only be used to distinguish ships from other interferences on the sea surface and have weak ability to differentiate various types of ship. In view of the above mentioned problems, this study proposes a new method that combines salient features and a convolutional neural network to recognize ships in remote sensing images. Method The proposed method consists of three parts, namely, image pre-processing, ship pre-detection, and ship recognition. First, the image can be enhanced by a homomorphic filter to improve the texture clarity and contrast in the pre-processing phase, which is helpful for the detection and recognition of the subsequent phase. In the ship detection stage, the saliency map of images can be calculated by phase spectrum of Fourier transform (PFT), which is a technique based on the analysis of the frequency domain. To take account of different resolutions, the multi-scale saliency maps are fused. The PFT method can effectively suppress the interference of cloud and sea wave, but the distinction between background and ship is barely notable. To solve this problem, logarithmic transformation is utilized to enhance the saliency map. Then, the gray morphological operation of close is adapted to eliminate the noise areas and fill holes, and the image segmentation algorithm of Otsu is used to extract all salient areas as areas of interest. In the stage of recognition, a deep convolutional neural network (CNN) can be well trained with a small number of ship samples based on the concept of transfer learning. All areas of interest can be finally classified and recognized by the CNN. Result To verify the effectiveness of the proposed algorithm, experiments were conducted on remote sensing images with varying backgrounds. The experiments were conducted in three aspects, namely, visual saliency detection, ship detection, and ship recognition. Three kinds of indicators, namely, detection, false alarm, and recognition rates were used to quantify experimental results. The qualitative results indicate that saliency detection based on PFT can effectively restrain the disturbance of sea surface and clutter, in which logarithmic transformation substantially improves the integrity of the ships' contour. Quantitative analysis shows that the three indexes of the proposed method are 93.63%, 3.01%, and 90.09%, respectively, which are extensively better than the compared algorithms. Conclusion Visual saliency detection is one of the commonly used and effective methods for ship detection. This paper combined the advantages of visual salient features and convolutional neural network for ship recognition in remote sensing images. The method can realize the rapid detection of ship targets with high accuracy of classification in complex backgrounds.

Key words

ship detection; remote sensing image; visual saliency detection on frequency domain; convolutional neural network; transfer learning

0 引言

随着光学遥感影像分辨率的提高，遥感影像上重点目标的检测和识别具有重要的研究价值和现实意义。舰船作为海上重要的运输载体和战时打击的重点军事目标，对其进行检测与识别在民用和军事领域均有广阔的应用前景^[1-2]。在民用方面，可以辅助救援遇难船只，打击走私和海盗等违法行为；在军事领域，可以用于监视重点海域的舰船部署动态从而形成海上作战情报以及武器精确制导等。但卫星成像过程会受到天气、光照、云雾、大气散射等多种因素的影响，同时影像中的舰船目标受到海面杂波、岛屿等其他物体干扰，快速准确地从复杂海洋背景中检测和识别舰船目标仍较为困难。

海洋背景下舰船目标检测的关键在于利用舰船与海洋背景在影像上的差异，从大区域影像中快速提取疑似舰船目标，然后根据舰船与其他干扰因素(云雾、海浪、小型海岛、陆地等)的特征进行判断，去除虚警，识别出真正的舰船^{[1, 3]}。目前海面舰船检测方法主要可分为4类^[1-2]：图像分割法^[4-5]、边缘检测法^[6]、分形模型^[7]以及视觉显著性检测法^[8-11]。图像分割主要是利用海洋背景与舰船的灰度统计特性对影像分割，提取疑似舰船目标区域，并结合其先验知识进行判断，计算简单，但无法有效消除云雾、海面杂波、陆地等因素的影响，易受噪声、光照干扰，只能对质量较好、背景简单的影像进行检测。边缘检测法利用船身在影像上具有明显的边缘特征，提取其边缘轮廓，根据其形状特点进行判断，能够在一定程度上抑制轻微云雾和海面杂波的影响，但舰船呈黑白极性以及船身灰度不均时，会导致船身断裂，不能提取到完整有效的船体轮廓，影响后续目标识别。分形模型主要利用人工物体与自然物体具有较大差异性的分形特征进行区分舰船与云雾、海面等干扰物体，但受噪声、影像分辨率影响较大，且计算复杂耗时。利用视觉显著性特征可以快速定位影像中舰船等小目标，对影像噪声具有较强的鲁棒性，因此基于显著性特征的方法是目前最常用且有效的方法，如文献[8]将显著性检测与自适应多尺度形态学顶帽算法相结合用于舰船目标检测，文献[9]通过融合影像显著图和超像素分割获取更精确的舰船边界，文献[10-11]在显著性检测的基础上利用梯度直方图等特征进行舰船判断和确认，这些方法虽然大大提高了舰船检测的精度，但要实现大范围区域、多尺度以及受云雾等复杂背景干扰下的舰船检测有很大挑战。舰船目标的识别通常采用形状、不变矩、梯度直方图等低层特征^{[1, 11]}，这些特征简单直观，但对海浪、云层、海岛等干扰因素鲁棒性不强，特征选取依赖于专业的人工设计，往往只能用来区分舰船目标与其他海面干扰因素，难以实现舰船类型的精细化识别。

针对上述问题，本文提出一种联合视觉显著性特征与卷积神经网络的海面舰船检测方法，利用卷积神经网络在特征提取与分类上的优势，结合显著性检测能够快速搜索海面疑似舰船目标的特点，对遥感影像上的海面舰船目标进行检测和精细化识别。

1 方法

本文方法包含舰船粗检测和舰船识别两个主要阶段(如图 1所示)。粗检测阶段，根据频率域显著性检测能够有效抑制大面积云雾等复杂海面背景干扰的特点，采用多分辨率显著图融合的方式，对得到的显著性检测结果再采用对数变换、形态学闭运算以及图像分割算法提取疑似舰船目标的兴趣区域，根据先验知识排除部分误检测区域。在舰船识别阶段，构建少量样本，利用迁移学习的思想训练卷积神经网络模型，并对所有兴趣区域进行分类判断，最终实现舰船目标的确认与舰船类型的识别。

图 1 本文算法流程

Fig. 1 Flow chart of proposed method

1.1 预处理

由于光照、云雾、阴影遮挡以及海面杂波等因素影响，所获取的遥感影像存在模糊、灰度不均以及噪声等情况，舰船目标与海面对比度较低，再加上船体自身材质所导致的船体灰度分布不均，容易造成后续检测过程船体断裂，出现虚警和漏检。预处理是为了减小或消除这些干扰因素的影响，提高影像清晰度和对比度，便于后续目标检测与识别。同态滤波法是一种基于图像频率域的增强方法，相对于常规空间域图像增强方法，往往能够取得更好的效果，因此本文采取同态滤波法对质量较差的影像进行预处理。图 2为不同海域背景下原始影像和经过预处理后的结果，可以看出，同态滤波能够有效提高存在朦胧、模糊以及轻微云雾、阴影等干扰下影像的纹理清晰度和对比度，有助于后续目标的检测和识别。

图 2 同态滤波进行灰度矫正

Fig. 2 Brightness correction by homomorphic filter

((a) original images; (b) images after brightness correction)

1.2 舰船粗检测

1.2.1 显著性检测

谱残差(SR)^[12-13]模型是一种基于图像频率域的显著性检测算法，该算法从信息论的角度出发，将图像所包含的信息分为显著性信息和冗余的背景信息，在频率域内除去图像全局范围内的背景信息，所保留显著性信息即对应空间域的显著性区域。图像所包含的信息可表示为

$ \mathit{\boldsymbol{I}} = {\mathit{\boldsymbol{I}}_1} + {\mathit{\boldsymbol{I}}_2} $

(1)

式中，$\mathit{\boldsymbol{I}}$表示图像所包含的全部信息，$\mathit{\boldsymbol{I}}_1$表示显著性信息，$\mathit{\boldsymbol{I}}_2$表示冗余的背景信息。对于海面区域的遥感影像而言，显著性信息表示为舰船、海岛等目标，而冗余的背景信息则为海水、云雾等区域，去除海水、云雾的干扰，即可获得显著性目标。

由于自然图像的频域统计规律具有不变特性且服从1/$f$法则，大量自然图像经过傅里叶变换得到频率的平均幅值与频率满足分布

$ E\left\{ {\mathit{\boldsymbol{A}}\left( f \right)} \right\} \propto 1/f $

(2)

给定一幅图像$\mathit{\boldsymbol{I}}(x, y)$，利用傅里叶变换将图像从空间域变换到频率域，其幅值和频率的对数分布呈近似直线形状，因此谱残差模型认为大量自然图像的log频谱同样符合统计规律并且具备某种相似的谱线形状，这种相似性则代表了图像中的一般性冗余性信息，除去这种相似性冗余信息即可得到图像显著性信息。图像的冗余信息$\mathit{\boldsymbol{\bar A}}\left( f \right)$是利用大量数据统计得到的，谱残差模型通过构建平滑滤波器 ${\mathit{\boldsymbol{h}}_n}\left( f \right)$来近似模拟$\mathit{\boldsymbol{\bar A}}\left( f \right)$，$\mathit{\boldsymbol{\bar A}}\left( f \right)$近似计算为

$ \mathit{\boldsymbol{\bar A}}\left( f \right) = {\mathit{\boldsymbol{h}}_n}\left( f \right) * \mathit{\boldsymbol{L}}\left( f \right) $

(3)

式中，*表示卷积，$\mathit{\boldsymbol{L}}\left( f \right) $为对图像频域中振幅取对数得到的log谱，${\mathit{\boldsymbol{h}}_n}\left( f \right)$为$n \times n$大小的平滑矩阵

$ {\mathit{\boldsymbol{h}}_n}\left( f \right) = \frac{1}{{n \times n}}{\left[ {\begin{array}{*{20}{c}} 1& \cdots &1\\ \vdots &{}& \vdots \\ 1& \cdots &1 \end{array}} \right]_{n \times n}} $

(4)

显著性检测的具体计算过程为

$ \mathit{\boldsymbol{P}}\left( f \right) = {\mathop{\rm Im}\nolimits} \left( {\mathit{\Gamma }\left( {\mathit{\boldsymbol{I}}\left( {x,y} \right)} \right)} \right) $

(5)

$ \mathit{\boldsymbol{A}}\left( f \right) = {\mathop{\rm Re}\nolimits} \left( {\mathit{\Gamma }\left( {\mathit{\boldsymbol{I}}\left( {x,y} \right)} \right)} \right) $

(6)

$ \mathit{\boldsymbol{L}}\left( f \right) = \log \left( {\mathit{\boldsymbol{A}}\left( f \right)} \right) $

(7)

$ \mathit{\boldsymbol{R}}\left( f \right) = \mathit{\boldsymbol{L}}\left( f \right) - {\mathit{\boldsymbol{h}}_n}\left( f \right) * \mathit{\boldsymbol{L}}\left( f \right) $

(8)

$ \mathit{\boldsymbol{S}}\left( x \right) = \mathit{\boldsymbol{G}}\left( x \right) * {\mathit{\Gamma }^{ - 1}}{\left[ {\exp \left( {\mathit{\boldsymbol{R}}\left( f \right) + \mathit{\boldsymbol{P}}\left( f \right)} \right)} \right]^2} $

(9)

式中，$\mathit{\boldsymbol{I}}(x, y)$为待检测影像，$\mathit{\Gamma }$为傅里叶变换，$\mathit{\Gamma }^{-1}$为傅里叶逆变换，$Re$表示对图像傅里叶变换结果取实部，Im表示对图像傅里叶变换结果取虚部，$\mathit{\boldsymbol{A}}\left( f \right)$为图像振幅谱，$\mathit{\boldsymbol{P}}\left( f \right)$为图像相位谱，$\mathit{\boldsymbol{G}}\left( x \right)$为用于显著性信息平滑处理所构建的高斯滤波器，$\mathit{\boldsymbol{R}}\left( f \right)$为图像残差，$\mathit{\boldsymbol{S}}\left( x \right)$为最终得到的显著图。文献[14]通过实验发现SR算法中，起决定性作用的是图像相位谱而非振幅谱，基于谱残差模型，提出相位谱(PFT)显著性检测方法，与SR相比，PFT算法计算复杂度更低，效率更高，其计算公式为

$ {S_{{\rm{PFT}}}}\left( x \right) = \mathit{\boldsymbol{G}}\left( x \right) * {\mathit{\Gamma }^{ - 1}}{\left[ {\exp \left( {\mathit{\boldsymbol{P}}\left( f \right)} \right)} \right]^2} $

(10)

由于图像视觉显著性特征具有尺度相关性，即图像中视觉显著性特征与图像分辨率及尺度密切相关，同一物体在不同尺度和范围下具有不同的显著性特征，在任何尺度下具有不变的显著性特征的物体是不存在的，不考虑尺度因素的显著性特征是没有意义的。常规自然图像中目标一般较大，显著性检测采用图像大小通常为64×64像素，这一大小符合人眼视觉感知机制，能够取得较好的检测效果^[12]。通过实验发现，高分辨率下的影像相位谱显著性检测具有抑制云雾干扰的特点，影像分辨率越高，云层抑制效果越好，但同时舰船连续性越弱。因此为了更好地检测出遥感影像上的海面显著目标，充分利用不同尺度下的显著性检测结果，本文采取多尺度显著特征融合的方式，对不同分辨率的显著图设置不同的权重：高分辨影像设置较大的权重，这样可以保证显著性检测结果的中心定位在舰船目标位置；低分辨率影像采用较小的权重，这样可以扩大船体周边的显著范围。对高分辨率影像采取一定降采样，设尺度空间$\mathit{\boldsymbol{R = }}\left\{ {{r_1}, {r_2}, \cdots, {r_k}} \right\}$，${\mathit{\boldsymbol{S}}^{{r_i}}}$表示在缩放尺度因子$r_i$下的谱相位显著性检测结果，多个尺度下显著性检测结果加权融合结果可表示为

$ \mathit{\boldsymbol{\bar S}} = \sum\limits_{i = 1}^k {\left( {{r_i}{\mathit{\boldsymbol{S}}^{{r_i}}}} \right)} /\sum\limits_{i = 1}^k {{r_i}} $

(11)

1.2.2 灰度增强

在较高分辨率以及大范围情况下，显著性检测能够很大程度上抑制影像上云雾等复杂背景的干扰，突出船体的显著性特征，但不可避免地弱化了舰船整体轮廓区域，船体可能出现断裂的情况，不利于后续目标的检测与识别。由影像显著图的直方图分布可知(如图 3所示)，显著图的灰度级范围较窄，绝大多数背景像素的灰度分布在[0, 30]，在图像上的直观显示为只有舰船的显著特征呈现高灰度分布，而大部分船体区域呈现中低灰度分布，这是船体检测出现断裂的主要原因。对数变换是一种常用于灰度扩展的图像增强方法，能够将图像中范围较窄的低灰度区间映射到范围较宽的高灰度区间，从而扩展图像中暗像素的值。采用对数变换能够在一定范围内提高船身灰度级，有助于船体提取的完整性，对数变换一般形式为

$ g\left( {x,y} \right) = a + \frac{{\ln \left[ {\mathit{\boldsymbol{I}}\left( {x,y} \right) + 1} \right]}}{{a\ln c}} $

(12)

图 3 显著图灰度直方图

Fig. 3 Histogram of saliency maps

式中，$a$、$c$均为常数。为减少参数变量对影像灰度级变换的影响，将对数变换形式写为

$ g\left( {x,y} \right) = \frac{{{{\log }_2}\left[ {\sigma \mathit{\boldsymbol{I}}\left( {x,y} \right) + 1} \right]}}{{{{\log }_2}\left[ {\sigma + 1} \right]}} $

(13)

式中，参数$\sigma $决定了灰度的扩展程度(如图 4所示)，实验发现，当$\sigma $∈[10, 50]时，能够有针对性地提高船体区域灰度，应对多种复杂背景下的舰船目标检测。图 5为遥感影像原始显著图及对数变化后的结果，从图上可以看出，原始显著图整体偏暗，舰船轮廓不明显，对显著图进行阈值化，舰船出现断裂；经过对数变换的显著图，提升了船体灰度值，增强了轮廓的连续性和完整性。

图 4 对数变换

Fig. 4 Figure of logarithmic transformation

图 5 对数变换效果对比

Fig. 5 Logarithmic transformation on saliency map

((a) saliency map by SR; (b) enhavenced by logarithmic transformation)

1.2.3 兴趣区域提取

由图 5(b)可知，经过对数变换的显著图能够有效区分舰船与海面背景，为了提取完整的舰船区域，对显著图进行后处理，并采用基于连通区标记的目标检测方法，其基本步骤如下：

1) 灰度形态学闭运算。对显著图进行闭运算处理能够有效填充舰船目标的细小孔洞，平滑噪声及轮廓边界。显著性检测极大地抑制了云雾和海面杂波的干扰，为了尽可能获取船体完整轮廓，在形态学闭运算中采取较大的结构元素$\mathit{\boldsymbol{S}}$(本文结构元素为大小10×10像素)对经过对数变换后的显著图$\mathit{\boldsymbol{I}}$进行闭运算处理

$ \mathit{\boldsymbol{I}} \odot \mathit{\boldsymbol{S = }}\left( {\mathit{\boldsymbol{I}} \oplus \mathit{\boldsymbol{S}}} \right) \odot \mathit{\boldsymbol{S}} $

(14)

式中，·表示闭运算，⊕为膨胀运算，⊙为腐蚀运算。

2) 显著图分割。经过以上步骤，显著图中背景与目标区分度较为明显，采用大津法进行分割，即可取得较好的分割效果

$ \mathit{\boldsymbol{I}}\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 0\\ 1 \end{array}&\begin{array}{l} \mathit{\boldsymbol{I}}\left( {x,y} \right) < T\\ \mathit{\boldsymbol{I}}\left( {x,y} \right) > T \end{array} \end{array}} \right. $

(15)

式中，$T$为采用大津法计算获得的图像分割阈值。

3) 兴趣区域选取。对阈值化的显著图进行八邻域连通区标记，分离所有独立目标区域，计算这些区域的外接矩形，获取其对应在原始影像上的位置。为了保证船体的完整性，分别计算每个兴趣区域的最大边长和质心，以其质心为中心，构建长宽均为最大边长的外接矩形，并在此区域基础上再扩大$m$个像素作为最终用于目标识别的兴趣区域(本文$m$取10)。

1.3 舰船识别

舰船目标的确认和识别采用卷积神经网络模型。卷积神经网络相比于人工设计的特征和分类方法具有巨大优势，但卷积神经网络模型复杂、参数多，训练需要大量标注数据，建立一个舰船样本数据库成本较高，解决这类问题的方法是采用迁移学习的思想，利用其他图像数据训练一个神经网络，并以训练好的模型为基础训练一个新的模型。目前应用广泛的图像迁移模型通常是利用ImageNet^[15]数据集进行训练，其所采用的图像大小一般为256×256像素。根据遥感影像上舰船目标尺寸较小、海域舰船目标与背景具有较大差异性的特点，采用较大网络模型不利于训练和目标的快速识别。同时要实现有效的模型迁移必须满足迁移目标之间具有相似性任务、迁移模型具有良好的特征提取能力，因此本文采用深度残差网络模型，输入图像大小为32×32像素，并利用CIFAR-10^[16]数据进行迁移训练，在较少训练数据下能够实现较高的分类精度。

1.3.1 卷积神经网络

卷积神经网络模型的层数极大地影响特征提取的性能，当网络层数达到一定程度时，训练过程更加复杂的同时，出现梯度消失、梯度爆炸以及梯度退化问题，网络模型的精度难以有较大提升。何凯明等人^[17]在深层卷积网络模型中引入残差学习机制(如图 6(a)所示)，在网络模型中增加跨层连接和恒等映射机制。$\mathit{\boldsymbol{X}}$为输入图像，$\mathit{\boldsymbol{F}} = {w_2}\varphi ({w_1}\mathit{\boldsymbol{X}})$表示经过两层卷积的输出，则每一个残差块的最终输出为$y = w\mathit{\boldsymbol{X}} + \mathit{\boldsymbol{F}}$，$\varphi $表示激活函数，$w$为非线性映射来保证输出的维度相同。残差网络模型在一定程度上有效地解决了当网络加深时训练复杂和梯度退化等问题，使得其网络模型性能明显优于其他方法，成为目前精度较好、应用广泛的卷积神经网络模型之一。本文采用的残差网络模型输入图像大小为32×32像素，包含19个卷积层和一个分类层，网络结构如图 6(b)所示。采用Softmax回归交叉熵损失函数

$ J\left( \theta \right) = - \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{c = 1}^C {\left[ \begin{array}{l} \delta \left( {{y_i} = c} \right) \cdot \\ \log P\left( {{y_i} = c\left| {{x_i}} \right.,\theta } \right) \end{array} \right]} } $

(16)

图 6 用于迁移学习的残差网络

Fig. 6 ResNet for transferring and classification

((a)residual block; (b)ResNet20)

式中，$N$为训练样本数量，$C$为类别数量，($x, y$)为训练样本及其对应类别，$\theta $为网络模型参数，$\sigma $为狄利克雷函数。

1.3.2 迁移训练

本文利用CIFAR-10数据集训练ResNet20模型，然后以训练好的参数作为初始化参数(如图 7所示)，进行微调(fine-tune)。CIFAR-10数据含有10个类别，每个类别6 000幅大小为32×32像素的彩色影像，数据量足够训练一个深层神经网络。针对舰船目标分类和识别问题，本文收集的样本中包含5个类别，包扩海洋背景、陆地背景、货船、运砂船、小船各100幅，利用70%的数据作为训练样本，30%用于测试样本，并通过旋转、平移等方式将训练样本中的每类图像扩充至原来的8倍。样本的选择最大程度考虑多种影像状况，如海洋背景样本包含纯净海面以及有云层遮挡的海面，货船样本包含独立货船和并列停靠的多艘货船，加入陆地背景以排除近岸陆地、细碎岛屿的干扰，图 8给出部分训练样本实例。对经过CIFAR-10训练过的模型以较低的学习率进行训练，训练参数设置如表 1所示。

图 7 迁移学习

Fig. 7 Transferring learning

图 8 数据样本

Fig. 8 Samples of our dataset ((a)sea surface; (b)land; (c)cargo ship; (d)sand carrier; (e)boat)

表 1 训练参数
Table 1 Parameters for training

下载CSV

数据集	迭代次数	批尺寸	学习率	权重衰减	动量
CIFAR-10	200	128	0.01	0.005	0.9
Ships	50	128	0.001	0.005	0.9

训练过程如图 9所示，利用CIFAR-10训练过的参数作为初始参数在船只样本数据集上进行训练，训练完成后，在训练数据集上的准确率稳定在98.36%，在测试数据集上的准确率稳定在96.13%，表明该卷积神经网络模型利用迁移学习的思想，可以取得较高的分类精度，能够有效区分各类舰船。

图 9 训练过程精度变化

Fig. 9 Accuracies and errors of training

2 实验结果与分析

为验证本文算法的有效性，分别从视觉显著性检测、舰船粗检测以及舰船类型识别3个方面进行实验验证。实验选取20幅不同状况的大范围海面背景的遥感影像，影像数据来源于Google Earth，每张影像大小均超过3 000×3 000像素，分辨率为1.2 m至2.4 m不等，舰船目标长度约在12~120像素之间，且存在大量云雾、稀疏海岛、部分陆地以及影像的灰度分布不均等情况。实验所采取的平台为Inter(R) Core(TM)i7-7700HQ, 2.81GHz处理器，16 GB内存，利用TensorFlow搭建卷积神经网络模型，采用GPU进行加速运算。

2.1 视觉显著性检测

通过实验对比遥感影像在不同尺度下的相位谱显著性检测及阈值化结果(图 10(a)为原始遥感影像及其阈值化结果，图 10(b)—(e)为不同分辨率影像的显著图及阈值化结果)，可以看出，对于大范围区域遥感影像舰船目标，尺寸较小且分布稀疏，采用小尺度低分辨率影像(64×48像素)进行显著性检测时，独立分散的舰船具有很好的显著性区域，能够有效抑制船身断裂现象，但显著性检测结果呈区域性分布，相邻近舰船目标出现融合混淆，无法定位单个目标的精确边界范围，同时影像中存在大区域云雾等因素干扰，造成后续检测的虚警和漏检。随着分辨率的提高，图像细节信息逐渐增强，舰船显著性区域逐渐缩小，云层干扰逐渐消失，舰船在显著图上呈点状分布，同一舰船目标往往呈现双显著特征(船头和船尾)，船身中部由于灰度不均导致提取出现断裂。根据不同尺度显著性检测的特点，本文采取3种尺度的影像，即$\mathit{\boldsymbol{R}}$={1.0, 0.85, 0.7}，图 11为多种复杂背景下原始影像及多尺度显著性检测融合结果的能量分布，显示本文所使用的显著性检测方法能够有效抑制复杂背景下云层等因素的干扰，增强了舰船在显著图上的轮廓特征。

图 10 不同尺度下的相位谱显著性检测结果

Fig. 10 Comparision of PFT at different scales

((a)1 024×768 pixels; (b)64×48 pixels; (c)128×96 pixels; (d)256×192 pixels; (e)1 024×768 pixels)

图 11 多种复杂背景下的影像能量分布

Fig. 11 Energy distribution of images and saliency maps((a)original images; (b) 2D energy distribution of original images; (c) 3D energy distribution of original images; (d) 2D energy distribution of saliency maps; (e) 3D energy distribution of saliency maps)

选取4组不同背景下的影像并利用不同频率域显著性检测方法与本文显著性检测结果进行对比，所有影像区域均采用512×512像素大小进行实验，部分实验结果如图 12所示。从图 12可以看出，FT^[18]算法效果较差，无法抑制云雾的影响，同时灰度不均的船体显著性特征微弱，难以适用于遥感影像的海域目标检测。SR和PQFT^[14]算法虽然对云雾的抗干扰性较强，能够突出不同海域状况下的舰船目标，但舰船边缘和轮廓信息不突出，船体同样断裂严重，不利于后续目标的提取和识别。本文采用的多尺度的谱相位显著性检测方法，融合了不同尺度下的显著性检测结果，采用对数变换有针对性地增强了影像舰船船体，在一定程度上提高舰船目标的轮廓完整度，有利于降低后续目标检测的漏检率和虚警率。

图 12 显著性检测结果对比

Fig. 12 Comparison of saliency maps using different methods((a)original images; (b)FT; (c)SR; (d)PQFT; (e)proposed)

2.2 舰船粗检测

在显著性检测的基础上，进行舰船目标粗检测：提取疑似舰船目标的兴趣区域，并对影像上所有兴趣区域首先采取无监督的方式排除一些较易判断的区域。在检测过程中将边长小于10个像素的区域视为噪声，将边长大于150个像素的区域作为孤立海岛、大范围云层和陆地区域。在无监督检测的基础上，如果不考虑舰船类型识别，只进行舰船目标的确认，可将舰船检测视为二分类问题，利用卷积神经网络对兴趣区域进行分类判断，排除背景(海面、海岛)，将保留的各类舰船视为一类。采用15幅不含陆地区域的海域影像进行测试，部分实验结果如图 13所示。

图 13 不同背景下的舰船检测结果

Fig. 13 Results of proposed method in different backgrounds

为量化实验结果，采用检测率(DR)和虚警率(FAR)作为评价指标，其分别定义为

$ {F_{{\rm{DR}}}} = \frac{{TP}}{{PN}} $

(17)

$ {F_{{\rm{FAR}}}} = \frac{{FP}}{{DN}} $

(18)

式中，$TP$为检测到完整舰船的个数，$PN$为影像中舰船实际数量，$FP$为检测到的虚假目标数，$DN$为影像中检测到总目标数。将实验结果与直接利用SR算法、PQFT算法以及基于PQFT的改进方法进行对比，实验结果如表 2所示。

表 2 舰船检测结果对比
Table 2 Results of ship detection with different methods

下载CSV

方法	$PN$	$DN$	$FP$	$TP$	DR/%	FAR/%
SR	503	627	319	308	61.23	50.88
PQFT	503	634	304	330	65.61	47.95
文献[8]	503	582	141	441	87.67	24.23
文献[10]	503	611	158	453	90.06	25.86
本文(无监督)	503	605	122	483	96.24	20.16
本文(CNN)	503	498	15	471	93.63	3.01
注：加粗数字表示本列最优结果，加横线数字表示本列次优值。

原始的SR和PQFT算法对影像进行显著性检测时，舰船船体断裂严重，灰度不均的船身往往被划分为多个显著性区域，虚警率和漏检率较高。文献[8]采用PQFT和多尺度顶帽算法能够抑制背景中轻微云层的干扰，但没有对检测到的目标进行识别和确认，无法排除虚警目标；文献[10]将FT算法与PQFT算法相结合改善了FT算法对目标区分性不强的问题，但目标识别采用的目标的梯度特征，同时依赖于GrabCut进行精细分割，其泛化性较差，检测效果弱于本文方法。相比同类方法，本文算法仅采用无监督的方式进行检测，具有较高的检测率，虽然也存在一定的虚警率，利用卷积神经网络进行识别则能够大大降低目标检测的虚警率，能够适用于多种复杂背景下的舰船检测。

2.3 舰船类型识别

舰船类型的识别是一个多分类问题，即利用卷积神经网络判断兴趣区域属于5类目标(小船、货船、运砂船、海面和陆地)中的具体类别。无监督检测共获取605个兴趣区域切片，其中小船24个、货船428个、运砂船31个、陆地背景48个以及海面背景74个，利用识别率($RR$)作为评价指标，定义

$ RR = \frac{{NT}}{{NP}} $

(19)

式中，$NP$为某类船只的总数，$NT$为该类船只能够被正确分类的数量。利用卷积神经网络进行分类时，各个类别的分类结果及平均识别率如表 3所示。

表 3 舰船分类结果对比
Table 3 Results of ship classification

下载CSV

方法	小船	货船	运砂船	海面	陆地	平均识别率/%
HOG+SVM	11	274	14	35	43	59.86
LeNet-5	17	382	22	39	58	78.14
本文方法	21	415	27	45	66	90.90
注：加粗数字表示最优识别率。

由表 3可以看出，采用传统HOG特征与SVM进行分类时，海面背景较为单一，其分类效果较好；而不同种类的船只不仅在其HOG特征上具有较大的相似性，同时舰船的多角度旋转增大了其识别的难度, 分类效果较差。LeNet-5是一个简单的浅层卷积神经网络, 其分类精度虽然高于HOG特征, 但对小目标的特征提取能力有限, 难以实现较高精度的分类。本文所采用的迁移学习训练的深层卷积神经网络, 在较少训练数据的情况下, 具有较高的分类精度, 能够满足遥感影像上的舰船检测与分类的应用要求。

本文利用小尺度深层卷积神经网络进行舰船目标的确认和分类, 借助GPU加速计算, 处理单个目标切片(32×32像素)用时约为0.005 s。在检测时间上, 以512×512像素大小的图像为例, 本文方法各个阶段用时如表 4所示, 每幅图像的舰船检测和识别平均用时为0.87 s, 而文献[10]采用基于PQFT的显著性检测速度较快, 但在兴趣区域提取过程采用GrabCut进行精细分割、Hough变换纠正舰船方向以及梯度特征进行确认, 大大增加了识别所用时间。

表 4 各个阶段用时
Table 4 Running times of each phase

下载CSV

/s
方法	显著性检测	兴趣区域提取	目标识别
本文	0.184	0.685	＜0.01
文献[10]	0.104	1.727	0.674

3 结论

针对大范围、复杂背景下的遥感影像舰船目标检测存在准确率低、虚警率高等问题, 本文提出了一种联合频率域视觉显著性特征与卷积神经网络的舰船目标检测方法。首先利用频率域谱相位显著性检测能够有效抑制高分辨率遥感影像上的云雾、海面杂波等因素的干扰, 采用自适应对数变换以及形态学闭运算对显著图进行增强, 提高舰船轮廓提取的完整度；然后采用迁移学习的思想, 少量数据即可训练一个深层卷积神经网路, 实现较高精度的舰船目标分类。从实验结果来看, 与多种算法相比较, 本文算法提高了显著性检测中船体的完整性和检测率, 有效克服了海面云雾、岛屿以及陆地的干扰, 有效降低了虚警率, 实现了复杂背景下的舰船高精度快速检测与精细化识别。但本文训练所采用的舰船样本的数量较少, 多样性也较为单一, 未来可搜集更多种类和数量的船只样本, 进一步提高本文算法的精度和效率。

参考文献

[1] Wang Y Q, Ma L, Tian Y. State-of-the-art of ship detection and recognition in optical remotely sensed imagery[J]. Acta Automatica Sinica, 2011, 37(9): 1029–1039. [王彦情, 马雷, 田原. 光学遥感图像舰船目标检测与识别综述[J]. 自动化学报, 2011, 37(9): 1029–1039. ] [DOI:10.3724/SP.J.1004.2011.01029]

[2] Tang M E, Lin T Q, Wen G J. Overview of ship detection methods in remote sensing image[J]. Application Research of Computers, 2011, 28(1): 29–36. [唐沐恩, 林挺强, 文贡坚. 遥感图像中舰船检测方法综述[J]. 计算机应用研究, 2011, 28(1): 29–36. ] [DOI:10.3969/j.issn.1001-3695.2011.01.007]

[3] Zhou J, Tian J W. Method of detecting small target in port-sea background[J]. Infrared and Laser Engineering, 2005, 34(4): 486–489. [周静, 田金文. 基于海岸线背景的海面小目标检测方法[J]. 红外与激光工程, 2005, 34(4): 486–489. ] [DOI:10.3969/j.issn.1007-2276.2005.04.026]

[4] Sun Y J, Lei W H, Hu Y H, et al. Ship target detection method based on multi-source remote sensing satellite[J]. Laser & Infrared, 2018, 48(2): 267–272. [孙越娇, 雷武虎, 胡以华, 等. 基于多源遥感卫星的海面舰船目标检测方法[J]. 激光与红外, 2018, 48(2): 267–272. ] [DOI:10.3969/j.issn.1001-5078.2018.02.023]

[5] Wang B Y, Zhang R, Yuan Y, et al. A new multi-level threshold segmentation method for ship targets detection in optical remote sensing images[J]. Journal of University of Science and Technology of China, 2011, 41(4): 293–298. [王保云, 张荣, 袁圆, 等. 可见光遥感图像中舰船目标检测的多阶阈值分割方法[J]. 中国科学技术大学学报, 2011, 41(4): 293–298. ] [DOI:10.3969/j.issn.0253-2778.2011.04.002]

[6] Wang F C, Zhang M, Gong L M, et al. Fast detection algorithm for ships under the background of ocean[J]. Laser & Infrared, 2016, 46(5): 602–606. [王方超, 张旻, 宫丽美, 等. 海洋背景下的海面舰船快速检测算法[J]. 激光与红外, 2016, 46(5): 602–606. ] [DOI:10.3969/j.issn.1001-5078.2016.05.018]

[7] Zhang X D, He S H, Yang S Q. Ship targets detection method based on multi-scale fractal feature[J]. Laser & Infrared, 2009, 39(3): 315–318. [张东晓, 何四华, 杨绍清. 一种多尺度分形的舰船目标检测方法[J]. 激光与红外, 2009, 39(3): 315–318. ] [DOI:10.3969/j.issn.1001-5078.2009.03.023]

[8] Ding P, Zhang Y, Jia P, et al. Ship detection on sea surface based on multi-feature and multi-scale visual attention[J]. Optics and Precision Engineering, 2017, 25(9): 2461–2468. [丁鹏, 张叶, 贾平, 等. 基于多尺度多特征视觉显著性的海面舰船检测[J]. 光学精密工程, 2017, 25(9): 2461–2468. ] [DOI:10.3788/ope.20172509.2461]

[9] Cheng H, Liu S T, Sun W B, et al. Fine rapid detection of ship targets in remote sensing images[J]. Opto-Electronic Engineering, 2016, 43(4): 25–32. [程红, 刘思彤, 孙文邦, 等. 遥感图像中舰船目标的快速精细检测[J]. 光电工程, 2016, 43(4): 25–32. ] [DOI:10.3969/j.issn.1003-501X.2016.04.005]

[10] Xu F, Liu J H, Zeng D D, et al. Detection and identification of unsupervised ships and warships on sea surface based on visual saliency[J]. Optics and Precision Engineering, 2017, 25(5): 1300–1311. [徐芳, 刘晶红, 曾冬冬, 等. 基于视觉显著性的无监督海面舰船检测与识别[J]. 光学精密工程, 2017, 25(5): 1300–1311. ] [DOI:10.3788/OPE.20172505.1300]

[11] Wang H L. Research on detection of typical man-made objects in high resolution optical remote sensing images[D]. Changchun: Changchun Institute of Optics, Fine Mehcanics and Physics, Chinese Academy of Sciences, 2017. [王慧利.高分辨率光学遥感图像中典型人造目标检测技术研究[D].长春: 中国科学院长春光学精密机械与物理研究所, 2017.]

[12] Hou X D, Zhang L Q. Saliency detection: a spectral residual approach[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE, 2007: 1-8.[DOI: 10.1109/CVPR.2007.383267]

[13] Chen H Y, Xu S, Liu K, et al. Surface defect detection of steel strip based on spectral residual visual saliency[J]. Optics and Precision Engineering, 2016, 24(10): 2572–2580. [陈海永, 徐森, 刘坤, 等. 基于谱残差视觉显著性的带钢表面缺陷检测[J]. 光学精密工程, 2016, 24(10): 2572–2580. ] [DOI:10.3788/OPE.20162410.2572]

[14] Guo C L, Ma Q, Zhang L M. Spatio-temporal Saliency detection using phase spectrum of quaternion Fourier transform[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587715]

[15] Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255.[DOI: 10.1109/CVPR.2009.5206848]

[16] Krizhevsky A. Learning multiple layers of features from tiny images[R]. Toronto: Science Department, University of Toronto, 2009.

[17] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.[DOI: 10.1109/CVPR.2016.90]

[18] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 1597-1604.[DOI: 10.1109/CVPR.2009.5206596]