发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190138
2020 | Volume 25 | Number 3

图像理解和计算机视觉

近岸海浪视频浪高自动检测

宋巍¹, 周旭¹, 毕凡^2,3, 郭东琳^2,3, 高松^2,3, 贺琪¹, 白志鹏⁴

1. 上海海洋大学信息学院, 上海 201306;

2. 国家海洋局北海预报中心, 青岛 266061;

3. 山东省海洋生态环境与防灾减灾重点实验室, 青岛 266061;

4. 中国人民解放军61741部队

收稿日期: 2019-04-22; 修回日期: 2019-09-14; 预印本日期: 2019-09-21

基金项目: 国家重点研发计划项目（2016YFC1401902）；上海市科委部分地方院校能力建设项目（17050501900）；中国-东盟海上合作基金（000160007）

第一作者简介: 宋巍, 1977年生, 女, 教授, 主要研究方向为计算机视觉、图像/视频处理、海洋大数据分析。E-mail:wsong@shou.edu.cn;
周旭, 男, 硕士研究生, 主要研究方向为机器学习、图像/视频处理, 目标识别。E-mail:m170500817@st.shou.edu.cn;
毕凡, 女, 高级工程师, 主要研究方向为海洋环境预报、海洋数值模型开发与应用。E-mail:bifan@ncs.mnr.gov.cn;
郭东琳, 女, 工程师, 主要研究方向为海洋环境预报。E-mail:guodonglin@ncs.mnr.gov.cn;
高松, 男, 高级工程师, 主要研究方向为海洋环境预报、机器学习。E-mail:gaosong@ncs.mnr.gov.cn;
白志鹏, 男, 工程师, 主要研究方向为海洋环境预报、大数据处理。E-mail:captainbai@hotmail.com.

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2020)03-0507-13

摘要

目的目前基于视觉信息的海浪要素检测方法分为基于立体视觉和基于视频/图像特征的检测方法，前者对浪高的解析不稳定、模型复杂、鲁棒性较差、不能很好地满足实际应用的需求，后者主要检测海浪的运动方向和浪高等级，无法获取精确的浪高值，其中基于图像特征的检测受限于先验知识，检测稳定性较差。为此，本文结合深度学习的特征学习机制，提出了一种面向近岸海浪视频的浪高自动检测方法。方法从近岸海浪监控视频中提取视频帧图像，计算相邻两帧差分获取差分图像，通过数据预处理对静态图像集和差分图像集进行数据扩充；针对两类图像集分别设计多层局部感知卷积神经网络NIN（network in network）结构并预训练网络模型；分别用预训练的网络模型提取静态图像和差分图像的高层特征来表达空间和时间维度的信息，并融合两类特征；通过预训练支持向量回归SVR（support vactor regerssion）模型完成浪高的自动检测。结果实验结果表明，本文近岸海浪视频浪高检测方法在浪高检测上的平均绝对误差为0.109 5 m，平均相对误差为7.39%；从不同绝对误差范围内的测试集精度上可以看出，基于时间和空间信息融合的回归模型精度变化更加平稳，基于空间信息的NIN模型的精度变化幅度较大，因此本文方法有较好的检测稳定性。结论通过预训练卷积神经网络提取近岸视频图像时间和空间信息融合的方式，有效弥补了人工设计特征的不完备性，对近岸视频的浪高检测具有较强的鲁棒性，在业务化检测需求范围内（浪高平均相对误差≤ 20%）有着较好的实用性。

关键词

浪高检测; 近岸海浪视频; 深度学习; 多层局部感知卷积神经网络; 特征提取

Automatic wave height detection from nearshore wave videos

Song Wei¹, Zhou Xu¹, Bi Fan^2,3, Guo Donglin^2,3, Gao Song^2,3, He Qi¹, Bai Zhipeng⁴

1. College of Information, Shanghai Ocean University, Shanghai 201306, China;

2. North China Sea Marine Forecasting Center of State Oceanic Administration, Qingdao 266061, China;

3. Shandong Provincial Key Laboratory of Marine Ecological Environment and Disaster Prevention and Mitigation, Qingdao 266061, China;

4. 61741 PLA Troops, China

Supported by: National Key Research and Development Program of China (2016YFC1401902)

Abstract

Objective Nearshore waves are significantly affected by seabed topography, shore, and environmental flows, following complex evolutionary laws with faster temporal and spatial transformations than open sea waves. Therefore, measuring nearshore wave height is significant for nearshore engineering design, shallow sea production operations, and nearshore environmental protection. The traditional wave height measure mainly relies on wave buoy monitoring. Compared with the traditional manner, nearshore video surveillance has advantages in uninterrupted data acquisition and abundant visual expression of waves. However, automatic wave height detection of nearshore waves through videos is insufficient at present. Existing methods of wave height detection based on visual information can be divided into two categories:1) Wave parameter detection based on stereo vision. Most models are complex, lacking robustness, and characterized by unstable detection of wave height; thus, they cannot satisfy the practical application. 2) Wave parameter detection based on image/video extracted features, including statistical features, transform domain features, and texture features. This type of method is mainly used to detect the direction of wave and wave height, which necessitates design features in advance, and is thereby limited by prior knowledge. In recent years, deep learning has achieved considerable success in image identification, nature language processing, and object recognition. Combined with the feature learning mechanism of deep learning, an automatic wave height detection method for nearshore wave video is proposed in this paper. Method The proposed method mainly involves data preprocessing, model design and feature fusion, and regression prediction. First, the video frames are extracted from the nearshore surveillance video at intervals, and the two adjacent frames are subtracted to form a set of differential frames. The dataset of original video frames contains static spatial information of waves and the dataset of differential images contains motion information of waves. To avoid the influence of reefs and buildings on wave feature extraction, we intercepted the wave area in the video by eliminating near-zero parts in the differential image. To enhance the generalization ability and robustness of the model, we used the data augment method to rotate and stretch the image to increase the number and diversity of datasets. Second, a network in networks (NIN)-based system for wave height detection was constructed. The high-level spatial and temporal features are learned by two independent NINs using static and differential images of the waves as input. The 4-layer structure of NIN is used for the spatial feature learning, while the 2-layer structure is used for the temporal feature learning. The two types of features are fused by simple concatenation because pixel-wise fusion may bring mutual interference and information loss. Finally, the fused features are fed into a support vector regression (SVR) model that maps features into 1D space and performs regression to achieve automatic detection of wave height of nearshore video images. Result Our wave videos were collected from a marine station in China Sea from November 2015 to November 2016. The shooting time ranged from 7 a.m. to 4 p.m. To explore the performance of the different network models and the effect of the sample size of dataset on the wave height detection results, we conducted two sets of experiments. Experiment 1:We compared our NIN-based wave height detection model with a classic 2-layer convolutional neural network and a more advanced dense convolutional network (DenseNet). Based on the root-mean-square-error (RMSE) between predicted wave heights and the ground truth as the assessment index, the comparison results show that NIN-based network model can achieve more accurate wave height prediction with RMSE of 0.188 4. Experiment 2:To select the appropriate network input size, the wave height detection models with different sample sizes were trained and their performance was compared on test datasets under different tolerant ranges of absolute error from 0.2-0.4. The result shows that the input sample size of 32×32 pixels has the highest accuracy under the condition of absolute error < 0.2 and has a relatively stable change as the change of absolute error ranges. In consideration of the integrity of image feature information expression and noise interference, the experimental data used in this study was set to the uniform size of 32×32 pixels. Experiment 3:The roles of temporal and spatial feature fusions were examined. The high-level spatial features were learned from static video frames and the temporal features from the difference image between two adjacent frames. Compared with only using spatial features, fusing spatial features with temporal features achieved a significant increase in wave detection accuracy under various tolerance ranges of absolute error, and the detected wave height is less fluctuating. The average absolute error of the method in the detection of wave height is 0.109 5 m, and the average relative error is 7.39%. According to the wave height levels, the wave height detected by our proposed method can satisfy the absolute error range of±0.1 m below the wave level 2. The average relative error of the wave height above level 2 is less than 20%, which satisfies the demand for operational use of wave forecasting. Conclusion The method can be used to automatically obtain wave height value from nearshore wave videos, which effectively compensates for the incompleteness of artificial design features. Moreover, our method has better practicality within the scope of operational detection requirements; thus, it has an average relative error of wave height ≤ 20%. Our method can meet the requirements for accuracy and efficiency in significant wave height detection, and provides a new platform to use nearshore videos for wave monitoring.

Key words

wave height detection; nearshore wave video; deep learning; network in network architecture; feature extraction

0 引言

海浪是海洋中常见的物理现象，对海浪开展监测研究具有重要的科研意义和实用价值。海浪在向近岸传播的过程中，受海底地形、岸界和环境流(近岸流和潮流)的作用显著，具有比深海和开阔陆架海域更复杂的演变规律和更快速的时空变换，目前的研究和认识还不成熟。近岸海浪是近岸海洋环境中重要的动力因素之一，威胁着近岸建筑物的安全与稳定，引起海岸泥沙运动、海岸变迁和近岸水体交换。近岸海浪的计算对近岸工程设计、浅海生产作业、近岸环境保护等方面具有十分重要的意义(López-Ruiz等，2016；Kirby，2017)。

对海浪的研究主要包括对海浪要素以及各要素之间关系的研究，海浪要素包括波长、周期、波速、波龄、平均波高、有效波高、波陡等，目前对近岸海浪要素检测主要是以浮标观测为主，人工观测为辅，近年来积极推进了雷达观测。浮标是对“点”观测，对于港湾复杂地形的准确海浪测量需要高密度部署，且运行和维护成本高；人工观测是通过有经验的预报员目测的方式估计海浪信息，对人员要求高，预测频率和精度也难以保障。地波雷达能实现大面积、长时间自动测量，但雷达测量设备昂贵，微波脉冲及回波传播受电离层、平流层、海气界面影响，资料质量随时空变化干扰明显，且测量精度取决于对信号的反演。将岸基监控视频用于海浪要素测量具有非接触、低成本、时空连续的优点，能够有效弥补浮标和雷达测量技术对方向谱观测的不足。

现阶段，国内外利用视觉数据对海浪要素的检测已有一些研究，其方法主要分为两类。一类是基于摄影测量的方法。Piepmeie和Waters(2004)通过一种立体视觉方法分析视频图像，并在戴维森实验室测试了水波参数，所得的浪高数据与测波计的数据基本相同，但是对于部分存在较大噪点的视频图像，实验得出的数据与实际测波计的数据相差较大。Spencer等人(2006)在摄像机未标定情况下用傅里叶变换探索水波的色散关系来确定真实场景的大小，使用暂态频谱和已知海洋频谱的随机模型来确定海况，可以检测出海浪要素特性，但不同环境海域的海洋频谱不一样，需要单独建立，鲁棒性较差，不能很好地满足实际应用。MacHutchon和Liu(2007)利用3目立体视觉系统，测量3维波特征的时间演变，分析记录3维表面波位移随时间的变化，能较好地检测海浪传播方向，但是对浪高的解析精度较低。Gallego等人(2013)提出视差方法和图形法，用于估计10~100 m范围的较大空间尺度上的海洋表面位移。Shi等人(2018)提出一种基于双目立体视觉估计波浪高度和周期的方法，根据双目视觉从基准面提取波浪垂直高度和波浪周期。总体而言，基于摄影测量的方法计算复杂度和成本都较高。另一类是基于图像/视频特征的检测方法，包括统计特征、变换域特征、纹理特征等。Mironov和Dulov(2008)提出一种利用视频数据进行风浪破碎检测的方法。该方法基于所研究现象的物理先决条件和统计特性，提供了一种评估和分析白冠(即波浪破碎产生的白色波浪)统计数据的方法，包括它们的速度矢量。张锁平(2010)提出一种基于海面图像形态分水岭变换的波向特征检测算法，并分析了波面形态方向与海浪方向谱间的关系，同时针对海浪破碎自动检测中的过分割问题，提出一种基于极限学习EM(extreme learning)算法的白冠检测方法。尽管白冠是近岸浪的重要特点，但不能表达海浪的浪高。李刚等人(2013)提出了一种基于图像纹理特征的波浪检测方法，利用灰度共生矩阵，计算4个独立特征量，根据分析结果确定特征量权值并计算不同波浪等级的阈值，按得到的阈值来检测波浪等级，该方法能较好地检测出波浪的等级，模型简单，计算效率较高，但无法做到海浪高度值的精细化检测。Sakaino(2016)提出一种基于摄像机视觉的水位高度估算方法，与现有的多帧图像和基于传感器的估算方法相比，该方法使用单帧图像，在效率、鲁棒性和准确性方面效果显著。Korinenko等人(2018)通过分析视频信号亮度的分布函数，找到一种确定亮度变化的阈值算法，并应用于视频记录中，可以很好地识别破碎波浪的运动变化。

此外，还有结合遥感图像的海浪要素提取方法。周圆等人(2014)提出一种基于TerraSAR-X遥感图像的海浪要素提取方法，基于海面风场反演的地球物理模型和海浪的参数化初猜谱反演模式来获取海浪要素信息，并使用TerraSAR-X图像进行实例验证，有效波高的绝对误差为0.8 m，平均周期的绝对误差为1.9 s。从结果来看，这种方法模型简单，应用性较强，但有效波高的绝对误差对低等级浪高值的偏差较大，且基于SAR图像的特征检测是针对大范围的海浪区域，不适用于近岸海浪的要素检测。

上述方法是在海浪要素检测上取得的研究成果，但对近岸海浪浪高的高精度检测研究尚不成熟，研究可归纳为两种类型：1)基于立体视觉的海浪要素分析。大部分基于视频图像，通过立体视觉系统进行海浪要素检测，浪高解析精度较高，但模型复杂，对不同环境海域的要素检测需要重新设置模型参数，鲁棒性较差，计算效率较低，不能很好地满足实际应用。2)基于图像/视频的海浪要素检测。主要是检测海浪的运动方向和浪高等级，无法做到浪高值的高精度获取，波向检测的模型算法复杂度较高，计算效率较低；基于图像特征的海浪等级阈值模型，人工设计特征的不完备性导致浪高等级检测的不稳定，且无法做到浪高值的精细化检测。

深度学习通过不断地特征抽取形成更加抽象的高层特征，从而发现数据的分布式特征表示(孙志军等，2012)。在面向海浪要素检测的近岸视频分析中，由于海浪运动的复杂性，数据低层特征无法精确表达海浪要素，而深度学习因为其通过映射方式简单获取深度层次特征的学习方式，可以获取精确用于表达海浪要素的高层特征。郑宗生等人(2017)利用卷积神经网络CNN(convolutional neural network)进行了3个浪高等级的分类，但分类精度仅65%左右，而且该方法只能用于区分浪高的等级，不能进行浪高值检测，无法满足当前海浪预报对浪高检测精度的要求。

近几年随着卷积神经网络的飞速发展，在图像分类、自然语言处理等领域取得了显著成果，本文提出一种面向近岸海浪视频的浪高自动化检测方法。通过从近岸监控视频中按帧截取视频图像，构建包含静态信息的海浪静态图像数据集和动态信息的差分图像数据集，分别设计并预训练两类数据集的卷积神经网络模型，利用训练好的模型分别提取静态图像和差分图像的时间维度和空间维度的高层特征信息，通过特征映射得到融合后的特征向量，最后采用回归训练的方式实现近岸视频图像的浪高自动检测。

1 方法

1.1 方法流程设计

本文方法流程图如图 1所示，包括数据预处理、模型设计及特征融合、回归训练3个阶段。首先，从近岸监控视频中按照固定时间帧数提取视频图像(Li等，2017)，同时将相邻时间的两帧相减，分别组成包含海浪静态信息的数据集和包含运动信息的差分图像数据集，为了避免礁石和建筑物对特征提取产生影响，截取视频中海浪区域，同时考虑到数据集数量和数据多样性对深度学习训练过程的影响，通过尺度变换、旋转拉伸等数据预处理方式，增加数据集的数量，提高数据的多样性；其次，对两类数据集分别设计卷积神经网络模型并进行训练；然后分别输入海浪静态图像和差分图像至预训练卷积神经网络中，分别提取对应的高层空间特征信息和高层时间特征信息，并按通道串行融合；最后将融合后的特征映射到1维空间形成一个特征向量，通过回归训练对融合后的特征向量进行训练，实现近岸视频图像的浪高自动检测。

图 1 方法流程图

Fig. 1 Flow chart of our method

1.2 数据预处理

与传统的海浪监测相比，近岸视频的优势是海浪图像数据庞大，且简单易获取，构建用于训练网络模型的数据集具有较大优势。考虑到数据集的数量和多样性对深度学习网络模型在图像识别和目标检测方面的重要影响，本文在实验前通过对近岸监控视频和数据进行预处理以扩充数据集，具体过程如图 2所示。

图 2 数据集制作过程

Fig. 2 Production process of data set

首先，将近岸监控视频针对视频时长按照固定时间$t$提取连续视频帧图像集$ \boldsymbol{I}_{nt}$($n=1, 2, 3, …$)，表征海浪空间静态特性。众所周知，运动目标动态特性的获取依赖于连续的时间变化序列。基于时间序列提取目标动态特征的算法模型有很多。LSTM (long short-term memory)是一种时间循环神经网络，可以有效提取时间序列中间隔和延迟较长的时间特征信息，但是计算复杂性高，特征信息冗余，对视频海浪浪高检测无法保证实时性。连续帧间差分法的算法简单，计算量小，对海浪视频短时间的光线变化不敏感。近岸监控拍摄视频场景固定，在合适时间间隔内相邻帧差不会重叠而形成空洞，相对稳定。综合考虑，本文选择连续差分的形式获取差分图像，表征海浪运动的动态特性。为了避免视频中礁石和建筑物等对海浪特征提取的影响，截取视频图像中仅包含运动海浪的区域，将截取后的海浪图像按照连续的时间帧两两差分，获取差分后包含海浪运动信息的差分图像$ \boldsymbol{S}_{t}$，表征海浪运动时间变化特征信息，具体为

$ \boldsymbol{S}_{t}= |\boldsymbol{I}_{(n+1)t}- \boldsymbol{I}_{nt}| \;\;\; n=1, 2, 3, \cdots $

(1)

式中，$ \boldsymbol{I}_{nt}$表示$nt$时刻的图像。

其次，考虑到不同海浪视频截取区域的数据尺寸不统一，对提取的海浪数据集进行尺度变换。通常数据集的数量级和模型的复杂度如果无法形成一个匹配的关系会导致训练过程出现过拟合情况，同时为了增强模型的泛化能力和鲁棒性，本文使用数据扩充方法(data augmentation)(Han等，2018)对数据图像进行旋转、拉伸，增加数据集的数量，同时丰富数据的多样性。

1.3 模型设计和特征融合

深度学习在目标识别、分类、检测等方面具有突出表现，其中卷积神经网络(CNN)在图像和自然语言等领域成果显著。卷积神经网络属于有监督学习机制(Rawat和Wang，2017)，是一种具有深度结构的前馈神经网络，其中卷积核的参数由监督信号(如类别标签)通过反馈机制不断学习获得更新，在图像检测等领域有很强的应用。卷积神经网络最早由LeCun等人(1989)提出，随着深度学习的不断发展，改进的卷积神经网络模型越来越多。从Krizhevsky等人(2012)提出AlexNet网络开始，深度卷积网络进入了快速发展时期，各种改进的网络被不断提出。Lin等人(2014)提出一种新的卷积神经网络结构NIN(network in network)，在传统卷积层的基础上，增加多层局部感知层，以获取更加抽象的局部特征信息。He等人(2016)提出一种残差学习网络，用跨层连接拟合残差项的方式解决深层网络难以训练的问题，在增加深度层次的同时，使复杂度更低；Huang等人(2017)提出一种密集卷积网络(DenseNet)，与残差网络相邻层之间的连接相比，DenseNet以前馈的方式将每一层连接到所有其他层，在不增加网络宽度的同时融合多层特征信息。本文实验选取不同结构的3个典型网络模型：传统的CNN网络模型、NIN和DenseNet进行比较分析，选择最适合的模型。

通过分析近岸海浪静态图像和差分图像包含的海浪信息的差别，分别构建海浪静态图像和差分图像的NIN网络模型，并分别训练；考虑到不同等级的静态海浪图像和差分图像对应的特征表现存在一定的差异性，可以很好地区分不同标签下的海浪浪高信息，将预训练的两类图像集对应的网络模型分别提取高层特征，以获取空间和时间维度上的特征信息，将融合后的特征映射到1维空间进行回归模型的训练，同时构建针对数据集特点的传统卷积神经网络(CNN)模型和密集卷积网络(DenseNet)模型。通过对比分析，NIN网络模型在近岸视频海浪图像特征提取上具有明显的优势。

1.3.1 卷积神经网络(CNN)

卷积神经网络是一种具有反馈机制的多层监督学习神经网络，主要分为3个模块：卷积层、池化层和全连接层。

卷积层由若干个卷积滤波器组成，滤波器的参数通过反向传播算法优化调整，卷积运算的目的是为了提取输入图像的特征表达，通过卷积运算可以使原始信号的某些特征得到增强，并且降低噪声的特征表现。以2维图像为例，卷积运算过程可以表示为

$ \begin{array}{c} \boldsymbol{z}(x, y)= \boldsymbol{I}(x, y)* \boldsymbol{f}(x, y)=\\ m \sum\limits_n \boldsymbol{I}(x-m, y-n) \boldsymbol{f}(m, n) \end{array} $

(2)

式中，$ \boldsymbol{z}$代表卷积运算后的图像，$ \boldsymbol{I}$代表输入的2维图像，$ \boldsymbol{f}$代表卷积核，$m$、$n$代表卷积核的尺寸。卷积运算后通过激活函数激活，以加快网络训练的速度，降低计算复杂度，本文使用Leaky-Relu函数。传统的Relu函数在输入$x_{i}$≤ 0时，输出值均为0，导致部分输入落入硬饱和区，对应权重无法更新，出现“神经元死亡”，而Leaky-Relu通过在$x_{i}$≤ 0时，添加一个可调参数避免这种现象，具体为

$ y_{i}=\left\{ \begin{align} &x_{i} \qquad x_{i}≥0 \\ &\frac{{x_{i}}}{{a_{i}}} \qquad x_{i}<0 \end{align} \right. $

(3)

式中，$a_{i}$是(1, +$∞$)区间内的固定参数。

池化层也称为下采样层，减小数据处理量的同时保留有用信息。池化操作能够减小卷积得到的特征图的尺寸而不改变特征图的通道数，从而达到减小网络计算量的目的。常见的有平均池化和最大池化。全连接层是将通过卷积和池化得到的高维特征映射到低维空间中，用来表示各个类别的特征表达。

获取图像特征信息后，需要根据不同的任务要求建立分类或回归模型。在图像分类任务中，全连接层后会加入softmax等函数，以输出每个类别的分类概率，本文使用回归模型输出海浪高度值。

实验中，CNN初始框架设置为两个卷积层，卷积核大小都为5×5，卷积核个数分别是20和50，卷积步长为1；每个卷积层后面包含1个最大池化层，池化层窗口为2×2，步长为2；最后是3个全连接层，第1个全连接层输出神经元个数为500，第2个全连接层输出神经元个数为20，第3个全连接层为单个神经元，输出海浪高度值；为了增强网络的泛化能力并减小过拟合问题，每层卷积后加入batch normalization层对数据做批量归一化处理，并在全连接层后添加dropout层，随机比例为0.5。

1.3.2 多层局部感知神经网络(NIN)

NIN网络模型是在卷积神经网络的基础上增加微网络(多层感知机)的结构，图 3是NIN与传统的卷积单元结构的比较。NIN的整体结构由多个多层感知卷积层(Mlpconv)和若干全连接层组成，其中每个Mlpconv由多层感知机的微网络结构对每个局部感受野的卷积运算，由一层卷积和两层感知层组成，其中感知层通过1×1卷积实现，最后利用全连接层实现低维空间特征表达。Mlpconv层执行的计算为

图 3 线性卷积层和多层感知卷积层比较

Fig. 3 Comparison between linear convolution layer and multilayer perceptual convolution layer

((a) linear convolution layer; (b) multilayer perceptual convolution layer)

$ \begin{array}{c} f^{1}_{{i, j, k_{1}}}={\rm max} (\boldsymbol{\omega }^{1}_{{k_{1}}} \;^{\rm T}x_{i, j}+b_{{k_{1}}}, 0) \\ \vdots \\ f^{n}_{i, j, k_{n}}={\rm max}(\boldsymbol{\omega }^{n}_{k_{n}} \;^{\rm T}f^{n-1}_{i, j}+b_{k_{n}}, 0) \end{array} $

(4)

式中，$i, j$表示特征图中的像素索引，$x_{i, j}$是位置为$(i, j)$的输入像素值，$k$用于索引特征图的通道，$n$表示多层感知器的层数，$\omega $表示卷积核参数，$b$表示偏置。

与传统的CNN网络相比，NIN网络的优势在于在每个局部感知域中能更好地获取局部特征。其中每个卷积层后的1×1卷积不仅能够实现特征图通道数的降维和升维，而且能够实现通道间的交互和信息整合。

实验中，NIN初始框架设置为4个Mlpconv层和1个全连接层；每一个Mlpconv包含1个3×3卷积层和2个1×1卷积层；3×3卷积核的步长、填充都为1，卷积核个数分别为16、32、64、128；1×1卷积核的步长为1，前3层的卷积核个数分别为16、32、64，第4层卷积核个数为128和20；每个Mlpconv层之间通过池化层连接，池化窗口2×2，步长为2；最后一层通过全局平局池化降维处理，池化层窗口为4×4，步长为1。最后全连接层将2维的feature map通过设置20×1的全连接参数和线性回归的方法，输出连续变量的海浪浪高检测值。

为了增强网络的泛化能力并减小过拟合问题，每层卷积之后加入BN(batch normalization)层对数据做批量归一化处理，并在全连接层增加dropout层，随机比例为0.5。

1.3.3 密集卷积神经网络(DenseNet)

残差学习网络(ResNet)每一层的输出来源于上一层的输入和输出的叠加，网络包括$l$层，$l$层的输出为

$ x_{l}=H_{l}(x_{l-1})+x_{l-1} $

(5)

式中，$H_{l}(·)$为每层函数变换。

密集卷积神经网络(DenseNet)改变层之间信息流的传递方式，提出一种不同的连接模式：从任何层到所有后续层的直接连接，$l$层接收所有先前层的特征图，具体为

$ x_{l}=H_{l}([x_{0}, x_{1}, x_{2}, …, x_{l-1}]) $

(6)

DenseNet的整体结构由多个密集连接块(dense block)组成，每个dense block之间通过转换层(transition layer)连接，如图 4所示。其中每个dense block包含若干个瓶颈层(bottleneck layer)，每个bottleneck layer由1个1×1卷积和1个3×3卷积组成，通过在3×3卷积之前引入1×1卷积，以减少输入特征图的数量，从而提高计算效率；每个transition layer由1个1×1卷积和1个2×2池化组成，最后利用全连接层实现特征的低维映射。与传统的CNN和NIN网络相比，DenseNet的优势在于加强了特征传播，每一层都可以访问其块中前面所有的特征映射，并且可以直接访问损失函数和原始输入信号的梯度，有效增强了特征学习能力。

图 4 DenseNet结构图

Fig. 4 Basic structure of DenseNet

实验中，DenseNet设置为1个dense block、1个transition layer和1个全连接层，dense block包含3个bottleneck layer，每个bottleneck layer通过1×1和3×3卷积层实现，卷积核个数分别为96和24。transition layer卷积核个数为24。全连接由5×5卷积层和输出为1的神经单元组成，卷积核个数为24，采用回归训练的方法，输出连续变量的海浪浪高检测值。网络中每个卷积层都表示BN-ReLU-conv-dropout的组合，dropout随机比例为0.5；dense block中，每个层的输入都采用前面所有层的输出，按通道串行融合的方式。

1.3.4 特征融合

受天气变化、岸界流等环境因素的影响，近岸海浪浪高呈现不断变化的趋势，海浪等级跨度较大。然而，不同等级的海浪监控视频图像在特征表现上存在明显差异，基于卷积神经网络得到的图像特征对等级跨度较大的海浪浪高检测可能存在特征表达上的不足，以至于网络模型对部分等级海浪浪高检测表现较差。因此，本文使用预训练的网络模型分别提取海浪静态图像和差分图像的高层特征，并按通道融合，融合后的特征图包含空间特征信息和时间特征信息，适合不同等级海浪浪高的特征表达和浪高检测的稳定性。

分别构建适合海浪静态图像和差分图像的NIN网络模型，预训练后分别提取对应的高层特征，传统的特征图按像素相加融合可能会丢失特征信息，因此，本文按通道将提取的特征串行融合。

1.4 回归预测

融合后的特征图包含空间和时间维度的特征信息，需要通过回归模型进行预测，得到海浪视频图像的浪高值。最简单的线性回归模型计算速度快且变量系数可以体现影响程度，但对异常值很敏感，因此本文实验使用$ε$-SVR(support vector regression)模型进行回归训练。

$ε$-SVR在保留了支持向量机SVM (support vector machine)所有优点的情况下，通过引入$ε$不敏感损失函数实现数据回归，具有较强的鲁棒性，表示为

$ \begin{array}{c} \left\{ \begin{align} & y_{i}-w·x_{i}-b≤ε+ξ_{i}\\ & w·x_{i}+b-y_{i}≤ε+ξ^{*}_{i} \end{align} \right. \end{array} \qquad \qquad i=1, 2, …, n $

(7)

式中，$y(x)=w·x+b$作为线性回归函数，$ \boldsymbol{D}={(x_{i}, y_{i})}, i=1, 2, …, n, x_{i}∈ {\bf{R}}^{d}, y_{i}∈\bf{R}$作为估计训练样本集。为了提高模型的泛化能力并减小误差，引入松弛变量$ξ_{i}$≥0和$ξ^{*}_{i}$≥0。其中模型的目标优化函数表示为

$ {\rm min} \left\{ {\frac{{1}}{{2}} \left\| { w^{2}} \right\|+C \sum\limits^n_{i=1}(ξ_{i}+ξ^{*}_{i}) } \right\} $

(8)

式中，常数$C>0$表示对超出误差$ε$的样本的惩罚程度。训练中常见的核函数有线性核函数(linear kernel function)、多项式核函数(polynomial kernel function)、高斯核函数(gaussian kernel function)、径向基核函数(radial basis function)等，本文实验中选取目前机器学习中使用最多且性能较好的径向基核函数。

2 实验结果分析

整个近岸海浪视频浪高检测实验主要分为4部分：1)海浪静态数据集和差分数据集的准备，包括视频区域裁剪、尺度变化、图像差分、数据扩充、浪高标签制作；2)分别设计CNN、NIN和DenseNet的网络参数并进行预训练，比较3种模型在浪高检测上的性能；3)使用预训练的卷积神经网络模型分别提取静态图像和差分图像的高层特征，将获取的特征融合，训练SVR模型；4)从各个浪高标签对应数据集的模型检测平均值、方差、平均绝对误差和平均相对误差等指标评估本文提出方法的浪高检测性能。

2.1 数据集构建

实验中近岸监控视频来源于黄海中部沿岸小麦岛海洋站2015年11月至2016年11月期间的部分监控视频，拍摄的时间段为上午7点至下午4点，共计67个视频文件，每个视频时长1 h。

近岸海浪视频具有连续变化的动态性，相邻两帧的时间间隔决定了差分图像所包含海浪运动信息的长短期特征。为了获取海浪一定时间内的长时间变化特征，按照1 min的时间间隔对每个视频截取连续视频帧图像；为了避免礁石和建筑物的影响，裁剪视频图像仅包含运动海浪区域获取海浪静态图像，对海浪静态图像相邻时间的两帧通过两帧差分的方法获取差分图像数据集，分别通过尺度变换、旋转拉伸的方式将两类数据集扩充至40 000幅，按照8 :2划分数据集，训练集32 000幅图像，测试集8 000幅图像。为了探究网络模型的合适输入尺寸，制作不同分辨率/像素的数据集。在神经网络预训练阶段，使用了不同尺寸的数据集，其他阶段的尺寸均为32×32像素。海浪静态图像的数据集分配及浪高标签数据如表 1所示。

表 1 海浪静态图像数据集详情
Table 1 Details of the wave static image data set

下载CSV

数据集	分辨率/像素	样本数量		浪高标签/m
数据集	分辨率/像素	训练集	测试集	浪高标签/m
1	16×16	32 000	8 000	0.3，0.4，0.5，0.7，0.8，0.9，1.0，1.1，1.2，1.4，1.5，1.6，1.7，1.8，1.9，2.0，2.1，2.2，2.4，2.5
2	32×32
3	64×64
4	96×96

2.2 神经网络预训练

2.2.1 网络性能比较

使用海浪静态图像数据集分别训练CNN、NIN和DenseNet网络模型，在测试集上进行结果比较，对3种网络在特征提取上的性能进行评估对比。使用均方根误差RMSE(root mean square error)表示数据集预测结果与真值之间的平均绝对误差，均方根误差越接近0，网络性能越好，输出的浪高越接近标签值；$TH$表示浪高检测值与标准值之间的绝对误差(单位：m)，各模型的精度如表 2所示，计算为预测结果不超过绝对误差的样本数占总样本数的比值。

表 2 不同$TH$值的CNN、NIN和DenseNet测试精度比较
Table 2 Accuracy comparison of CNN, NIN and DenseNeton test set with different $TH$ values

下载CSV

$TH$/m	测试集精度/%
$TH$/m	CNN	NIN	DenseNet
0.2	65.16	76.03	63.54
0.25	71.64	83.33	73.75
0.3	81.15	88.85	80.72
0.35	84.08	93.54	86.46
0.4	86.01	96.30	89.99
RMSE	0.241 3	0.188 4	0.279 2

从表 2的实验对比结果可知，不同绝对误差下的NIN网络测试结果明显优于CNN和DenseNet，且RMSE更小，浪高检测平均值更接近于标准值；由此可以看出，在不同浪高检测误差要求内，NIN网络的检测准确率更高。

由于同一等级浪高的特征表现也会存在一定的差异，为了说明网络浪高检测的稳定性，在满足业务化需求的20%相对误差内，对各浪高值的训练集和测试集精度进行对比，结果如表 3所示。其中，相对误差计算为检测值与标准值的差占标准值的比例，精度计算为预测结果不超过相对误差的样本数占总样本数的比例。

表 3 不同浪高下的CNN、NIN和DenseNet精度比较
Table 3 Accuracy comparison of CNN, NIN and DenseNet with different wave heights

下载CSV

实际浪高/m	CNN精度/%		NIN精度/%		DenseNet精度/%
实际浪高/m	训练集	测试集	训练集	测试集	训练集	测试集
0.7	99.63	96.75	100.00	100.00	28.25	33.00
0.8	100.00	100.00	97.69	94.50	69.31	81.75
0.9	99.94	100.00	99.88	97.00	80.5	95.25
1.0	97.38	97.00	89.88	99.50	81.38	97.25
1.1	98.25	68.75	83.06	85.75	68.06	32.50
1.2	97.63	96.50	94.81	98.50	67.94	78.50
1.4	95.88	65.50	89.88	95.75	68.81	85.75
1.5	92.19	80.00	84.00	89.00	67.56	32.75
1.6	97.75	84.00	91.75	80.75	61.56	57.00
1.7	99.5	99.25	96.63	88.00	76.52	72.00
1.8	99.06	99.25	95.25	98.25	72.75	91.25
1.9	99.50	100.00	98.13	100.00	94.50	99.50
2.0	100.00	94.75	95.75	99.25	94.88	100.00
2.1	98.44	100.00	96.13	99.50	95.00	90.25
2.2	100.00	100.00	97.81	99.50	97.81	99.50
2.4	98.69	99.00	99.31	97.25	96.00	99.50
2.5	99.94	86.25	99.81	88.75	100.00	92.25

从表 3的实验结果对比可知，同一个浪高标签下NIN网络的训练集和测试集精度相近，CNN模型对部分浪高标签存在过拟合的情况，DensNet在有些浪高的训练和测试上精度较差。由此可以看出，NIN网络模型在浪高检测上具有更强的稳定性，泛化能力更强。

综合上述比较分析发现，NIN在CNN基础上增加多层感知器，可以提取更加复杂的海浪视频图像特征，浪高特征信息的表达能力更强；DenseNet比NIN具有更强的特征重用能力，加强了不同层次的特征传播，但视频中海浪变化比较单一，不存在复杂背景的变化，且对浪高的检测在业务化需求范围内需要保证实时性，因此本文实验中构建适合海浪静态图像和差分图像的NIN网络结构，并训练网络模型。

2.2.2 训练数据样本尺寸比较

深度学习模型的数据集样本尺寸是影响模型训练结果的重要因素，在本实验中，分别使用16×16像素，32×32像素，64×64像素，96×96像素大小的数据集进行NIN网络训练，通过比较不同尺寸训练集的不同绝对误差下的测试集精度，选取网络适合的输入尺寸，结果如图 5所示。

图 5 不同数据集尺寸的结果比较

Fig. 5 Comparison of different dataset sizes

从图 5可以看出，当样本尺寸分别为32×32像素，64×64像素，96×96像素时，相同绝对误差下的测试集精度呈降低趋势；绝对误差为0.2和0.25时，32×32像素的测试集精度大于16×16像素的测试集精度。通过分析发现，当训练尺寸变大时，图像特征中的噪声也相应增大，图像尺寸变小时，噪声可以得到很好抑制，但会丢失大量有用的特征信息。考虑到图像特征信息表达的完整性和噪声的干扰，本文实验数据统一尺寸为32×32像素。

2.3 基于时空特征信息融合的浪高检测

卷积神经网络随着网络深度的增加，卷积得到的特征图更加抽象，特征表达能力更强。通过预训练的NIN网络模型分别提取海浪静态图像和差分图像的空间和时间维度高层特征信息，将融合后的特征图通过特征映射的方式展开成1维向量，预训练SVR模型，线性回归输出浪高值。在不同绝对误差下，将基于海浪静态图像的空间特征信息检测和基于时空融合特征信息检测的测试集精度进行比较，结果如图 6所示。

图 6 不同$TH$值空间特征信息和时空融合特征信息的测试集精度比较

Fig. 6 Comparison of spatial feature and time feature fusion with different $TH$ value

从图 6的实验结果可知，基于海浪图像时间和空间维度高层特征信息融合的SVR线性回归浪高检测，在各个误差范围内的精度都高于NIN网络提取静态图像空间特征信息的浪高检测精度，其中，在不同绝对误差下，特征信息融合的测试集精度变化趋势更加平稳，这说明浪高检测的稳定性更好，浪高检测范围波动更小。

2.4 浪高检测结果分析

依据国际海况等级划分表，本文实验的浪高标签分在3个等级区间，即2级的0.1~0.5 m、3级的0.5~1.25 m和4级的1.25~1.5 m。在分析海浪浪高检测性能时，将数据集浪高标签分为两大类：0.3~0.4 m(2级及2级以下)和0.5~2.5 m(2级以上)。2级海浪的海面状况表现为小浪，在绝对误差$±$0.1 m的误差范围内，海浪等级不会发生变化(平均相对误差不作为2级以下海浪的评价标准)；对于2级以上海浪以满足业务化需求的20%相对误差为评价标准。结果如表 4所示。

表 4 各个浪高标签的测试集评价指标结果
Table 4 Test set evaluation results of different wave height values

下载CSV

实际浪高/m	平均值/m	方差	平均绝对误差/m	平均相对误差/%
0.3	0.394 5	0.000 5	0.094 5	—
0.4	0.397 1	0.011 9	0.084 7	—
0.5	0.491 1	0.001 3	0.030 4	6.08
0.7	0.755 0	0.007 6	0.068 5	9.78
0.8	0.830 6	0.002 3	0.041 8	5.22
0.9	0.899 3	0.003 3	0.042 4	4.71
1.0	1.026 8	0.002 8	0.044 2	4.42
1.1	1.264 2	0.010 0	0.164 9	14.99
1.2	1.222 7	0.006 4	0.064 9	5.41
1.4	1.211 1	0.005 3	0.190 9	13.63
1.5	1.401 3	0.024 9	0.118 9	7.93
1.6	1.666 6	0.032 1	0.128 5	8.03
1.7	1.762 7	0.012 3	0.101 8	5.99
1.8	1.745 1	0.018 0	0.118 6	6.59
1.9	1.850 5	0.009 1	0.085 1	4.48
2.0	1.814 5	0.017 1	0.196 7	9.83
2.1	2.066 4	0.004 5	0.055 8	2.66
2.2	2.257 7	0.013 2	0.104 9	4.77
2.4	2.194 6	0.019 5	0.207 0	8.62
2.5	2.258 4	0.036 2	0.245 9	9.84
平均值	—	0.011 9	0.109 5	7.39

从表 4可以看出，对于0.3 m和0.4 m的海浪，浪高检测的平均值均满足$±$0.1 m的绝对误差范围，2级以上海浪的浪高检测平均相对误差都小于20%，满足海浪预报业务化检测的需求；各个浪高标签的方差平均值较小，说明整体的浪高检测值波动范围较稳定。

3 结论

近岸海浪连续且实时变化，导致海浪浪高值变化范围跨度较大。对此，本文提出了一种从近岸海浪视频中自动检测浪高的方法。基于深度学习模型自动提取不同数据集的空间维度和时间维度上的高层特征信息表达并融合时空特征，融合后的特征通过支持向量回归模型自动输出浪高值。

基于深度学习的特征提取不必提前设计特征类型，避免了人为设计特征的不完备性，对不同的近岸海浪视频具有较强的鲁棒性和迁移能力。实验结果表明，本文方法在浪高检测上稳定性高，能够满足海浪业务化检测需求，有着较好的实用性。

但是，近岸视频具有拍摄范围广泛的特点，视频图像可分为近岸点和远岸点，不同深度的海浪区域的浪高变化趋势不同。因此，本研究的下一步重点是研究不同岸线的浪高变化趋势以及存在的关系，建立联合岸线的浪高预测模型。

参考文献

Gallego G, Yezzi A, Fedele F and Benetazzo A. 2013. Two variational stereo methods for space-time measurements of ocean waves//Proceedings of the 32nd ASME International Conference on Ocean, Offshore and Arctic Engineering. Nantes, France: American Society of Mechanical Engineers: 1-10[DOI:10.1115/OMAE2013-10553]

Han D M, Liu Q G, Fan W G. 2018. A new image classification method using CNN transfer learning and web data augmentation. Expert Systems with Applications, 95: 43-56 [DOI:10.1016/j.eswa.2017.11.028]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 770-778[DOI:10.1109/CVPR.2016.90]

Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 4700-4708[DOI:10.1109/CVPR.2017.243]

Kirby J T. 2017. Recent advances in nearshore wave, circulation, and sediment transport modeling. Journal of Marine Research, 75(3): 263-300 [DOI:10.1357/002224017821836824]

Korinenko A E, Malinovsky V V, Kudryavtsev V N. 2018. Experimental research of statistical characteristics of wind wave breaking. Physical Oceanography, 25(6): 489-500 [DOI:10.22449/1573-160X-2018-6-489-500]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc: 1097-1105[DOI:10.1145/3065386]

LeCun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W, Jackel L D. 1989. Backpropagationapplied to handwritten zip code recognition. Neural Computation, 1(4): 541-551 [DOI:10.1162/neco.1989.1.4.541]

Li G, Xiong Y Z, Liu K K, Wang J H. 2013. Water wave detection based on texture characteristics. Application Research of Computers, 30(4): 1226-1229 (李刚, 熊亚洲, 刘康克, 王建华. 2013. 一种基于图像纹理特征的波浪检测方法. 计算机应用研究, 30(4): 1226-1229) [DOI:10.3969/j.issn.1001-3695.2013.04.072]

Li K, Li S, Oh S, Fu Y. 2017. Videography-based unconstrained video analysis. IEEE Transactions on Image Processing, 26(5): 2261-2273 [DOI:10.1109/TIP.2017.2678800]

Lin M, Chen Q and Yan S C. 2014. Network in Network.[EB/OL] [2019-03-22].https://arxiv.org/pdf/1312.440003.pdf

López-Ruiz A, Bergillos R J, Ortega-Sánchez M. 2016. The importance of wave climate forecasting on the decision-making process for nearshore wave energy exploitation. Applied Energy, 182: 191-203 [DOI:10.1016/j.apenergy.2016.08.088]

MacHutchon K R and Liu P C. 2007. Measurement and analysis of ocean wave fields in four dimensions//Proceedings of the 26th International Conference on Offshore Mechanics and Arctic Engineering. San Diego, California, USA: ASME: 1-5[DOI:10.1115/OMAE2007-29732]

Mironov A S, Dulov V A. 2008. Detection of wavebreaking using sea surface video records. Measurement Science and Technology, 19(1): 015405 [DOI:10.1088/0957-0233/19/1/015405]

Piepmeier J A and Waters J. 2004. Analysis of stereo vision-based measurements of laboratory water waves//Proceedings of 2004 IEEE International Geoscience and Remote Sensing Symposium.Anchorage, AK, USA: IEEE: 3588-3591[DOI:10.1109/IGARSS.2004.1370487]

Rawat W, Wang Z H. 2017. Deep convolutional neural networks for image classification:a comprehensive review. Neural Computation, 29(9): 2352-2449 [DOI:10.1162/neco_a_00990]

Sakaino H. 2016. Camera-vision-based water level estimation. IEEE Sensors Journal, 16(21): 7564-7565 [DOI:10.1109/JSEN.2016.2603524]

Shi L, Yang L, Zhu H H, Cui X, Yu Y and Chu S B. 2018. Measurements of wave characteristics based on binocular vision and zero-crossing method//Proceedings of the 3rd IEEE Advanced Information Technology, Electronic and Automation Control Conference (IAEAC). Chongqing, China: IEEE: 613-616[DOI:10.1109/IAEAC.2018.8577678]

Spencer L, Shah M, Guha R K. 2006. Determining scale and sea state from water video. IEEE Transactions on Image Processing, 15(6): 1525-1535 [DOI:10.1109/TIP.2006.871102]

Sun Z J, Xue L, Xu Y M, Wang Z. 2012. Overview of deep learning. Application Research of Computers, 29(8): 2806-2810 (孙志军, 薛磊, 许阳明, 王正. 2012. 深度学习研究综述. 计算机应用研究, 29(8): 2806-2810) [DOI:10.3969/j.issn.1001-3695.2012.08.002]

Zhang S P. 2010. Wave and Nearshore Dynamics Information Acquisition from Video Image. Tianjin: Tianjin University (张锁平. 2010. 视频图像中波浪和近岸信息获取技术研究. 天津: 天津大学)

Zheng Z S, Hao J B, Huang D M, Zou G L. 2017. Nearshore wave grade video monitoring based on deep learning. Marine Environmental Science, 36(6): 934-940 (郑宗生, 郝剑波, 黄冬梅, 邹国良. 2017. 基于深度学习的近岸海浪等级视频监测. 海洋环境科学, 36(6): 934-940) [DOI:10.13634/j.cnki.mes.2017.06.022]

Zhou Y, Shao W Z, Deng Y B. 2014. Research of the wave parameters extraction method in Beibu Gulf by TerraSAR-X images. Guangxi Sciences, 21(4): 338-344 (周圆, 邵伟增, 邓一兵. 2014. 基于TerraSAR-X图像的北部湾海浪要素提取方法研究. 广西科学, 21(4): 338-344) [DOI:10.3969/j.issn.1005-9164.2014.04.004]