发布时间: 2017-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170079
2017 | Volume 22 | Number 12

图像分析和识别

自适应增强卷积神经网络图像识别

刘万军, 梁雪剑, 曲海成

辽宁工程技术大学软件学院, 葫芦岛 125105

收稿日期: 2017-03-20; 修回日期: 2017-08-17

基金项目: 国家自然科学基金项目（61172144）；辽宁省教育厅科学技术研究一般项目（L2015216）

第一作者简介: 刘万军(1959-), 男, 教授, 博士生导师, 1991年于阜新矿业学院获电力传动及其自动化专业工学硕士学位, 主要研究方向为数字图像处理、运动目标检测与跟踪。E-mail:liuwanjun@lntu.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)12-1723-14

摘要

目的为了进一步提高卷积神经网络的收敛性能和识别精度，增强泛化能力，提出一种自适应增强卷积神经网络图像识别算法。方法构建自适应增强模型，分析卷积神经网络分类识别过程中误差产生的原因和误差反馈模式，针对分类误差进行有目的地训练，实现分类特征基于迭代次数和识别结果的自适应增强以及卷积神经网络权值的优化调整。自适应增强卷积神经网络与多种算法在收敛速度和识别精度等性能上进行对比，并在多种数据集上检测自适应卷积神经网络的泛化能力。结果通过对比实验可知，自适应增强卷积神经网络算法可以在很大程度上优化收敛效果，提高收敛速度和识别精度，收敛时在手写数字数据集上的误识率可降低20.93%，在手写字母和高光谱图像数据集上的误识率可降低11.82%和15.12%；与不同卷积神经网络优化算法对比，误识率比动态自适应池化算法和双重优化算法最多可降低58.29%和43.50%；基于不同梯度算法的优化，误识率最多可降低33.11%；与不同的图像识别算法对比，识别率也有较大程度提高。结论实验结果表明，自适应增强卷积神经网络算法可以实现分类特征的自适应增强，对收敛性能和识别精度有较大的提高，对多种数据集有较强的泛化能力。这种自适应增强模型可以进一步推广到其他与卷积神经网络相关的深度学习算法中。

关键词

深度学习; 卷积神经网络; 图像处理; 分类识别; 特征提取; 特征自适应增强

Adaptively enhanced convolutional neural network algorithm for image recognition

Liu Wanjun, Liang Xuejian, Qu Haicheng

College of Software, Liaoning Technical University, Huludao 125105, China

Supported by: National Natural Science Foundation of China (61172144); The General Project of Scientific Research of The Education Department of Liaoning Province Under Grants(L2015216)

Abstract

Objective Deep learning has been widely used in computer vision and possesses increased number of network layers, which is its major difference from shallow learning. Deep learning can learn data through multi-level networks, construct a complex nonlinear function model to extract data features, combine low-level features into high-level features, and complete the classification and recognition of data. Deep learning can extract accurate features and avoid the subjectivity and randomness of artificial selection without human participation in the process of feature extraction. Convolutional neural network (CNN) is an important model of deep learning and is widely used in image classification and recognition tasks. Improving the convergence speed and recognition rate can promote the application development of CNN. CNN possesses strong robustness because of its convolution and pooling operation during the feature extraction phase. It also exhibits powerful capability of learning owing to its multiple layers and rich parameters. Many researchers have improved the CNN for its application in different fields. In this study, an adaptively enhanced CNN algorithm is proposed to improve the convergence speed and recognition accuracy of the CNN, reduce the difficulty of training, optimize the convergence effect, and enhance the generalization capability. Method CNN mainly includes forward and back propagations for classifying and recognizing images. Forward propagation includes feature extraction and target classification, and back propagation includes feedback of classification error and updating of weights. The proposed algorithm is aimed at adding an error adaptively enhanced process between forth and back propagations, building the adaptively enhanced model, constructing the CNN on the basis of the adaptively enhanced model, analyzing the causes of error classification and error feedback pattern during the process of CNN classification and recognition, and training the classification error purposefully. The two largest values in the classification results are extracted as features, and their corresponding errors are enhanced whereas other error values remain unchanged. The classification features and weights of the CNN can be enhanced adaptively with iterations, and the results of classification can accelerate the convergence of the CNN and improve the recognition rate. The optimization degree of adaptively enhanced model for convergence speed, recognition accuracy, and convergence effect as well as generalization capability of the CNN are compared with those of other algorithms. The performance of adaptively enhanced CNN in terms of generalization capability is validated on various datasets. Notably, computing each algorithm is time consuming. Result The experiments are carried out on datasets of handwritten digital numbers, handwritten characters, and hyperspectral images, and the results of different image recognition and optimization algorithms based on CNN on these datasets are compared. The contrast experimental results show that the adaptively enhanced CNN algorithm can improve the convergence speed and recognition rate in a large extent and can optimize the convergence effect and generalization capability. The error rate of recognition can be reduced by 20.93% on handwritten digital numbers, 11.82% on handwritten characters, and 15.12% on hyper spectral images when it converges. The adaptively enhanced CNN presents no increase in time cost. The proposed algorithm also possesses better recognition effect than that of other CNN optimization algorithms. For example, the error rate of recognition can be reduced by 58.29% and 43.50% at most compared with the rates obtained by dynamic adaptive pooling algorithm and dual optimization algorithm. The proposed algorithm can improve the effect of different gradient optimization algorithms by reducing the error rate of recognition by 33.11% at most. This algorithm also presents different improvements in recognition rate compared with other image recognition algorithms. Conclusion The adaptively enhanced CNN can enhance the classification feature adaptively. Improvements in convergence speed, recognition rate, and optimization of convergence effect are demonstrated. The CNN can be improved effectively by the adaptively enhanced model without increasing the cost of time. In addition, the proposed algorithm can achieve the optimization effect by use of the different gradient descent algorithms and can be further optimized on the basis of the gradient descent algorithms. The adaptively enhanced CNN exhibits good generalization capability. This algorithm can be further extended to other deep learning algorithms related to CNN.

Key words

deep learning; convolutional neural network; image processing; classification and recognition; feature extraction; feature enhanced adaptively

0 引言

深度学习(DL)开启了人工智能(AI)的新时代，而卷积神经网络(CNN)则是深度学习迅速发展的重要推动力。

Hinton等人^[1]于2006年提出了深度置信网络(DBN)，其强大的特征提取能力和“逐层初始化”的训练模式有效地降低了深度学习的训练难度。与浅层学习相比，深度学习大幅增加了网络的层数，通过多层次的网络对数据进行学习，构建复杂的非线性函数模型实现数据特征的提取，使用低层特征组合成高层抽象特征，完成数据的分类与识别。在特征提取的过程中没有人为参与，从而避免了人工选择的主观性与随意性，使提取到的特征更加精确。

深度学习促进了人工智能的发展，学术界对其展开了广泛的探索与研究。在图像分类与识别方面，与传统方法相比，深度学习算法可以有效提高图像的分类识别精度^[2-3]，基于深度学习的人脸识别可以在较大程度上提高特征表示和识别的准确性^[4-5]，实现基于人脸的性别判断^[6]；使用深度学习算法还可以实现手写汉字的识别^[7]和文本的识别与阅读^[8]，甚至实现图像理解^[9]，完成对图文融合媒体的情感分析与预测，并取得较好的预测结果^[10]；对于一些高光谱数据集^[11-12]或是其他因数据量大^[13]、分辨率低^[14-15]而导致特征识别不准确的特殊数据集，深度学习可以有效提高特征提取的精度。除此之外，深度学习还广泛应用于行人检测^[16]、手势识别^[17]、自然语言处理^[18]以及数据挖掘和语音识别等方面。

卷积神经网络是一种重要的深度学习模型，卷积与池化操作对数据进行特征提取可以有效解决图像因平移、旋转或缩放等变换导致特征提取不准确的问题，因此卷积神经网络对满足扭曲不变性的2维图像具有较强的鲁棒性；通过多层网络的逐层降维使其对复杂高维数据的特征提取有较好的效果；卷积神经网络的输入可以是不经过预处理的原始图像，通过感受野进行数据采集并实现卷积核的权值共享，可以高效地提取输入数据的精确特征，提升深层网络的学习性能。因此，卷积神经网络有力地推动了深度学习的发展，并在各个领域都得到了广泛的应用。为了解决目标识别过程中特征提取困难、实时性无法满足等问题，随婷婷等人^[19]通过构建基于CLMF的深度卷积神经网络，有效地优化了识别效果并加快了识别速度，大量减少了训练时间；汤鹏杰等人^[20]通过使用深度并行交叉的卷积神经网络模型有效提取更多的特征信息，提高了模型的识别精度；张婷等人^[21]提出的跨连卷积神经网络模型能够有效地改进传统卷积神经网络对人脸识别的不足；He等人^[22]通过使用卷积神经网络对汉字进行识别也取得较好的识别效果；Chen等人^[23]提出的手写字符识别模型甚至超过了人类的识别能力；国内外使用卷积神经网络对高光谱图像进行分类识别的研究，满足了在大数据环境下对分类问题的要求，减小了高光谱图像中噪声引起的误差，有效地提高了识别的精度^[24-25]。但是目前卷积神经网络仍具有收敛速度较慢，识别精度不够高，泛化性不足，单一模型的改进不具有普适性等问题。

为了进一步提高卷积神经网络的收敛速度和识别精度，降低训练难度，并提高改进模型对一般图像的泛化能力，本文通过研究卷积神经网络特征提取与分类的过程，分析分类误差产生的原因，提出一种自适应增强卷积神经网络图像识别的算法(AE-CNN)。本文算法通过对分类结果进行特征提取，并根据识别情况和迭代次数将特征残差进行局部自适应地增强，再经反向传播反馈到隐层，使特征参数得到有效地训练，提高迭代分类的正确率，达到优化训练过程和提高识别精度的目的，并且通过实验验证了本文算法具有较强的泛化能力，对一般图像具有普适性。

1 卷积神经网络

卷积神经网络对图像的分类识别主要包括前向过程与反向过程，前向过程包括特征提取与目标分类，反向过程包括分类误差的反向传播与权值更新。

1.1 卷积神经网络的前向过程

卷积神经网络前向过程中的特征提取通过卷积和池化操作实现。设卷积层中的第$i$个输入特征${{\mathit{\boldsymbol{M}}}_{i}}$与其对应的卷积核${{\mathit{\boldsymbol{C}}}_{i}}$各$m$个，偏置为${{\mathit{\boldsymbol{B}}}_{1}}$，激活函数为$f$，则卷积层每个输出特征的计算表达式为

$ {\mathit{\boldsymbol{F}}_c} = f\left( {\sum\limits_{i = 1}^m {con\left( {{\mathit{\boldsymbol{M}}_i},{\mathit{\boldsymbol{C}}_i}} \right) + {\mathit{\boldsymbol{B}}_1}} } \right) $

(1)

式中，$con$为卷积函数，${{\mathit{\boldsymbol{F}}}_{c}}$为卷积输出特征。

池化操作对卷积输出特征进一步降维和特征提取并输入到全连接层。全连接层经过权值变换与激活后得到分类结果。设全连接层的输入特征为$T$，其对应的权值为$\mathit{\boldsymbol{W}}$，偏置为${{\mathit{\boldsymbol{B}}}_{2}}$，激活函数为$f$，则全连接层进行分类的表达式为

$ {\mathit{\boldsymbol{F}}_o} = f\left( {\mathit{\boldsymbol{WT}} + {\mathit{\boldsymbol{B}}_2}} \right) $

(2)

式中，${{\mathit{\boldsymbol{F}}}_{o}}$为分类结果矩阵。

1.2 卷积神经网络的反向过程

卷积神经网络反向过程将分类误差传播到隐层，使卷积核和全连接矩阵中的权值与偏置得到更新。下一次迭代使用更新后的各项参数进行前向过程。卷积神经网络通过参数不断更新使识别率不断提高。设$\eta $为步长，则卷积神经网络隐层的权值$\omega $和偏置$b$由$\omega $₁和$b_1$更新为$\omega $₂和$b_2$的表达式为

$ {\omega _2} = {\omega _1} - \eta \nabla \omega $

(3)

$ {b_2} = {b_1} - \eta \nabla b $

(4)

2 自适应增强卷积神经网络

卷积神经网络在反馈分类误差的过程中，由于没有对分类结果进行明确地分析，无论识别正误，将所有分类误差进行无差别地反馈，无法实现参数的有效调整。自适应增强卷积神经网络算法旨在解决不同识别结果和迭代次数下分类特征自适应增强的问题，以实现卷积神经网络的加速收敛和识别率的提高，以及泛化能力的增强。

2.1 AE-CNN算法实现

2.1.1 AE-CNN模型

自适应增强卷积神经网络结构如图 1所示。其中区域1为前向特征提取与目标分类的过程，区域2为残差的反向传播过程，区域3为自适应增强模块。输入数据经前向过程后得到分类结果，其中每个分类值对应唯一类别，且最大值对应的类被识别为输入Input的所属类别，而输入数据实际所属的类别称为真值类别；分类真值为训练监督数据，存储输入数据对应的真实分类结果，其中真值类别对应的值为1，其余类别对应的值为0；分类误差由分类结果与分类真值生成。

图 1 自适应增强卷积神经网络结构

Fig. 1 Adaptively enhanced convolutional neural network structure

CNN使用目标误差函数$E$($\omega $, $b$)来衡量隐层中各项参数对输入数据的学习效果。通过在迭代过程调整隐层的参数减小误差函数的输出，使分类结果$y$_$j$尽可能接近分类真值$y$_$j$^′，当相邻两次的误差输出不大于既定阈值时，则认为达到收敛，学习完成。对于一个$n$分类问题，设其目标误差函数为

$ \begin{array}{*{20}{c}} {E\left( {\omega ,b} \right) = \frac{1}{2}\sum\limits_{j = 1}^n {{{\left( {{y_j} - {{y'}_j}} \right)}^2}} = }\\ {\frac{1}{2}\sum\limits_{j = 1}^n {{{\left( {er{r_j}} \right)}^2}} } \end{array} $

(5)

式中，$err$_$j$为第$j$类的分类结果与真值的误差。根据梯度下降法，权值和偏置的变化量表达式为

$ \nabla \omega = \frac{{\partial E\left( {\omega ,b} \right)}}{{\partial \omega }} = d \cdot x $

(6)

$ \nabla b = \frac{{\partial E\left( {\omega ,b} \right)}}{{\partial b}} = d $

(7)

$ d = \left( {{y_j} - {{y'}_j}} \right)f' = er{r_j} \cdot f' $

(8)

式中，$d$为残差，$x$为输入特征图中的值，$f$′为对激活函数$f$进行求导。

AE-CNN的本质是在CNN的前向与反向过程之间增加自适应增强模块，对分类结果进行分析和特征提取，并根据迭代次数和特征提取精度的变化及此次识别结果，使用增强系数对特征误差进行自适应地调整，实现特征残差增强的目的。通过反向过程将增强后的残差反馈到隐层参数中，实现卷积核与全连接层中的权值与偏置的增强更新，提高下一次迭代的分类效果。

2.1.2 AE-CNN算法步骤

自适应增强卷积神经网络的算法步骤如下：

1) 计算分类误差。卷积神经网络通过前向过程得到分类结果，将分类结果与分类真值进行比较，计算得出分类误差。

2) 提取分类结果的特征。对输出层的分类结果进行分析计算，提取分类结果中依次最大的两个值为特征值。

3) 确定自适应增强系数。根据迭代次数和前向过程的识别结果确定自适应增强系数。如果识别正确，则将分类误差中与分类结果特征对应的误差值增强$\alpha $₁倍，如果识别错误，则将其增强$\alpha $₂倍。自适应增强系数$\alpha $的基本计算表达式为

$ \alpha = k\left( {{{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g}} \right) + \theta + c $

(9)

式中，$k$为乘积系数，$g$为当前迭代的次数，$\theta $为校正项，$c$为常数项。$\alpha $₁和$\alpha $₂的值根据不同的数据集由式(9)计算得到。

4) 将与分类结果特征对应的误差值进行自适应增强。设$s$为分类识别正误时的特征误差值$err$和增强系数的标记，其增强计算表达式为

$err_{s}^{\prime }={{\alpha }_{s}}\cdot er{{r}_{s}}$

(10)

5) 计算增强残差。增强残差包括特征误差增强后的残差以及其余误差的残差，残差计算式见式(8)。

6) 将增强残差反馈到隐层。隐层中权值与偏置和变化量计算式见式(6)和式(7)。

7) 更新模型。将计算得出增强后的隐层权值与偏置进行更新，更新计算见式(3)和式(4)。

2.2 AE-CNN算法性能分析

2.2.1 收敛性

根据式(2)可知，对于CNN的$n$分类的问题，第$j$类的分类过程如图 2所示。

图 2 第$j$类分类过程

Fig. 2 Classification process of $j$ class

图 2中${{\mathit{\boldsymbol{W}}}_{j}}$是全连接权值矩阵中第$j$类的权值矩阵，${{\mathit{\boldsymbol{W}}}_{j}}$和$\mathit{\boldsymbol{T}}$中各含$n$个值$w$_$k$、$t$_$k$，$b$_$j$表示第$j$类对应的偏置，$y$_$j$表示第$j$类的分类值。则第$j$类的分类表达式为

$ {y_j} = f\left( {\sum\limits_{k = 1}^n {{w_k}{t_k} + {b_j}} } \right) $

(11)

因此，根据式(3)—(11)可知，若AE-CNN第$j$类对应的误差为非特征误差，则AE-CNN与CNN下一次分类过程计算表达式都为

$ {y_j} = f\left[ \begin{array}{l} \left( {\sum\limits_{k = 1}^n {{w_k}{t_k} + {b_j}} } \right) - \\ \left( {\sum\limits_{k = 1}^n {\eta \nabla {w_k} + \eta \nabla {b_j}} } \right) \end{array} \right] $

(12)

若AE-CNN中第$j$类对应的误差为特征误差，则其分类过程计算表达式为

$ {y_j} = f\left[ \begin{array}{l} \left( {\sum\limits_{k = 1}^n {{w_k}{t_k} + {b_j}} } \right) - \\ \left( {\sum\limits_{k = 1}^n {\eta \alpha \nabla {w_k} + \eta \alpha \nabla {b_j}} } \right) \end{array} \right] $

(13)

CNN训练过程中迭代初期分类误差较大，而反馈残差通过激活函数后作用在分类值上的修正量较小，使得收敛速度较慢。根据式(12)和式(13)可知，AE-CNN通过增强系数$\alpha $可以扩大特征分类值上的修正量，加速网络收敛。

2.2.2 识别率

根据CNN的分类特性，分类结果中的最大值决定识别结果，若分类结果与监督数据一致，则分类正确，反之分类错误。随着迭代次数增加，分类结果中的最大值可能发生更新变化，所以次大值成为是影响下一次分类结果的重要因素。因此提取分类结果中依次最大的两个值作特征值，并对其误差进行增强可以有效提高识别率。

AE-CNN通过对分类结果进行分析，将特征对应的分类误差进行增强后反向传播，使隐层对特征参数进行针对性训练。对分类特征误差进行增强，减少了运算和参数变化对网络的影响，使分类结果中真值类别对应的分类值不断提高，有效地减小了目标误差函数的输出和其他值对分类结果的影响，优化了收敛效果，提高了识别率。

2.2.3 自适应性

设$w$_$k$^′、$b$_$j$^′为完全拟合分类真值$y$_$j$^′的权值与偏置，根据式(11)可知

$ {{y'}_j} = f\left( {\sum\limits_{k = 1}^n {{{w'}_k}{t_k} + {{b'}_j}} } \right) $

(14)

根据式(11)和式(14)可知，CNN学习的目的是使隐层中的权值$w$_$k$和偏置$b$_$j$不断趋于$w$_$k$^′和$b$_$j$^′，以使分类误差不断减小，则第$j$类的分类误差为

$ er{r_j} = {y_j} - {{y'}_j} $

(15)

根据式(3)—(8)和式(15)可知，在分类结果可以完全拟合分类真值时，特征误差权值$\omega $′和偏置$b$′与增强系数的$\alpha $₀关系为

$ \omega ' = \omega - \eta \cdot {\alpha _0} \cdot err \cdot f' \cdot x $

(16)

$ b' = b - \eta \cdot {\alpha _0} \cdot err \cdot f' $

(17)

而在训练过程中，其关系为

$ \omega ' = \omega - \eta \cdot \alpha \cdot err \cdot f' \cdot x + \delta $

(18)

$ b' = b - \eta \cdot \alpha \cdot err \cdot f' + \delta $

(19)

式中，$\delta $是随着迭代次数变化的误差项。而非特征误差则权值与偏置更新的表达式仍为

$ \omega ' = \omega - \eta \cdot err \cdot f' \cdot x $

(20)

$ b' = b - \eta \cdot err \cdot f' $

(21)

为了使误差$\delta $趋于0，分类结果尽可能拟合真值，增强系数要随着迭代次数的增加而自适应地调整，最终收敛于$\alpha $₀。

卷积神经网络使用S型激活函数，获得分类值呈S型曲线分布。提取分类结果中依次最大的两个值$max$₁、$max$₂($max$₁≥$max$₂)作特征值，分类正确和错误的情况下分类值与误差值的分布曲线分别如图 3和图 4所示。

图 3 分类正确的分类值与误差值分布

Fig. 3 Distribution curve of classification correct and error value of classify correctly

图 4 分类错误的分类值与误差值分布

Fig. 4 Distribution curve of classification correct and error value of classify by error

在分类正确的情况下，真值类别即为$max$₁对应的类别，图 3中点($x$₁, $y$₁)为真值类别与其对应的分类值点；在分类错误的情况下，真值类别可能是$max$₂或其他非$max$₁对应的类别，图 4中点($x$₂, $y$₁)为真值类别与其对应的分类值点。

根据分类真值获取分类误差分布情况。在分类正确的情况下，图 3中真值类别对应的误差值取点($x$₁, $y$₂)，在分类错误的情况下，图 4中真值类别对应的误差点取($x$₂, $y$₂)，图 3和图 4中其他点的误差取值同分类值。

由图 3可以看出，在分类正确的情况下，真值类别对应的误差较小，而迭代初期需要较大的误差反馈才能加快参数的调整，加速收敛。由图 4可以看出，在分类错误的情况下，最大值作为非真值类别，其误差输出较大，为防止过度学习而导致目标误差函数的输出趋于在最小时反向增长，对错误分类误差输出的增强程度要较小。所以增强系数需要根据分类结果正确性进行自适应地调整。

因此，分类特征值$max$₁和$max$₂的增强系数需要随着迭代次数和分类结果进行自适应地调整，并最终收敛于$\alpha $₀。设分类正确与错误的自适应增强系数分别为$\alpha $₁和$\alpha $₂其变化曲线如图 5所示。

图 5 2维数据增强系数变化曲线

Fig. 5 Enhanced factor variation curve of 2 dimensional data

卷积神经网络对1维和2维图像进行训练时使用的卷积核的维数与其输入数据相同，且反馈残差矩阵与卷积核的维数相同。2维图像分类的残差从全连接层向特征提取层传递时，需要把全连接层的1维残差矩阵分解为多个2维残差矩阵后再反向传递(图 1)。这样多个2维残差矩阵所有权值共同分解误差，分类误差在2维残差矩阵中的分解地较为分散，因此卷积核的权值会受多个分类误差影响而更新，降低了过大误差对网络稳定性和下一次分类结果的影响，使卷积神经网络具有更强的鲁棒性；而1维数据在反向传递残差时，残差矩阵没有维数的变化，分类误差在1维残差矩阵中的分解较为密集，使得卷积核权值的更新受到较为单一分类误差的影响，导致网络对某一分类误差的变化更为敏感，使得卷积神经网络的鲁棒性更差。因此，不同于2维数据，1维数据的自适应增强系数$\alpha $₁和$\alpha $₂都需从较小值开始，随着迭代次数增加和分类误差减小，不断增大增强系数的值，最终趋近于$\alpha $₀。1维数据增强系数的变化曲线如图 6所示。

图 6 1维数据增强系数变化曲线

Fig. 6 Enhanced factor variation curve of one dimensional data

因此，自适应增强卷积神经网络算法根据随迭代次数变化的增强系数$\alpha $₁和$\alpha $₂以及分类识别的结果，对分类特征的误差进行自适应增强，实现优化收敛和降低误识率的目的。

2.2.4 算法复杂度

卷积神经网络时间复杂度的决定因素包括迭代的次数$M$、每次迭代的训练次数$N$，隐层中的层数$K$，以及特征提取层中特征的最大输入个数$F_i$与最大输出个数$F_o$，因此其时间复杂度为O($MN$($KF$_$i$$F$_$o$)²)。自适应增强模型作为嵌入在卷积神经网络前向过程与反向过程之间的分析模型，会增加一些微小的计算量，但不改变卷积神经网络的循环结构和循环次数，在训练中对时间的影响可以忽略不计，所以自适应增强卷积神经网络算法的时间复杂度也是O($MN$($KF$_$i$$F$_$o$)²)。

卷积神经网络的空间复杂度的决定因素是算法运行的临时空间。设隐层中单层所需要最大空间为$S$，则空间复杂度为O($KS$)，而自适应增强模型是基于分类结果与分类真值的运算，不需要额外的空间，因此自适应增强卷积神经网络算法的空间复杂度为也为O($KS$)。

因此，自适应增强卷积神经网络算法没有增加时间和空间复杂度。

3 实验及结果分析

实验在Matlab2016a环境下实现原始卷积神经网络算法(CNN)和自适应增强卷积神经网络算法(AE-CNN)，实现图像的分类识别。所使用计算机的CPU型号为Intel(R)Core(TM)i7-3610QM，内存为8 GB。实验分为增强性能验证实验与泛化性能验证实验两个部分：3.1节使用MNIST手写数字数据集(http://yann.lecun.com/exdb/mnist/)，验证AE-CNN对收敛性和图像识别能力的优化效果；3.2节使用的为Binary Alphadigits手写字母(http://www.cs.nyu.edu/~roweis/data.html)和Pavia University高光谱遥感图像(http://www.ehu.eus/ccwintco/index.php?title=Hyperspectral_Remote_Sensing_Scenes)，验证AE-CNN对一般图像的普适性。

在卷积神经网络的迭代训练过程中记录目标误差函数的输出值，当相邻两次迭代过程的输出差值不超过阈值时认为达到收敛，停止训练。选取稳定收敛的迭代次数进行对比。对误差函数的输出作平滑处理并作为网络收敛性能的指数。

3.1 自适应增强卷积神经网络增强性实验

3.1.1 实验设置

实验所用MNIST手写数字集对自适应增强卷积神经网络的性能进行测试与验证，并使用随机梯度下降算法(SGD)实现卷积神经网络。设收敛阈值设置为1×10^-4，卷积层中卷积核个数分别为6个和72个，其余各项参数设置见表 1。

表 1 卷积神经网络参数表
Table 1 Convolutional neural network parameters

下载CSV

	特征图大小	层数
输入层	28×28	1
卷积核	5×5	2
池化域	2×2	2
全连接层	192×1	1
输出层	10×1	1

实验所用的手写数字图像数据为数字0到9共10类数据，总计7万条，其中6万条数据作为训练数据，每次批训练样本量为50条；1万条数据作为测试数据。选取收敛时50次作为收敛终止的迭代次数，每次迭代训练1 200次。实验中使用的自适应增强系数$\alpha $₁、$\alpha $₂随迭代次数$g$变化的表达式及其对应的校正项$\theta $₁、$\theta $₂为

$ {\alpha _1} = \frac{5}{2}\left( {{{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g}} \right) + {\theta _1} $

(22)

$ {\theta _1} = \frac{{21}}{5}{\mathop{\rm sgn}} \left( {g - 1} \right){{\rm{e}}^{\frac{1}{{\ln \left( {g + 4} \right)}}}} + \frac{{16}}{g} $

(23)

$ {\alpha _2} = \frac{5}{2}\left( {{{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g}} \right) + {\theta _2} $

(24)

$ {\theta _2} = {\mathop{\rm sgn}} \left( {g - 1} \right)\left[ {\ln \left( {g + 4} \right) - \frac{7}{5}} \right] + \frac{3}{{2g}} $

(25)

自适应增强卷积神经网络的优化性能从训练收敛情况、误识率和耗时情况3个方面进行验证。

3.1.2 收敛性能测试

原始卷积神经网络算法和本文算法在MNIST手写数字集上50次迭代过程中的收敛曲线及其放大图分别如图 7和图 8所示。

图 7 MNIST收敛曲线

Fig. 7 Convergence curves of MNIST

图 8 收敛放大曲线

Fig. 8 Magnification of convergence curves

由图 8可知，原始算法和本文算法的收敛指数随着训练次数的增加而降低，在执行到第50次迭代(即训练次数为60 000次)时已达到收敛。迭代过程中本文算法的收敛速度要比原始算法快，最终收敛效果也比较好。

3.1.3 识别性能测试

1) 识别性能优化。自适应增强卷积神经网络算法与原始卷积神经网络算法在50次迭代过程中误识率变化曲线如图 9所示。

图 9 MNIST误识率变化曲线

Fig. 9 Error recognition rate curves of MNIST

从第1次迭代开始，在10的整数倍对误识率进行等间距采样，对其变化情况进行分析，见表 2。

表 2 误识率变化表
Table 2 Error recognition rate variation

下载CSV

/%
采样点	原始算法	本文算法	降低率
1	11.13	4.00	64.06
2	2.73	1.48	45.79
3	1.78	1.16	34.83
4	1.65	1.14	30.91
5	1.45	1.09	24.83
6	1.29	1.02	20.93

由图 9和表 2可以看出，随着迭代次数的增加，原始算法与本文算法的误识率都在不断地降低，但是本文算法的误识率明显低于原始算法，达到收敛时本文算法比原始算法的误识率仍降低20.93%。

根据文献[26-27]，设计并实现要求训练时间和迭代次数较少的动态自适应池化优化算法与双重优化算法。这两种卷积神经网络优化算法都可以在较少迭代次数和时间消耗的情况下，较大程度地提高卷积神经网络的识别率。原始算法和以上两种优化算法及本文算法分别训练1 200次、2 400次和3 600次，对其误识率进行分析，误识率随训练次数的变化情况见表 3。本文提出的自适应增强算法比其他3种卷积神经网络算法的误识率降低程度见表 4。

表 3 不同卷积神经网络优化算法的误识率
Table 3 Error recognition rate of optimization algorithms

下载CSV

/%
算法	1 200次	2 400次	3 600次
原始	11.13	7.75	6.10
动态自适应池化	9.59	6.20	4.99
双重优化	6.61	4.69	4.00
自适应增强	4.00	2.66	2.26

表 4 本文算法比其他CNN优化算法误识率降低百分比
Table 4 Error recognition rate reduction of adaptive enhanced algorithm than others CNN optimization algorithms

下载CSV

/%
算法	1 200次	2 400次	3 600次
相比较原始	64.06	65.68	62.95
相比动态自适应池化	58.29	57.10	54.71
相比双重优化	39.49	43.28	43.50

由表 3和表 4可以看出，在训练次数较少的条件下，本文算法相比于原始算法、动态自适应池化算法和双重优化算法在识别率上都有较大的提升，最多可比原始算法降低65.68%，比动态自适应算法降低58.29%，比双重优化算法降低43.50%。

2) 对梯度下降算法的自适应增强优化。卷积神经网络使用不同的梯度下降优化算法可以在一定程度上提高识别率，而根据式(16)—(19)可知，本文算法可以在梯度下降优化算法基础上对CNN进一步的优化。实验基于TensorFlow使用随机梯度下降算法(SGD)、RMSprop梯度下降算法、动量梯度下降算法(Mome)、Nesterov加速梯度下降算法(NAG)、Adam梯度下降算法和Adadelta梯度下降算法实现CNN对MNIST的识别，并使用本文算法进行优化，验证本文算法对不现梯度算法实现的CNN的优化性能。各算法的误识率及本文算法对误识率的降低程度见表 5。

表 5 本文算法与不同梯度下降算法的性能对比
Table 5 Performance comparison of different gradient descent algorithms

下载CSV

/%
	梯度下降算法
	SGD	RMSprop	Mome	NAG	Adam	Adadelta
原始	0.88	0.91	0.69	4.50	0.77	15.10
本文算法	0.62	0.77	0.57	3.32	0.56	10.10
降低比率	29.55	15.38	17.39	26.22	27.27	33.11

由表 5可知，本文算法对不同的梯度下降算法都有一定的增强，对Adadelta算法误识率可降低33.11%，并且使用Adam梯度下降算法实现的AE-CNN获得了最高的识别率。

3) 不同识别算法的性能比较。在第2)步的基础上使用Adam算法实现的AE-CNN，并与多层时间递归网络(NLSTM)、递归神经网络(RNN)以及文献[28-33]中的算法对MNIST数据集进行测试，比较各算法的误识率及本文算法对其降低程度，结果见表 6。

表 6 不同算法的识别效果
Table 6 Recognition result of different algorithms

下载CSV

/%
	算法
	IDBN^[28]	NLSTM	RNN	PCA-CNN^[29]	VMG^[30]	FLSF-CNN^[31]	HORD-ISP CNN^[32]	FedAVG-CNN^[33]	AE-CNN
识别精度	7.33	1.40	0.88	1.09	1.05	0.86	0.82	0.56	0.54
降低比率	92.63	61.42	38.64	50.46	48.57	37.21	34.15	3.57	-

由表 6可以看出，AE-CNN算法的误识率较低，相比较IDBN^[28]、NLSTM、RNN和文献[29-33]中的算法对误识率都有不同程度的提高。

3.1.4 训练耗时测试

统计原始算法与本文算法在迭代的耗时情况，与3.1.3节第1)步保持相同的采样点，其耗时情况见表 7。

表 7 迭代过程的耗时统计
Table 7 Time consuming of iteration process

下载CSV

/s
采样点	原始算法	本文算法
1	72.45	71.50
2	724.49	716.56
3	1 479.61	1 433.74
4	2 239.80	2 151.39
5	3 014.58	2 982.47
6	3 899.27	3 816.54

根据表 7的耗时统计可知，原始算法与本文算法在整个迭代过程中时间消耗基本一致，差值在正常范围内波动，可忽略不计。

3.2 自适应增强卷积神经网络泛化性实验

为验证自适应增强卷积神经网络的泛化能力，使用手写字母和高光谱遥感数据集进行验证，分析其在收敛性和识别率方面的优化性能。

3.2.1 实验设置

实验所使用的卷积神经网络的各项参数设置见表 8。手写字母和高光谱数据集的收敛阈值分别设置为1×10^-4和1×10^-8。两种数据集卷积层中卷积核的个数分别设置为6个和72个。

表 8 卷积神经网络参数表
Table 8 Convolutional Neural network parameters

下载CSV

	特征图大小		层数
	手写字母	Pavia University	层数
输入层	20×16	103×1	1
卷积核	5×5	54×1, 6×1	2
池化域	2×2	6×1	2
全连接层	24×1	120×1	1
输出层	26×1	9×1	1

实验所用手写字母A-Z共26类，总计1 014条数据，各类等比例随机选取，共520条作为训练数据，其余494条作为测试数据，每次迭代训练次数为26次，批样本量为20个。实验中使用的自适应增强系数$\alpha $₁、$\alpha $₂随迭代次数$g$变化的表达式为

$ {\alpha _1} = - 8\left( {{{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g}} \right) + \frac{{44}}{5} $

(26)

$ {\alpha _2} = {{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g} - \frac{1}{5} $

(27)

实验用所高光谱遥感图像的平面像素大小为610×340，其中共含9类地物，每类地物有103个波段，总计为42 776条数据，对各个类别等比例随机选取，共39 200条数据作为训练数据，其余3 576条数据作为测试数据，每次迭代的训练次数为784次，批样本量为50个。实验中使用的自适应增强系数$\alpha $₁、$\alpha $₂随迭代次数$g$变化的表达式为

$ {\alpha _1} = {{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g} + \frac{1}{{{{\rm{e}}^{\frac{1}{{g + 1000}}}} - \frac{{\rm{e}}}{{g + 1000}}}} + \frac{1}{{10}} $

(28)

$ {\alpha _2} = {{\rm{e}}^{\frac{1}{g}}} - \frac{{\rm{e}}}{g} + 1 $

(29)

3.2.2 收敛性能测试

原始算法与本文算法在手写字母和高光谱数据集上迭代过程中的收敛曲线如图 10所示。

图 10 手写字母与高光谱收敛曲线

Fig. 10 Convergence curves of Binary Alphadigits and Pavia University

由于算法的收敛性指数变化幅度都比较大，因此收敛曲线比较接近。对图 10中训练前后期分别采样进行放大，前期训练过程的收敛曲线如图 11所示，后期训练过程的收敛曲线如图 12所示。

图 11 训练前期收敛曲线

Fig. 11 The forepart of convergence curves

图 12 训练后期收敛曲线

Fig. 12 The back part of convergence curves

由图 10—图 12可知，随着迭代次数的增加，原始算法与本文算法在手写字母与高光谱数据集上的收敛指数不断降低，并最终都达到收敛。但本文算法的收敛速度要快于原始算法，最终的收敛效果也比原始算法要好。

3.2.3 识别性能测试

原始算法与本文算法在各数据集上的误识率变化曲线如图 13和图 14所示。

图 13 手写字母数据集误识率变化曲线

Fig. 13 Error recognition rate curves of Binary Alphadigits

图 14 高光谱数据集误识率变化曲线

Fig. 14 Error recognition rate curves of Pavia University

由图 13和图 14可以看出，随着迭代次数的增加，两种算法在各数据集上的误识率持续下降，并最终达到收敛。整个迭代过程中本文算法误识率始终低于原始算法，取得了较好的识别效果。

对手写字母与高光谱数据集的误识率从第1次迭代开始进行等间距采样，手写字母数据集在1 000的整数倍采样；高光谱数据集在100的整数倍采样。对其误识率的变化情况进行分析，见表 9。

表 9 误识率变化表
Table 9 Error recognition rate variation

下载CSV

/%
采样点	原始算法		本文算法		降低率
采样点	手写字母	高光谱	手写字母	高光谱	手写字母	高光谱
1	87.04	56.52	79.76	56.52	8.36	0.00
2	23.28	10.61	22.47	8.06	3.48	24.04
3	23.68	7.66	23.08	5.83	2.53	23.89
4	24.29	6.54	22.67	5.41	6.67	17.28
5	25.51	5.89	22.87	4.71	10.35	20.034
6	25.71	5.82	22.67	4.94	11.82	15.12

由表 9可以看出，随着迭代次数的增加，两种算法的误识率都有较大程度的降低，且本文算法的误识率始终低于原始算法，最后收敛时本文算法在手写字母和高光谱数据集上的误识率仍比原始算法降低11.82%和15.12%。

3.2.4 训练耗时测试

统计原始算法与本文算法在手写字母与高光谱图像数据集的耗时情况，采样点选取同3.1.3节，耗时情况见表 10。

表 10 迭代过程的耗时统计
Table 10 Time consuming of iteration process

下载CSV

/s
采样点	手写字母数据集		高光谱数据集
采样点	原始算法	本文算法	原始算法	本文算法
1	0.43	0.42	24.796 0	25.770 8
2	434.64	435.35	2 675.93	2 764.269
3	883.90	850.55	5 319.92	5 535.69
4	1 323.96	1 375.09	7 795.52	7 899.53
5	1 757.16	1 734.11	10 604.74	10 890.76
6	2 188.83	2 270.66	12 993.45	12 895.39

根据表 10可知，原始算法与本文算法在各数据集的迭代过程中时间消耗基本一致。

3.3 实验结果分析

实验在手写数字数据集和手写字母数据集及高光谱数据集上对本文算法在收敛性和识别率方面的优化能力进行了测试，并对时间消耗进行了统计。

根据3.1节内容分析可知，在收敛性方面，随着迭代次数的增加，原始算法CNN和自适就增强算法AE-CNN的收敛性都不断降低，并最终达到收敛。但AE-CNN的平均收敛速度要高于CNN算法，并且训练完成时的收敛指数低于CNN，取得了更好的收敛效果。在识别能力方面，AE-CNN可以明显提高CNN的识别率，收敛时误识率可降低20.93%；与不同卷积神经网络优化算法对比，本文算法的误识率比动态自适应算法和双重优化算法最多可降低58.29%和43.50%；基于不同梯度算法的优化，AE-CNN误识率最多可降低33.11%；与不同的图像识别算法对比，其识别率也有较大程度提高。在训练耗时方面，本文算法没有增加时间消耗，迭代耗时情况与时间复杂度分析一致。

根据3.2节的内容分析可知，在手写字母与高光谱数据集上CNN和AE-CNN的收敛性趋势一致，且AE-CNN的收敛速度更快，最终的收敛效果更好。在这两种数据集上各算法的误识率都随着迭代次数的增加而降低，但AE-CNN的平均误识率要低于CNN，且收敛时在手写字母数据集上的误识率可降低11.82%，在高光谱数据集上的误识率可降低15.12%。在训练过程中，CNN和AE-CNN在各数据集上的时间消耗基本一致，AE-CNN没有在提高收敛速度和识别率的同时增加时间消耗。因此可知不同数据集上的实验结果保持一致。

综上所述，本文算法可以在不产生额外时间代价的前提下，进一步优化卷积神经网络的收敛效果，提高收敛速度和识别率，并且对不同数据集有较强的泛化能力。

4 结论

通过分析卷积神经网络算法在训练过程中分类误差产生的原因和误差的反馈模式，提出自适应增强卷积神经网络算法，实现分类特征基于迭代次数和识别结果的自适应增强，完成训练并实现对图像分类与识别能力的提高。与多种算法对比，统计分析自适应增强卷积神经网络算法在收敛性与识别率上的优化效果和训练过程的时间消耗，以及对多种数据集的泛化能力。实验结果表明，自适应增强卷积神经网络算法具有更好的收敛效果，更快的收敛速度和更高的识别率，并且具有较强的泛化能力，这种性能的提升不以增加时间代价为前提。这种优化模型可以进一步应用于其他与卷积神经网络相关的深度学习算法。

参考文献

[1] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [DOI:10.1126/science.1127647]

[2] Li Z H, Fan Y Y, Wang F Q. Unsupervised feature learning with sparse autoencoders in YUV space[J]. Journal of Electronics & Information Technology, 2016, 38(1): 29–37. [李祖贺, 樊养余, 王凤琴. YUV空间中基于稀疏自动编码器的无监督特征学习[J]. 电子与信息学报, 2016, 38(1): 29–37. ] [DOI:10.11999/JEIT150557]

[3] Guan H, Xue X Y, An Z Y. Advances on application of deep learning for video object tracking[J]. Acta Automatica Sinica, 2016, 42(6): 834–847. [管皓, 薛向阳, 安志勇. 深度学习在视频目标跟踪中的应用进展与展望[J]. 自动化学报, 2016, 42(6): 834–847. ] [DOI:10.16383/j.aas.2016.c150705]

[4] Chai R M, Cao Z J. Face recognition algorithm based on improved sparse deep belief networks[J]. Application Research of Computers, 2015, 32(7): 2179–2183. [柴瑞敏, 曹振基. 基于改进的稀疏深度信念网络的人脸识别方法[J]. 计算机应用研究, 2015, 32(7): 2179–2183. ] [DOI:10.3969/j.issn.1001-3695.2015.07.064]

[5] Seo J J, Kim H I, Ro Y M. Pose-robust and discriminative feature representation by multi-task deep learning for multi-view face recognition[C]//IEEE International Symposium on Multimedia. Miami, FL, USA:IEEE, 2015:166-171.[DOI:10.1109/ISM.2015.93]

[6] Wang J M, Lu J F. Face gender recognition based on convolutional neural network[J]. Modern Electronics Technique, 2015, 38(7): 81–84. [汪济民, 陆建峰. 基于卷积神经网络的人脸性别识别[J]. 现代电子技术, 2015, 38(7): 81–84. ] [DOI:10.3969/j.issn.1004-373X.2015.07.022]

[7] Jin L W, Zhong Z Y, Yang Z, et al. Applications of deep learning for handwritten Chinese character recognition:a review[J]. Acta Automatica Sinica, 2016, 42(8): 1125–1141. [金连文, 钟卓耀, 杨钊, 等. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, 2016, 42(8): 1125–1141. ] [DOI:10.16383/j.aas.2016.c150725]

[8] Jaderberg M, Simonyan K, Vedaldi A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1): 1–20. [DOI:10.1007/s11263-015-0823-z]

[9] Chang L, Deng X M, Zhou M Q, et al. Convolutional neural networks in image understanding[J]. Acta Automatica Sinica, 2016, 42(9): 1300–1312. [常亮, 邓小明, 周明全, 等. 图像理解中的卷积神经网络[J]. 自动化学报, 2016, 42(9): 1300–1312. ] [DOI:10.16383/j.aas.2016.c150800]

[10] Cai G Y, Xia B B. Multimedia sentiment analysis based on convolutional neural network[J]. Journal of Computer Applications, 2016, 36(2): 428–431, 477. [蔡国永, 夏彬彬. 基于卷积神经网络的图文融合媒体情感预测[J]. 计算机应用, 2016, 36(2): 428–431, 477. ] [DOI:10.11772/j.issn.1001-9081.2016.02.0428]

[11] Hou B, Zhang X R, Ye Q, et al. A novel method for hyperspectral image classification based on Laplacian eigenmap pixels distribution-flow[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6(3): 1602–1618. [DOI:10.1109/JSTARS.2013.2259470]

[12] Chen Y S, Jiang H L, Li C Y, et al. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232–6251. [DOI:10.1109/TGRS.2016.2584107]

[13] Najafabadi M M, Villanustre F, Khoshgoftaar T M, et al. Deep learning applications and challenges in big data analytics[J]. Journal of Big Data, 2015, 2(1): #1. [DOI:10.1186/s40537-014-0007-7]

[14] Xu R, Zhang J G, Huang K Q. Image super-resolution using two-channel convolutional neural networks[J]. Journal of Image and Graphics, 2016, 21(5): 556–564. [徐冉, 张俊格, 黄凯奇. 利用双通道卷积神经网络的图像超分辨率算法[J]. 中国图象图形学报, 2016, 21(5): 556–564. ] [DOI:10.11834/jig.20160503]

[15] Nasrollahi K, Escalera S, Rasti P, et al. Deep learning based super-resolution for improved action recognition[C]//Proceedings of the International Conference on Image Processing Theory, Tools and Applications. Orleans, France:IEEE, 2015:67-72.[DOI:10.1109/IPTA.2015.7367098]

[16] John V, Mita S, Liu Z, et al. Pedestrian detection in thermal images using adaptive fuzzy C-means clustering and convolutional neural networks[C]/Proceedings of the 14th IAPR International Conference on Machine Vision Applications. Tokyo, Japan:IEEE, 2015:246-249.[DOI:10.1109/MVA.2015.7153177]

[17] Cai J, Cai J Y, Liao X D, et al. Preliminary study on hand gesture recognition based on convolutional neural network[J]. Computer Systems & Applications, 2015, 24(4): 113–117. [蔡娟, 蔡坚勇, 廖晓东, 等. 基于卷积神经网络的手势识别初探[J]. 计算机系统应用, 2015, 24(4): 113–117. ] [DOI:10.3969/j.issn.1003-3254.2015.04.019]

[18] Goldberg Y. Neural network methods for natural language processing[J]. Synthesis Lectures on Human Language Technologies, 2017, 10(1): 1–309. [DOI:10.2200/s00762ed1v01y201703hlt037]

[19] Sui T T, Wang X F. Convolutional neural networks with candidate location and multi-feature fusion[J]. Acta Automatica Sinica, 2016, 42(6): 875–882. [随婷婷, 王晓峰. 一种基于CLMF的深度卷积神经网络模型[J]. 自动化学报, 2016, 42(6): 875–882. ] [DOI:10.16383/j.aas.2016.c150741]

[20] Tang P J, Wang H L, Zuo L X. Parallel cross deep convolution neural networks model[J]. Journal of Image and Graphics, 2016, 21(3): 339–347. [汤鹏杰, 王瀚漓, 左凌轩. 并行交叉的深度卷积神经网络模型[J]. 中国图象图形学报, 2016, 21(3): 339–347. ] [DOI:10.11834/jig.20160308]

[21] Zhang T, Li Y J, Hu H H, et al. A gender classification model based on cross-connected convolutional neural networks[J]. Acta Automatica Sinica, 2016, 42(6): 858–865. [张婷, 李玉鑑, 胡海鹤, 等. 基于跨连卷积神经网络的性别分类模型[J]. 自动化学报, 2016, 42(6): 858–865. ] [DOI:10.16383/j.aas.2016.c150658]

[22] He M J, Zhang S Y, Mao H Y, et al. Recognition confidence analysis of handwritten Chinese character with CNN[C]//Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia:IEEE, 2015:61-65.[DOI:10.1109/ICDAR.2015.7333726]

[23] Chen L, Wang S, Fan W, et al. Beyond human recognition:a CNN-based framework for handwritten character recognition[C]//Proceedings of the 3rd IAPR Asian Conference on Pattern Recognition. Kuala Lumpur, Malaysia:IEEE, 2015:695-699.[DOI:10.1109/ACPR.2015.7486592]

[24] Cao L L, Li H T, Han Y S, et al. Application of convolutional neural networks in classification of high resolution remote sensing imagery[J]. Science of Surveying and Mapping, 2016, 41(9): 170–175. [曹林林, 李海涛, 韩颜顺, 等. 卷积神经网络在高分遥感影像分类中的应用[J]. 测绘科学, 2016, 41(9): 170–175. ] [DOI:10.16251/j.cnki.1009-2307.2016.09.033]

[25] Cao J Y, Chen Z, Wang B. Deep convolutional networks with superpixel segmentation for hyperspectral image classification[C]//2016 IEEE International Geoscience and Remote Sensing Symposium. Beijing, China:IEEE, 2016:3310-3313.[DOI:10.1109/IGARSS.2016.7729856]

[26] Liu W J, Liang X J, Qu H C. Learning performance of convolutional neural networks with different pooling models[J]. Journal of Image and Graphics, 2016, 21(9): 1178–1190. [刘万军, 梁雪剑, 曲海成. 不同池化模型的卷积神经网络学习性能研究[J]. 中国图象图形学报, 2016, 21(9): 1178–1190. ] [DOI:10.11834/jig.20160907]

[27] Liu W J, Liang X J, Qu H C. Convolutional neural network algorithm based on double optimization for image recognition[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(9): 856–864. [刘万军, 梁雪剑, 曲海成. 基于双重优化的卷积神经网络图像识别算法[J]. 模式识别与人工智能, 2016, 29(9): 856–864. ] [DOI:10.16451/j.cnki.issn1003-6059.201609011]

[28] Zhao Z Y, Li Y X, Yu F, et al. Improved deep learning algorithm based on extreme learning machine[J]. Computer Engineering and Design, 2015, 36(4): 1022–1026. [赵志勇, 李元香, 喻飞, 等. 基于极限学习的深度学习算法[J]. 计算机工程与设计, 2015, 36(4): 1022–1026. ] [DOI:10.16208/j.issn1000-7024.2015.04.036]

[29] Ren X D, Guo H N, He G C, et al. Convolutional neural network based on principal component analysis initialization for image classification[C]//Proceedings of the IEEE International Conference on Data Science in Cyberspace. Changsha, China:IEEE, 2016:329-334.[DOI:10.1109/dsc.2016.18]

[30] Louizos C, Welling M. Structured and efficient variational deep learning with matrix Gaussian posteriors[C]//Proceedings of the 33rd International Conference on Machine Learning. New York, USA:PMLR, 2016.

[31] Defferrard M, Bresson X, Vandergheynst P. Convolutional neural networks on graphs with fast localized spectral filtering[C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain:NIPS, 2016.

[32] Ilievski I, Akhtar T, Feng J S, et al. Efficient hyperparameter optimization of deep learning algorithms using deterministic RBF surrogates[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. California, USA:AAAI, 2017:822-829.

[33] McMahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proceedings of the 20th International Conference on Artificial Intelligence and Statistics. Florida, USA:JMLR, 2017.