发布时间: 2018-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170399
2018 | Volume 23 | Number 3

CACIS 2017学术会议专栏

卷积神经网络的多字体汉字识别

柴伟佳, 王连明

东北师范大学物理学院, 长春 130024

收稿日期: 2017-07-19; 修回日期: 2017-11-16

基金项目: 国家自然科学基金项目（21227008）；吉林省重点科技攻关项目（20170204035GX）

第一作者简介: 柴伟佳(1987-), 女, 东北师范大学电路与系统专业硕士研究生, 主要研究方向为图像处理和模式识别。E-mail:261471636@qq.com.

中图法分类号: TP391.1

文献标识码: A

文章编号: 1006-8961(2018)03-0410-08

摘要

目的多字体的汉字识别在中文自动处理及智能输入等方面具有广阔的应用前景，是模式识别领域的一个重要课题。近年来，随着深度学习新技术的出现，基于深度卷积神经网络的汉字识别在方法和性能上得到了突破性的进展。然而现有方法存在样本需求量大、训练时间长、调参难度大等问题，针对大类别的汉字识别很难达到最佳效果。方法针对无遮挡的印刷及手写体汉字图像，提出了一种端对端的深度卷积神经网络模型。不考虑附加层，该网络主要由3个卷积层、2个池化层、1个全连接层和一个Softmax回归层组成。为解决样本量不足的问题，提出了综合运用波纹扭曲、平移、旋转、缩放的数据扩增方法。为了解决深度神经网络参数调整难度大、训练时间长的问题，提出了对样本进行批标准化以及采用多种优化方法相结合精调网络等策略。结果实验采用该深度模型对国标一级3 755类汉字进行识别，最终识别准确率达到98.336%。同时通过多组对比实验，验证了所提出的各种方法对改善模型最终效果的贡献。其中使用数据扩增、使用混合优化方法和使用批标准化后模型对测试样本的识别率分别提高了8.0%、0.3%和1.4%。结论与其他文献中利用手工提取特征结合卷积神经网络的方法相比，减少了人工提取特征的工作量；与经典卷积神经网络相比，该网络特征提取能力更强，识别率更高，训练时间更短。

关键词

汉字识别; 卷积神经网络; 深度学习; 数据扩增; 批标准化

Recognition of Chinese characters using deep convolutional neural network

Chai Weijia, Wang Lianming

School of Physics, Northeast Normal University, Changchun 130024, China

Supported by: National Natural Science Foundation of China (21227008)

Abstract

Objective The recognition of Chinese characters has a broad application prospect in Chinese automatic processing and intelligent input. It is an important subject in the field of pattern recognition. With the emergence of the new technology of deep learning in recent years, the recognition of Chinese characters based on a deep convolutional neural network has made a breakthrough in theoretical method and actual performance. However, many problems still exist, such as the need for a large sample size, long training time, and great difficulty in parameter tuning. Thus, achieving the best identification result for Chinese characters, which belong to numerous categories, is difficult. Method An end-to-end deep convolutional neural network model was proposed for processing unscreened images with printed and handwritten Chinese characters. Regardless of the additional layers, such as batch normalization and dropout layers, the network mainly consisted of three convolutional layers, two pooling layers, one fully connected layer, and a softmax regression layer. This paper proposed the data augmentation method, which comprehensively adopted a wave distortion, translation, rotation, and zooming, to solve the problem of a small sample size. The translation and zooming scale, the rotation angles, and a large number of pseudo-samples were randomly generated by controlling the amplitude and period of the sine function that caused the wave distortion. The overall structure of the characters could not be changed, and the number of the trainset samples could be increased to infinity. Advanced strategies, such as batch normalization and fine-tuning the model by combining two optimizers, namely, stochastic gradient descent (SGD) and adaptive moment estimation (Adam), were used to reduce the difficulty of parameter adjustment and the long model training duration. Batch normalization refers to normalizing the input data for each training mini-batch in the process of stochastic gradient descent. Thus, the probability distribution in each dimension becomes a stable probability distribution with mean 0 and standard deviation 1. We define internal covariate shift as the change in the distribution of network activations due to the change in network parameters during training. The network should learn to adapt to different distributions at each iteration, which will greatly reduce the training speed of the network. Batch normalization is an effective way to solve this problem. In the proposed network, the batch normalization layer was placed in front of the activation function layer. In the classic convolutional neural network, the mini-batch stochastic gradient descent method is usually adopted during the training process. However, selecting suitable hyper-parameters is difficult. Parameter selection, such as learning rate and initial weight, greatly affects training speed and classification results. Adam is an algorithm for first-order gradient-based optimization of stochastic objective functions based on adaptive estimates of lower-order moments. The method computes individual adaptive learning rates for different parameters from estimates of the first and second moments of the gradients. The greatest advantage of the method is that the magnitudes of parameter updates are invariant to the rescaling of the gradient and that the training speed can be accelerated tremendously. However, the single use of this method cannot ensure state-of-the-art results. Therefore, this paper presents a new training method that combines the novel optimization method, Adam, and the traditional method, SGD. We divided the training process into two steps. First, we adopted Adam to adjust the parameter, such as learning rate, to avoid manual adjustment and make the network coverage immediately. This process lasted for 200 iterations, and the best model was saved after the first training step. Second, SGD was used to further fine-tune the trained model with a minimal learning rate to achieve the best classification result. The initial learning rate was set to 0.0001 in this step and exponentially decayed. Through these methods, the network performed well in terms of training speed and generalization ability. Result A seven-layer deep model was trained to categorize 3, 755 Chinese characters, and the recognition accuracy rate reached 98.336%. The contribution of each proposed method to improve the final effect of the model was verified by several sets of comparative experiments.The recognition rate of the model increased by 8.0%, 0.3%, and 1.4% by using data augmentation, combining the two kinds of optimizers, and using batch normalization, respectively.The training time of the model was 483 and 43 minutes less than when SGD was used and batch normalization was not used, respectively. Conclusion The workload of extracting features is manually reduced compared with traditional recognition methods that use handcrafted features in combination with convolutional neural networks in the reference paper. Our proposed method achieves superior performance because it has a higher recognition rate, stronger extraction ability, and shorter training time compared with the classic convolutional neural network.

Key words

recognition of Chinese characters; convolutional neural network; deep learning; data augmentation; batch normalization

0 引言

随着智能化信息和网络时代的到来，汉字识别在人机交互、信息处理与存储、办公自动化等方面发挥了越来越重要的作用，因此近年来成为模式识别领域最重要的研究方向之一。国内的汉字识别研究开始于70年代末，到现在经过几十年的发展，从印刷体到无约束手写体识别、从脱机识别到联机识别、从单个字符到整篇文档的识别，汉字识别技术已日渐成熟并取得了大量成果。但由于汉字自身结构复杂、字符集巨大、字符相似度高、字体风格多样等，其识别研究依然面临很大的挑战性^[1]。近年来，基于深度学习的汉字识别在方法和性能上得到了突破性的进展，引起了学术界和工业界的广泛关注。

深度学习与浅层学习相对，是机器学习的一个新研究领域。它的本质是一个含有多个隐层的非线性网络模型，通过大规模原始数据的训练，网络能提取出最能表达原始数据的特征，进而对样本做出预测或者分类。在图像识别及计算机视觉等领域，深度卷积神经网络(CNN)取得的成果最为显著^[2]。CNN模仿了生物视觉神经系统。相对于深度置信网络(DBN)^[3]、S层叠自动编码(SAE)^[4]等其他深度神经网络，CNN可以直接针对2维图像进行处理，避免了将2维图像转换成1维信号时丢失输入数据的空间结构特征分布，因而识别结果更可靠，是当前最主流的图像识别方法。另一种值得关注的模型是深度强化学习(DRN)，但在汉字识别领域还鲜有其成功应用的报道。将CNN应用到汉字识别领域，目前已取得了不少突破性进展。

IDSIA实验室在文献[5]中提出了采用多个CNN集成的方法，基于该方法，在ICDAR2011脱机手写体汉字识别竞赛中获得了第1名；随后2012年, 该实验室又提出了一种端对端的多列CNN模型，取得了当时最好的识别结果, 在脱机手写体汉字识别中取得了93.50%的识别率^[6]。另外, 在ICDAR2013中文脱机和联机手写汉字识别的比赛中, 取得第1名的队伍的方法也都是基于CNN模型。近几年CNN在汉字识别领域的研究方向包括将领域知识与深度模型相结合^[7-8]、改进深度模型的训练方法^[9]等。

以上方法虽然取得了较好的识别结果，但其使用的样本库都是只包含手写体或者印刷体，在实际应用中存在一定局限性, 并且使用的模型往往极其复杂，参数调整难度较大，训练过程极为耗时。基于以上分析和总结，本文创建了包括常用的印刷体以及手写体的汉字样本库，并提出了一种较为简单的卷积神经网络模型来对汉字样本进行分类。为解决小样本问题，提出了一种新式的数据扩增方法，即通过对原始样本进行波纹形变、旋转、平移等方式，实时扩增样本；为降低网络对初值等参数的敏感度，加速网络收敛，对数据进行批标准化(BN)处理；为进一步缩短训练时间，在网络的训练过程中综合运用了Adam (adaptive moment estimation)和SGD(stochastic gradient descent)两种优化器，实现了对网络的粗训练和精调相结合。综合运用以上策略，在自建数据库上进行了一系列实验，验证了网络的有效性。

1 卷积神经网络结构

经典卷积神经网络是由卷积层和下采样层交替连接而成，由于其对于平移、尺度缩放和其他形式的形变具有较强的鲁棒性，因此被广泛应用于图像识别领域。本文提出的用于汉字识别的卷积神经网络的基本结构如图 1所示，主要由3个卷积层、2个池化层、1个全连接层和一个Softmax回归层组成。其中，网络的前6层用于特征提取，最后一层用于分类。考虑BN层、Dropout层等附加层，则网络的详细配置和训练参数数量见表 1。各层的batch-size统一设置为128；激活函数采用了修正线性单元(ReLU)$f(x) = \max(0, x)$；输出采用非线性分类能力强、分类速度快的Softmax回归作为分类器；以交叉熵(cross-entropy)来衡量训练的损失，对于有$k$类，每类有$m$个样本的数据集合，其形式为

$ J(\theta ) = - \frac{1}{m}\left[ {\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^k {1\{ {y^{(i)}} = j\} } \ln \frac{{{{\rm{e}}^{\theta _j^{\rm{T}}\boldsymbol{x}(i)}}}}{{\sum\limits_{j = 1}^k {{{\rm{e}}^{\theta _j^{\rm{T}}\boldsymbol{x}(i)}}} }}} } \right] $

图 1 CNN网络结构图

Fig. 1 Illustration of the proposed CNN network

表 1 CNN网络的详细配置及参数数量
Table 1 Detailed configuration of the network

下载CSV

编号	层种类	输出尺寸	待训练参数数量
1	输入层	56×56×1	0
2	卷积层1	52×52×5	130
3	BN层1	52×52×5	20
4	激活函数层1(ReLU)	52×52×5	0
5	卷积层2	48×48×15	1 890
6	BN层2	48×48×15	60
7	激活函数层2(ReLU)	48×48×15	0
8	池化层1(max)	24×24×15	0
9	卷积层3	20×20×30	11 280
10	BN层3	20×20×30	120
11	激活函数层3(ReLU)	20×20×30	0
12	池化层2(max)	10×10×30	0
13	Dropout层1(0.3)	10×10×30	0
14	Flatten层	1×3 000	0
15	全连接层1	1×3 000	9 003 000
16	激活函数层4(ReLU)	1×3 000	0
17	Dropout层2(0.5)	1×3 000	0
18	全连接层2	1×3 755	11 268 755
19	BN层4	1×3 755	15 020
20	激活函数层5(Softmax)	1×3 755	0

式中，$\theta $表示模型参数，1{·}为示性函数；用反向传播(BP)算法调整网络的权值。整个网络的待训练参数数量约为20 292 k。

将一张尺寸为56×56像素的图像输入网络，经过一系列的卷积和池化操作后，得到30幅10×10的特征图，把它们转化成1维向量后连接一个全连接层。全连接层神经元的数量是网络结构中一个重要参数。从特征提取的角度来看，全连接层的输出是输入图片的高层特征表示，然后作为输入向量接入Softmax回归层中。通过多次对比实验，最终确定的全连接层神经元个数为3 000个。

2 网络训练算法

2.1 数据扩增

深度学习是一种基于大样本的特征提取方法。为避免过拟合，提高网络的泛化能力，在样本量不足的情况下，通常需要以一定手段人为增加训练样本。常用的扩增数据的方法有仿射变换、弹性形变、加噪等。基于实验采用的样本图像特点，同时在不改变汉字结构关系的前提下，本文采用了波纹扭曲结合平移、旋转、尺度缩放的数据扩增方法。波纹扭曲是一种通过正弦函数$y = A\sin \left({\frac{{2{\rm{ \mathit{ π} }}}}{T}x} \right)$对原图像坐标进行变换的算法。通过调整正弦函数的幅度$A$和周期$T$，可以简单快速地生成大量伪样本。以“阿”字为例，当正弦波的幅度和周期分别控制在[0, 6]和[80, 120]区间，同时字符的旋转角度在±10°以内，水平和竖直方向平移的幅度在10%以内，缩放尺度在10%以内时，随机生成的30幅伪样本的图像如图 2所示。在网络的训练过程中，采用了实时生成伪样本的方法，避免一次性载入大量数据导致内存溢出，同时实时生成数据相当于将训练样本量扩大至无穷，尽可能地提高了网络的泛化能力。

图 2 “阿”字原图与随机生成的30幅伪样本图

Fig. 2 Original image and 30 pseudo-samples randomly generated((a)original one; (b)samples generated)

2.2 批标准化

深度神经网络的训练是一个复杂的过程。当某一层数据发生微小的改变时，后面几层的改变会被累积放大，网络则需要重新调整学习率等参数去适应这个新的数据分布，从而影响训练速度和精度。中间层在训练过程中数据分布的改变叫做“Internal Covariate Shift”，批标准化则是解决这一问题的有效方法^[10]。

批标准化是指以随机梯度下降中的批量样本为单位，对输入的数据进行归一化处理，使其每一维度的概率分布变为均值为0，标准差为1的稳定的概率分布。为了避免在归一化中学习到的特征被破坏，需引入可训练的参数$\gamma $，$\beta $对数据进行变换重构。假设某一层的输入为$\boldsymbol{x} = ({x^{(1)}}, \cdots, {x^{(d)}})$，共$d$维，batch-size设为$m$，一批的样本集合为$\boldsymbol{B} = \{ {x_1}, \cdots, {x_m}\} $，则批标准化为

$ {\mu _B} = \frac{1}{m}\sum\limits_{i = 1}^m {{x_i}} $

(1)

$ \sigma _B^2 = \frac{1}{m}\sum\limits_{i = 1}^m {{{({x_i}-{\mu _B})}^2}} $

(2)

$ {\hat x^{(k)}} = \frac{{{x^{(k)}}-{\mu _B}}}{{{\sigma _B}}} $

(3)

$ {y^{(k)}} = {\gamma ^{(k)}}{\hat x^{(k)}} + {\beta ^{(k)}} $

(4)

式中，${\mu _B}, \sigma _B^2$分别表示样本集合$\boldsymbol{B}$的均值和方差，${{\hat x}^{(k)}}$表示输入为${x^{(k)}}$时的标准化结果，${y^{(k)}}$表示对${{\hat x}^{(k)}}$线性变换后的结果。$\gamma^{(k)}$, $\beta^{(k)} $表示与${x^{(k)}}$对应的待学习的参数。在卷积神经网络中，由于权值共享，可以把一个特征图看成一个神经元进行处理。即求取一个特征图的所有神经元的均值和方差，然后对这个特征图的神经元做归一化。

本文提出的网络中，把BN层置于激活函数层前，此时前向传导的计算变为

$ z = g\left( {BN\left( {W \times u + b} \right)} \right) $

式中，$W$和$b$分别为该层权值和阈值，$g$(·)为激活函数，$u$为BN层的输入，$z$为经过激活函数后得到的输出。

2.3 优化方法

优化方法是指深度模型训练的指导方法，目标是通过不断调整权值、学习率等参数，使代价函数最小。在卷积神经网络中通常采用的是基于小批量样本的随机梯度下降法，但采用此方法最大的困难在于选择合适的超参数的难度较大，学习率、初始权值等参数的选取会在很大程度上影响训练速度和分类效果。因此本文提出了一种新式的优化方法Adam^[11]和传统SGD方法相结合的训练方式：采用Adam方法自适应调整学习率，避免手工调参，使网络快速收敛；使用SGD方法以极小的学习率在训练好的模型上进一步精调，最终达到最优的分类效果。Adam的主要思想是利用梯度的一阶矩估计和二阶距估计动态调整每个参数的学习率，经过偏置校正后，将每一次的迭代学习率限定在确定范围内，从而使得参数比较平稳，加快训练速度。Adam方法的公式为

$ {m_t} = {\beta _1}*{m_{t-1}} + (1-{\beta _1})*{g_t} $

(5)

$ {n_t} = {\beta _2}*{n_{t-1}} + (1-{\beta _2})*g_t^2 $

(6)

$ {\hat m_t} = \frac{{{m_t}}}{{1-\beta _1^t}} $

(7)

$ {\hat n_t} = \frac{{{n_t}}}{{1-\beta _2^t}} $

(8)

$ \Delta {\theta _t} = \frac{{{{\hat m}_t}}}{{\sqrt {{{\hat n}_t} + \varepsilon } }}\eta $

(9)

式中，${{m_t}}$，${{n_t}}$分别是对梯度${{g_t}}$的一阶矩估计和二阶距估计，$\beta_1 $，$\beta_2 $表示对应的指数衰减因子，取值范围为[0, 1)区间；${\hat m_t}, {\hat n_t}$是对${{m_t}}$，${{n_t}}$的校正；$\Delta {\theta _t}$表示参数的更新量；$\eta $表示学习速率；$\varepsilon $则是接近0的极小正值，为了避免除以0的情况。式(9)相当于对学习率进行了动态约束，使其有明确的范围，这种自适应学习的方法尤其适用于大数据集和高维空间。

3 实验

3.1 实验平台

由于实验采用的数据集规模较大，待训练的参数多，因此采用了图形处理器(GPU)加速。实验平台为基于Python语言的深度学习框架Theano^[12]。硬件环境为Intel i5-2400、NVIDIA GTX1050Ti；操作系统为Windows7 64位；基础配置为CUDA 8.0，Visual Studio 2012，Python 2.7，Theano 0.8。

3.2 样本扩增与建立

实验采用了自建的样本库，包含常用的3 755类汉字。具体方法为利用Python中的Pygame模块，通过汉字的Unicode码结合各种字体包，将文字渲染成图片。数据库中的字体包含宋体、楷体、黑体等印刷体，以及行楷、黛玉体等近似手写体，共22种。生成的图片经过二值化、切除边界，再将上下左右各拓展出5像素的边框以避免在生成伪样本时丢失过多的文字信息，最后将尺寸统一为56×56像素大小。经预处理后，“阿”字的22种字体图像如图 3所示。随机选取每个汉字的18种字体作为训练样本，另外4种作为测试样本。

图 3 “阿”字对应的22种字体图像

Fig. 3 Chinese characters of 22 fonts

3.3 实验结果

1) 实验使用的网络结构及详细配置见图 1及表 1。模型采用分步训练法。首先使用Adam优化器，参数采用文献[11]中的推荐设置，即$\beta_1 $=0.9，$\beta_2 $=0.999，$\eta $=0.01，$\varepsilon $=10^-8。训练过程中使用了伪样本实时生成技术，每次迭代生成的伪样本数量与原始样本数相同，即67 590个。将迭代次数设置为200次，训练完成后保存最佳模型，此时在测试集上的识别率为98.000%。训练过程中训练集和测试集的损失函数和识别率变化曲线如图 4所示。

图 4 训练集和测试集上的损失函数及识别率变化曲线

Fig. 4 Loss function and recognition rate curves on train and test sets((a) loss function curves; (b) recognition rate curves)

粗训练后在原模型的基础上进一步精调。具体操作为：锁定表 1中编号1~8层，以SGD优化方法精调卷积层3及全连接层。初始学习率设置为0.000 1，同时呈指数衰减。为避免过拟合，网络并未预先设定迭代次数，而是采用监测测试集上识别率变化并提前终止训练的方式，最终网络在测试集上达到了98.336%的识别率。

将本文方法与领域知识结合深度模型的方法作比较，识别率对比见表 2^[7]。其中文献[7]中使用的特征分别为局部二值模式(LBP)、多尺度Gabor特征GIST、梯度方向直方图(HOG)、一般梯度特征以及多尺度梯度特征，分类器均采用5层的卷积神经网络。当使用多尺度梯度信息作为特征时，该网络达到了98.361%的高识别率，但此方法需繁杂的特征提取和降维环节，而本文方法在训练和识别过程中不需要人工干预，是一种端对端的方法，同时可以在较少的训练样本的条件下达到较理想的识别效果。

表 2 不同方法识别率对比
Table 2 Recognition rates of different domain-specific methods

下载CSV

方法	识别率/%	数据库
LBP+CNN	87.512	70套训练，20套测试
GIST+CNN	92.754
HOG+CNN	94.501
梯度特征+CNN	95.157
多尺度梯度特征+CNN	98.361
本文	98.336	18套训练，4套测试

2) 为进一步验证网络的鲁棒性和稳定性，在每种汉字的全部字体中分4次随机选取18种字体构成训练集，剩余4种字体作为测试集，针对4套不同的训练集和测试集构成，重新做了4组实验，得到的识别率如表 3所示。可见该网络针对不同的样本集合时得到的识别结果较为稳定，系统具有较强的鲁棒性。

表 3 多组对比实验
Table 3 Comparative experiment results of multiple groups

下载CSV

组号	最终识别率/%
1	98.336
2	98.316
3	98.249
4	98.268
5	98.296
平均识别率	98.293

3) 为分别检验数据扩增、分步训练和批标准化对网络识别率和训练时间的影响，分别在不使用数据扩增、单独使用一种优化方法及不使用批标准化的条件下，做了几组对比实验，实验结果见表 4。

表 4 采用不同方法时的识别率和训练时间
Table 4 The recognition rate and training time of different methods

下载CSV

方法	识别率/%	训练时间/min
不使用数据扩增	90.353	289
只使用Adam优化	98.000	323
只使用SGD优化	98.329	987
不使用BN	96.970	538
本文	98.336	495

由此可以看出：

1) 实时生成伪样本虽然在一定程度上延长了训练时间，但对于提升识别率贡献最大。这也充分验证了深度学习对于大数据的依赖性，因此目前在深度模型的训练中数据扩增往往是必不可少的一步。

2) 在使用数据扩增的条件下，只使用自适应学习率的优化方法Adam时网络的训练时间最短，但并不能达到最佳的识别效果。随机梯度下降法在好

的初始化和学习率调整方案的情况下，结果更可靠，但也更耗时。将两种训练方法结合，可以在提升速度的同时保证达到最佳的的识别结果。

3) 批标准化处理延长了一次迭代训练所需的时间，但是减少了迭代次数，因此在整体上加快了训练速度，同时提高了模型的泛化能力。

4 结论

本文采用一种7层的深度卷积神经网络用于大类别的多字体的汉字识别。在模型训练过程中综合运用了数据扩增、多种优化方法相结合以及批标准化等策略，并通过大量对比实验验证了网络的有效性。实验表明本文提出的方法在保证识别效果的前提下极大缩短了训练时间，这对于目前大类别图像识别的研究和深度模型的训练具有一定的启发意义。今后的工作可以从以下几方面进行改进和提高：

1) 扩大字符集，将二级字库中的3 008个汉字收录进数据库，进一步研究识别效果。

2) 增加网络深度，使之适应更大类别样本的识别。此外网络结构的优化以及训练过程中的参数的最优选择等方面仍有大量工作可以开展。

3) 尝试使用其他深度学习方法，如DBN、SAE去学习更加有效的特征，或者将不同的网络进行交叉和融合，进一步提高模型的运行效率和识别率。

参考文献

[1] Ding X Q. Chinese character recognition:A review[J]. Acta Electronica Sinica, 2002, 30(9): 1364–1368. [丁晓青. 汉字识别研究的回顾[J]. 电子学报, 2002, 30(9): 1364–1368. ] [DOI:10.3321/j.issn:0372-2112.2002.09.029]

[2] Jin L W, Zhong Z Y, Yang Z, et al. Applications of deep learning for handwritten Chinese character recognition:A review[J]. Acta Automatica Sinica, 2016, 42(8): 1125–1141. [金连文, 钟卓耀, 杨钊, 等. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, 2016, 42(8): 1125–1141. ] [DOI:10.16383/j.aas.2016.c150725]

[3] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [DOI:10.1126/science.1127647]

[4] Ranzato M A, Poultney C, Chopra S, et al. Efficient learning of sparse representations with an energy-based model[C]//Proceedings of the 20th Annual Conference on Neural Information Processing Systems. Vancouver, BC, Canada:MIT Press, 2007:1137-1144.

[5] Ciresan D C, Meier U, Gambardella L M, et al. Convolutional neural network committees for handwritten character classification[C]//Proceedings of 2011 International Conference on Document Analysis and Recognition. Beijing, China:IEEE, 2011:1135-1139.[DOI:10.1109/ICDAR.2011.229]

[6] Ciregan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI:IEEE, 2012:3642-3649.[DOI:10.1109/CVPR.2012.6248110]

[7] Pan W S, Jin L W, Feng Z Y. Recognition of Chinese characters based on multi-scale gradient and deep neural network[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(4): 751–756. [潘炜深, 金连文, 冯子勇. 基于多尺度梯度及深度神经网络的汉字识别[J]. 北京航空航天大学学报, 2015, 41(4): 751–756. ] [DOI:10.13700/j.bh.1001-5965.2014.0499]

[8] Zhong Z Y, Jin L W, Xie Z C. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps[C]//Proceedings of the 201513th International Conference on Document Analysis and Recognition (ICDAR). Tunis, Tunisia:IEEE, 2015:846-850.[DOI:10.1109/ICDAR.2015.7333881]

[9] Yang W X, Jin L W, Tao D C, et al. DropSample:A new training method to enhance deep convolutional neural networks for large-scale unconstrained handwritten Chinese character recognition[J]. Pattern Recognition, 2016, 58: 190–203. [DOI:10.1016/j.patcog.2016.04.007]

[10] Ioffe S, Szegedy C. Batch normalization:Accelerating deep network training by reducing internal covariate shift[EB/OL]. 2015-03-02[2017-06-14]. https://arxiv.org/abs/1502.03167.

[11] Kingma D P, Ba J. Adam:A method for stochastic optimization[EB/OL]. 2017-01-30[2017-06-24]. https://arxiv.org/abs/1412.6980.

[12] Bastien F, Lamblin P, Pascanu R, et al. Theano:New features and speed improvements[EB/OL]. 2012-11-23[2017-07-01]. https://arxiv.org/abs/1211.5590.