发布时间: 2020-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190190
2020 | Volume 25 | Number 2

图像分析和识别

多特征融合的文档图像版面分析

应自炉, 赵毅鸿, 宣晨, 邓文博

五邑大学智能制造学部, 江门 529020

收稿日期: 2019-05-15; 修回日期: 2019-07-22; 预印本日期: 2019-07-29

基金项目: 国家自然科学基金项目（61771347）；广东省特色创新类项目（2017KTSCX181）；广东省青年创新人才类项目（2017KQNCX206）；江门市科技计划项目（江科[2017]268号）；五邑大学青年基金项目（2015zk11）

第一作者简介: 应自炉, 1966年生, 男, 教授, 主要研究方向为图像处理与生物特征识别。E-mail:ziluy@163.com;
宣晨, 男, 硕士研究生, 主要研究方向为文档图像处理。E-mail:1024238825@qq.com;
邓文博, 男, 硕士研究生, 主要研究方向为图像处理与生物特征识别。E-mail:wenbodeng92@163.com.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2020)02-0311-10

摘要

目的在文档图像版面分析上，主流的深度学习方法克服了传统方法的缺点，能够同时实现文档版面的区域定位与分类，但大多需要复杂的预处理过程，模型结构复杂。此外，文档图像数据不足的问题导致文档图像版面分析无法在通用的深度学习模型上取得较好的性能。针对上述问题，提出一种多特征融合卷积神经网络的深度学习方法。方法首先，采用不同大小的卷积核并行对输入图像进行特征提取，接着将卷积后的特征图进行融合，组成特征融合模块；然后选取DeeplabV3中的串并行空间金字塔策略，并添加图像级特征对提取的特征图进一步优化；最后通过双线性插值法对图像进行恢复，完成文档版面目标，即插图、表格、公式的定位与识别任务。结果本文采用mIOU（mean intersection over union）以及PA（pixel accuracy）两个指标作为评价标准，在ICDAR 2017 POD文档版面目标检测数据集上的实验表明，提出算法在mIOU与PA上分别达到87.26%和98.10%。对比FCN（fully convolutional networks），提出算法在mIOU与PA上分别提升约14.66%和2.22%，并且提出的特征融合模块对模型在mIOU与PA上分别有1.45%与0.22%的提升。结论本文算法在一个网络框架下同时实现了文档版面多种目标的定位与识别，在训练上并不需要对图像做复杂的预处理，模型结构简单。实验数据表明本文算法在训练数据较少的情况下能够取得较好的识别效果，优于FCN和DeeplabV3方法。

关键词

文档图像处理; 版面分析; 目标检测; 深度学习; 语义分割

Layout analysis of document images based on multifeature fusion

Ying Zilu, Zhao Yihong, Xuan Chen, Deng Wenbo

School of Intelligent Manufacturing, Wuyi University, Jiangmen 529020, China

Supported by: National Natural Science Foundation of China(61771347)

Abstract

Objective Document image layout analysis aims to segment different regions on the basis of the content of the page and to identify the different regions quickly. Different strategies must be developed for diverse layout objects owing to varied handling for each type of area. Therefore, document image layout must be first analyzed to facilitate subsequent processing. The traditional method of document image layout analysis is generally based on complex rules. The method of first positioning and post-classification cannot simultaneously achieve the regional positioning and classification of document layout, and different document images need their own specific strategies, thereby limiting versatility. Compared with the feature representation of traditional method, the deep learning model has powerful representation and modeling capabilities and is further adaptable to complex target detection tasks. Proposal-based networks, such as Faster region-convolutional neural networks (Faster R-CNN) and region based fully convolutional network (R-FCN), and proposal-free networks, such as single shot multbox detecter (SSD), you only look once (YOLO), and other representative object-level object detection networks, have been proposed. The application of pixel-level object detection networks, such as fully convolutional networks and a series of DeepLab networks, enables deep learning technology to make breakthroughs in target detection tasks. In deep learning, object detection techniques at the object or pixel level have been applied in document layout analysis. However, most methods based on deep learning currently require complex preprocessing processes, such as color coding, image binarization, and simple rules, making the model structure complex. Moreover, the document image will lose considerable information due to the complicated preprocessing process, which affects the recognition accuracy. In addition, common deep learning models are difficult to apply to small datasets. To address these problems, this paper proposes a deep learning method for multi-feature fusion convolutional neural networks. Method irst, feature extraction is performed on the input image by convolution layers composed of convolution kernels with different sizes. The convolutional layer of the parallel extraction feature has three layers. The numbers of three convolution kernels are 3, 4, and 3. The first layer uses a large-scale convolution kernel with sizes of 11×11, 9×9, and 7×7 to increase the receptive field and retain additional feature information. The number of convolution kernels in the second layer is 4, and the sizes of the convolution kernel are 7×7, 5×5, 3×3, and 1×1 to increase the feature extraction while ensuring coarse extraction. The third layer is composed of three different scale convolution kernels of 5×5, 3×3, and 1×1 to extract detailed information further. The feature fusion module consists of a convolutional layer and a 1×1 size convolution kernel. The fusion module then adds the convolutional layer to extract the features again. The atrous spatial pyramid pooling (ASPP) strategy in DeepLabV3 is selected. ASPP consists of four convolution kernels with different sizes, which are the standard 1×1 convolution kernel and 3×3atrous convolution kernel with expansion ratios of 6, 12, and 18. When the size of the sampled convolution kernel is close to the size of the feature map, the 3×3atrous convolution kernel loses the capability to capture full image information and degenerates into a 1×1 convolution kernel; thus, image-level features are added. The role of ASPP is to expand the receptive field of the convolution kernel without losing the resolution and to retain the information of the feature map to the utmost extent. Finally, the image is restored by bilinear interpolation, and the document layout target is completed as the positioning and identification of figures, tables, and formulas. During training, the experimental environment is Ubuntu 18.04 system, which is trained with TensorFlow framework and NVDIA 1080 GPU with 16 GB memory. The data use the ICDAR 2017 POD document layout target detection dataset with 1 600 training images and 812 test images. The input data pixels are uniformly reduced to 513×513 during training to reduce the model training parameters. Result Mean intersection over union (IOU) and pixel accuracy (PA) are used as evaluation criteria. The experiments on the ICDAR 2017 POD document layout object detection dataset show that the proposed algorithm achieves 87.26% and 98.10% mIOU and PA, respectively. Compared with fully convolutional networks, the proposed algorithm improves mIOU and PA by 14.66% and 2.22%, respectively, and the proposed feature fusion module improves mIOU and PA by 1.45% and 0.22%, respectively. Conclusion This paper proposes the positioning and recognition of multiple targets in the document layout under a network framework. It does not need complex preprocessing on the image, and it simplifies the model structure. The experimental data prove that the algorithm can further efficiently identify the background, illustrations, tables, and formulas and achieve improved recognition results with less training data.

Key words

document image processing; layout analysis; object detection; deep learning; semantic segmentation

0 引言

文档图像是宝贵的信息载体，它们在日常生活中发挥着重要作用。文档图像版面分析在识别重要信息这一过程中起着关键作用，其性能显著影响数字化系统的整体效果，如光学字符识别(OCR)准确性以及提取信息的有用性等。文档图像版面分析的目的是根据页面内容对不同区域块进行分割，并对区域块进行识别标记。不同类型区域的处理方式截然不同，需要针对不同的版面对象制定不同的策略。因此，为便于后续处理，需要先对文档图像进行版面分析。

传统的版面分析方法普遍基于复杂的启发式规则，实现对文档图像版面中各种类型对象的检测、定位与分类(Eskenazi等，2017)，而且目前表格信息的提取(Hao等，2016)、插图或文本块(Gao等，2017b)的分类是文档图像版面分析的主要关注点。2017年，国际文档分析与识别会议(ICDAR)组织复杂版面文档识别(RDCL)比赛(Clausner等，2017)，在入围的5种提交方案中，Tran等人(2017)提出的多级同质结构分析(MHS)方法取得比赛第1名。该方法采用递归式的思想先将文档版面划分为文本—非文本区域，然后在非文本区域进一步分解分类。综合其他方案，传统的处理方法仍然占有主导性，普遍运用先分割、后识别的策略，且均受限于各种启发式规则。由于数据集的限制，在识别对象中仅包括表格、图片、文本块区域的定位与分割，缺乏对公式的检测与识别。此外，比赛中大多数算法为了提高插图检测与识别的准确度，均需要对文档图像进行二值化的预处理，然而二值化会丢失大量文档图像插图区域的信息，这会进一步限制插图的检测与识别。

与传统方法的特征表达方式相比，深度学习模型具有强大的表征与建模能力，更能适应复杂的目标检测任务。基于区域建议(proposal-based)网络如Faster R-CNN(Faster region-convolutional neural networks)(Ren等，2017)、R-FCN(region based fully convolutional network)(Dai等，2016)、以及无区域建议(proposal-free)网络如SSD(single shot multiBox detector)(Liu等，2016)、YOLO(you only look once)(Redmon和Farhadi，2017)等代表性的对象级别目标检测网络相继提出，使深度学习技术在目标检测任务中取得突破性进展。从近几年的文献中可以看出，深度学习中对象级别的目标检测技术已应用在文档版面分析中。其中Gilani等人(2017)，Hao等人(2016)以及Arif和Shafait (2018)将分析重点放在表格检测中。Gilani等人(2017)使用欧几里得距离变换、线性距离变换和最大距离变换分别对图像的蓝色、绿色和红色通道进行预处理。将经过预处理的文档图像送入区域建议网络，利用已设定的卷积神经网络进行检测，判断目标对象是否为表格。Hao等人(2016)采用简单规则将类似于表格的区域挑选出来，紧接着通过细化卷积网络来确定属于表格的区域位置，并将可视与不可视信息直接提取并利用，以此达到提高识别精度的目的。Arif和Shafait (2018)采用Faster R-CNN网络对表格进行检测，但在检测之前，首先需将训练图片中的文本数据与数字进行颜色编码，并对图像的蓝色通道进行欧几里得距离变换，以提高识别的准确度。除此之外，Oliveira和Viana(2017)对图像采用灰度化、长度算法、两次的3×3扩张操作以及迭代检测4步预处理操作，从而得到包含内容信息的内容块。训练数据是根据所分割的内容块进行人为标签后生成，生成数据后通过Fast-CNN网络进行训练，得出最终检测结果。Yu等人(2017)使用PDF(portable document format)图形提取器自动为采用的训练集生成标签，避免了繁杂的数据标记任务。除了上述对象级别的目标检测方法在文档图像版面分析中得到应用，研究者开始将像素级别的目标检测方法应用于文档图像版面分析中，实现像素级别的预测，达到精细化推理的效果。其中，Barakat和El-Sana(2018)提出了一种基于全卷积网络(FCN)的方法，该方法将来自非二值化历史手稿的副文本和主要文本分割成复杂的版面。其训练FCN以预测每个像素的类别。Kaddas和Gatos(2018)在训练之前，应用局部对比度归一化算法(LCN)对输入图像进行预处理，使用架构训练深度网络(CED)，该网络由5个编码器—解码器对组成，并将任意大小的RGB图像作为输入并输出标记图像。Fink等人(2018)首次将U-Net网络架构应用在文档图像基线的提取，实现对文本行的识别与提取。

虽然上述方法能取得良好性能，但无论是对象级别或者像素级别的方法，都依赖于对输入图像进行各种复杂变换的预处理过程。此外，检测对象并没有包括公式区域，多数网络仅将检测对象限于表格或文本等单一对象。大规模标注的文档图像数据库的缺乏也影响深度卷积神经网络的性能。针对上述问题，本文提出一种应用于文档图像版面分析的多特征融合的卷积神经网络模型，对文档图像中的表格、插图、公式3种目标对象进行检测。首先，本文提出的网络是像素级别预测的语义分割模型，其次，网络模型采用多卷积核提取特征的方法将文档图像的特征进行提取，接着采用DeeplabV3网络(Chen等，2017)中的串并行空间金字塔池化网络(ASPP)对图像再次进行特征提取，得到多特征融合的特征图。最后通过双线性插值法将特征图恢复成与原图像大小的分割图。为了验证算法的有效性，在ICDAR 2017 POD文档版面目标检测数据集(Gao等，2017a)上进行测试，提出的算法性能优于目前主流的分割算法。

1 理论基础

1.1 语义分割

现今目标检测任务分为4种，分别为分类、识别与定位、语义分割与实例分割(Garcia-Garcia等，2017)。对象级别的目标检测方法只达到识别与定位这一步，而语义分割是对象级别的目标检测方法的提升，实现像素级别的预测。在语义分割中需要将视觉输入分为不同的语义可解释类别，语义的可解释性即分类类别在真实世界中是有意义的。语义分割技术能实现对图像中物体类别的预测，还能提供各类别物体空间位置的额外信息，比如中心点或者边框(Garcia-Garcia等，2017)。目前语义分割模型基本可分为编码与解码两部分。编码部分一般采用卷积神经网络对图像进行编码，从卷积神经网络中提取的特征信息越丰富，后续解码部分恢复的分割图中的分割效果就越好。

1.2 全卷积神经网络

最近，应用于语义分割中最成功的深度学习技术均来自同一个工作，即全卷积神经网络(FCN) (Shelhamer等，2017)。该方法的出色之处在于其利用了现存的卷积神经网络作为其模块之一，来产生层次化的特征。作者将经典的分类模型包括AlexNet、VGG-16、GoogLeNet和ResNet等转化为全卷积网络模型，除了丢弃的最终层外，前面的卷积网络遵循原始网络的设计，称为FCN的编码器部分。通过编码器，输入图像被下采样，并且滤波器可以得到具有较大感受野的较粗糙信息。然后，FCN的解码器部分通过小步幅卷积上采样(又称反卷积)来产生密集的像素级别的标签，将粗略输出采样到密集像素。该工作被视为里程碑式的进步，因为它阐释了卷积神经网络如何在语义分割问题上被端对端地训练，而且高效地提取了任意大小图像中的特征来为语义分割问题产生像素级别的标签预测。全卷积神经网络结构如图 1所示。其中，conv1、conv2、conv6-7对应的两条直线代表此卷积块由两层卷积层构成，conv3、conv4、conv5分别由3层卷积层组成，pool1到pool5下的矩形框代表池化操作后得到的特征图。pool3到pool5分别表示原图像素大小的1/8、1/16、1/32的特征图。八倍上采样预测图是对pool3、pool4的两倍上采样、conv7的四倍上采样的融合特征图进行八倍上采用得到的。

图 1 FCN网络结构

Fig. 1 Architecture of fully convolutional networks

1.3 DeeplabV3网络模型

DeeplabV3网络是由Chen等人(2017)提出的语义分割网络。在深度卷积神经网络应用在语义分割时，往往会面临两个挑战。第1个是连续池化操作或者采用步长大于1的卷积操作导致所得的特征图分辨率下降。上述两种操作会使网络提取到更多的抽象特征，然而这种局部图像变化的不变性可能降低精细预测任务的准确率。第2个是如何在连续池化与卷积操作后获取尽可能多的总体特征与细节特征。为了应对这两个挑战，Chen等人(2017)采用空洞卷积(Yu和Koltun，2016)解决由于卷积过程中连续下采样或者卷积步长导致分辨率下降的问题。带孔卷积可以在不增加额外参数的情况下扩大卷积核的大小，控制深度卷积神经网络输出的特征图的分辨率。此外，作者还设计了串并行空间金字塔池化网络，网络由3种不同步长的空洞卷积以及1×1卷积组成，作用是分别对图像进行卷积采样，以获得多尺度的特征信息。接着通过添加图像级特征来整合全局内容信息。最后，提出空间金字塔式的带孔池化模块将提取的特征图与图像级特征进行融合，得出最终的像素级分割图像，并通过双线性插值法将图像恢复为原输入图像大小的分割图。

DeeplabV3网络的整体实现与FCN相同，分为编码与解码两部分。编码部分采用残差网络(Chen等，2017)对输入的图像进行特征提取，ASPP模块与图像级特征进一步增加获取的特征信息量。解码部分采用通用的双线性插值法。

2 本文方法

目前主流文档图像版面分析方法仍停留在识别与定位的对象级别的目标检测上，少有对文档图像进行像素级别的预测。本文提出的多特征融合的卷积神经网络模型是语义分割模型，能够对检测目标进行像素级别的预测，实现精细化推理。

本文所提模型结构图如图 2所示。首先，模型的输入是无需进行灰度化、距离变换等复杂的预处理操作的原始文档图像。编码网络采用多特征融合模块、卷积层与ASPP模块来构成特征提取网络取代传统的特征提取网络，原因在于传统的特征提取网络卷积层数过多，如经典的残差网络模型具有超过50层的卷积层，在缺乏足够多的训练数据时所得到的训练效果往往不尽人意。解码部分直接采用双线性插值法对融合后的特征图进行恢复，最终获得与原输入文档图像大小一致的语义分割图。

图 2 多特征融合的卷积神经网络结构

Fig. 2 The architecture of CNN with multi-feature fusion

2.1 基本骨架网络

本文算法根据训练样本少这一情况重新设计骨架网络。基本骨架网络由12层卷积神经网络组成，包括9层标准卷积层以及3层空洞卷积层。与传统的全卷积核为3×3卷积层的VGG16骨架网络相比，本文采用的是卷积核为1×1、3×3、1×1的卷积层，目的是在保证特征信息有效提取的同时减少模型参数量。最后添加3层空洞卷积对特征图的信息进行再提取，保留更多的特征信息。其中，卷积后得到的特征图需要经过2×2的最大池化操作，对特征图进行降维处理，进一步减少提取特征时产生的模型参数量。BN层的添加能够加速模型训练的进程，防止产生梯度爆炸，避免训练结果发散。

2.2 多特征融合块

在卷积神经网络中采用不同尺度的卷积核可以获得大小不同的感受野。传统的卷积神经网络在每一层均采用固定大小的卷积核，且各卷积操作采用串联方式进行连接，图像特征信息通过串联的卷积运算层层传递。但前一层的图像信息只经过一次卷积便不再进行提取，造成图像信息的浪费。而且预设定的固定卷积核并不一定是最合适的。本文提出的多特征融合结构，在每个卷积块的首层是多尺度卷积核的并联，组成多特征融合模块，作用是通过不同尺度的卷积核来获取不同的特征图信息，进而对信息融合，为下一步的特征提取提供丰富的特征信息。

本文提出的网络特征输入设定为$\boldsymbol{F}_{i}$=($N$, $C$, $W$, $H$)的4维向量, $N$为每次训练图像的数量，$C$为通道数量，$W$为特征图的宽，$H$为特征图的高。具体意义为$\mathit{\boldsymbol{F}}_{i}$一共有$N$张特征图，每张特征图的尺度为$W$×$H$且具有$C$个通道。特征图融合包括拼接与卷积两部分，假设$\mathit{\boldsymbol{F}}_{i}$，$\mathit{\boldsymbol{F}}_{j}$为不同尺度的卷积运算后的特征图，拼接为

$\boldsymbol{F}_{k}=\boldsymbol{F}_{i} \oplus \boldsymbol{F}_{j}=\left(N, C_{k}, W, H\right) $

(1)

式中，$\mathit{\boldsymbol{F}}_{k}$为拼接后的特征图，⊕为拼接运算符。每次训练的图像大小与数量是固定的，因此拼接后参数$N$、$W$以及$H$保持不变。$C_{k}$为$C_{i}$与$C_{j}$的和，表示拼接后的特征图通道数为拼接前的特征图通道数之和。本文预设$C_{i}$与$C_{j}$数值相同，且拼接后的特征图在1×1卷积核卷积后其特征图的通道数与$C_{i}$、$C_{j}$相同，融合后的特征图为$\mathit{\boldsymbol{F}}_{l}$。拼接与融合过程如图 3所示。

图 3 拼接与融合过程

Fig. 3 Schematic diagram of splicing and fusion process

在每块首层卷积核的设计上，缩小后的文档图像首先经过卷积块1中的3种尺度的卷积核进行卷积运算，卷积核大小分别为11×11、9×9以及7×7。使用感受野较大的大卷积核对图像进行粗提取，能够最大限度地保留文档图像中的原始信息，获取更多的总体特征，而且通过将3个卷积运算后的特征图进行融合得到新的特征图，远比通过单个卷积核所得的特征信息丰富。

但这也带来了局限性，大卷积核对细节信息缺乏敏感度，只对特征图进行粗提取。相反，小卷积核如3×3，1×1能完成对图像的细提取，提供丰富的细节信息。在卷积块2中，首层的卷积核数量为4个，卷积核大小分别为7×7、5×5、3×3以及1×1，在保证了粗提取的效果下增加了细节特征提取，加大了特征图的信息量。在卷积块3中，首个卷积层是由5×5、3×3以及1×1这3个不同尺度的卷积核组成，进一步提取细节信息。

2.3 空洞卷积

空洞卷积(atrous convolution)，这种卷积核可以指数级地扩大感受野而不丢失分辨率。在传统的卷积神经网络中，一般的处理过程都是先卷积后池化，在增加感受野的同时降低输入图像的像素数。在语义分割网络中，为了使输出图像恢复为原输入图像大小的像素值，需要通过上采样进行恢复。从降低像素点到恢复像素点这一过程，难免会造成信息的损失，恢复的图像较为粗糙。空洞卷积的优点在于不需要池化操作，在保证图像信息不丢失的情况下增大感受野，保留更多的信息(Yu和Koltum，2016)。

空洞卷积中扩张率(rate)控制着上采样因子，在不加填充层下，扩张率为1的空洞卷积的感受野大小与普通的3×3卷积核的感受野相同，扩张率为2、3的空洞卷积分别与5×5、7×7卷积核的感受野相同，如图 4所示。

图 4 3种扩张率的空洞卷积核

Fig. 4 Atrous convolution with kernel size 3×3 and different rates((a) rate=1;(b) rate=2;(c) rate=3)

2.4 串并行空间金字塔池化模块

串并行空间金字塔池化模块(ASPP)是DeeplabV3的核心部分。网络结构如图 5所示，其功能是通过不同感受野的空洞卷积核对特征图进行上采样，捕捉多尺度信息。其中采用4种不同大小的卷积核进行采样，分别为标准的1×1卷积核以及扩张率为6、12、18的3×3空洞卷积核。当采样卷积核大小接近特征图大小时，3×3的卷积核则失去捕捉全图像的信息，退化为1×1的卷积核(Chen等，2017)。因此，Chen等人(2017)通过使用图像级特征来克服上述问题，对ASPP模块进行优化。图像级特征是指采用平均池化对特征图进行处理，经过卷积，再融合后得出的特征图。最终将经这4种不同卷积核得到的特征图与图像级特征进行融合，得出原图像的分割图。

图 5 ASPP网络模块结构

Fig. 5 Network structure of ASPP

2.5 损失函数

文档图像版面分析最终的目的是检测目标对象，但早期得到的预测图像与真值图像之间是存在差距的，而设计的网络需要根据预测值与真实值之间的差值进行调整，从而不断降低该差值，使预测图像更接近真值图像。损失函数的作用是计算这两者的差值，本文采用的损失函数为交叉熵损失函数，且损失函数的优化策略为L2正则化，定义为

$Loss =L(p, q)+\lambda\|w\|_{2}^{2} $

(2)

$\begin{array}{*{20}{c}} {L(p, q) = - \sum\limits_x^N {\left({p(x){{\log }_2}q(x) + } \right.} }\\ {\left. {(1 - p(x)){{\log }_2}(1 - q(x))} \right)} \end{array} $

(3)

式中，$λ$设定为0.995，$w$为网络的权值。式(3)为式(2)中$L$($p$, $q$)的具体形式，且$p$($x$)为真实值，$q$($x$)为预测值，$x$为输入的图像值序号，$N$为样本总数。

3 实验结果与分析

3.1 实验数据集与算法评测标准

在2017年ICDAR会议上，北京大学公开了文档图像版面分析页面目标检测数据集(POD) (Gao等，2017a)。该数据集包括了2 412幅文档图像，囊括了大量的公式、表格、插图等数据，表 1对3个识别目标数量进行统计。其中数据集分成训练集与测试集，训练集为1 600幅，测试集812幅。本文实验所用数据库中含有各种不同分辨率、不同类型的文档图像。其中分辨率最大为1 031×1 459像素，最小为653×1 050像素，且每幅文档图像中插图、表格以及公式的大小与位置都是变化的，由此构成不同类型的文档图像。

表 1 ICDAR2017 POD文档图像版面目标检测数据集
Table 1 ICDAR2017 POD (page object detection) dataset

下载CSV

版面实例	训练集(1 600幅图)	测试集(812幅图)
版面实例	数量/个	数量/个
公式	3 535	1 912
表格	703	317
插图	1 994	961

本文实验分为5项任务，任务A、B、C、D为单项任务，对应单独检测出背景、插图、表格、公式4种区域，而任务E是对背景、插图、表格、公式4种区域的综合检测。评价指标为像素准确率(PA)以及均交并比(mIOU) (Shelhamer等，2017)。像素准确率与均交并比定义为

$f_{\mathrm{PA}}=\frac{\sum\limits_{i} n_{i i}}{\sum\limits_{i} t_{i}} $

(4)

$f_{\mathrm{mIOU}}=\frac{1}{c} \sum\limits_{i} \frac{n_{i i}}{t_{i}+\sum\limits_{j} n_{j i}-n_{i i}} $

(5)

式中，$n_{ij}$为原本属于类别$i$的像素却被预测为类别$j$的像素数量，$n_{ii}$为预测准确的像素数量，$t_{i}=\sum\limits_{j} n_{i j}$为属于类别$i$的总像素量，$C$为类别总数。

3.2 实验参数设置与训练过程

本文实验环境为Ubuntu 18.04系统，采用TensorFlow深度学习框架以及NVDIA 1080 GPU、16 GB内存进行训练。学习率模式上采用多项式衰减模式，防止后期网络训练的学习率过小导致网络参数陷入某个局部最优解。训练过程中，输入图像缩小为513×513像素。在卷积块1中，多特征融合模块之后的卷积层的卷积核大小分别为1×1、3×3以及1×1，通道数分别为64、64、128。在除去卷积块2、3中的多特征融合模块与3层空洞卷积的情况下，卷积块2、3的卷积层的卷积核大小设置依次与卷积块1一致，通道数分别为卷积块1的两倍、四倍，即训练的图像在卷积运算后得到的大小为64×64像素，通道数为512。后续的3层空洞卷积目的是尽可能多地获取特征信息，且都是大小为3×3，扩张率为2的空洞卷积，通道数分别为512、512、1 024。最终通过ASPP模块与图像级特征的优化从而获得精确的语义分割图。

3.3 实验结果与分析

为了表明提出的文档版面目标检测模型的有效性，实验从两个部分分别进行验证。第1部分是分析特征融合模块以及ASPP模块对整体网络的影响，第2部分是本文提出的模型与主流语义分割模型进行比较。

表 2统计了任务E文档版面背景、表格、插图、公式综合检测结果。实验结果得出，不添加任何优化策略的模型性能效果是最低的，综合任务E的mIOU只有77.63%，PA为96.65%，与添加融合模块和ASPP模块的模型性能相比相差10%左右。以融合模块的有无作为单一变量进行对比，从表 2的mIOU与PA评价指标可以看出，添加融合模块的模型比不添加的在mIOU上分别提升了2.82%与1.45%，在PA上分别提升了0.41%与0.22%，验证了本文提出的多特征融合模块能实现对图像特征的有效提取，得到更多的特征信息，而且采用的数据库中包含不同分辨率、不同类型的文档图像，因此实验结果也验证了本文模型能够适应不同分辨率和类型文档的版面分析需要，具有较好的泛化能力。当模型添加了ASPP模块时，性能上均比不添加时提升7%左右，原因是空洞卷积的存在增大了提取特征过程中的感受野，且避免了特征图分辨率的降低。

表 2 不同策略文档版面目标综合检测结果
Table 2 The result of document page objects detection of different strategies

下载CSV

/%
融合模块	ASPP模块	背景IOU	插图IOU	表格IOU	公式IOU	mIOU	PA
无	无	96.52	81.35	77.97	54.70	77.63	96.65
有	无	96.85	83.34	80.45	61.725	80.45	97.06
无	有	97.51	89.06	90.93	66.16	85.81	97.88
有	有	97.88	90.17	89.65	71.34	87.26	98.10
注：加粗字体表示最优结果。

本文采用的对比网络为Shelhamer等人(2017)提出的FCN以及Chen等人(2017)提出的DeeplabV3网络。FCN具体结构是以VGG16为原型，保留VGG16的特征提取部分，舍弃全连接层。取出卷积后分辨率分别降为原图的1/8、1/16、1/32的特征图，1/32特征图反卷积后与1/16特征图融合，将融合后的特征图再通过反卷积与1/8特征图融合，得出包含这3种大小的图像的特征图，最后将此恢复成原图像大小。DeeplabV3网络则以ResNet50为基础，采用50层残差层对图像进行特征提取。ASPP网络模块取代原始网络的全连接层，对特征图再一次提取、融合，最终得出分割图。

表 3是本文方法与主流语义分割方法的比较。表 3表明，从像素准确率以及均交并比两个指标看，本文方法优于其他两种主流语义分割方法。FCN网络是基于VGG16的全连接层改进，所以卷积层数上保持原有层数，为16层。与FCN网络对比，本文网络的卷积层数为19层，卷积层数差异不大，但提出的多特征融合模块以及ASPP模块的采用使得卷积后的特征图保留了更多特征信息，在均交并比和像素的准确率上，分别有14.66%和2.22%的提升。与DeeplabV3相比，本文特征提取网络整体更为简洁，从参数上看，DeeplabV3的参数量为39 MB，本文方法的参数量为18 MB，为DeeplabV3模型的二分之一。在卷积层数方面，DeeplabV3整体卷积层数超过50层，这导致网络在少量训练数据的情况下表现不佳，在mIOU指标下仅达到64.16%。本文方法的卷积层数相较于DeeplabV3模型少，在缺乏足够量的数据集下能够得到更好的训练效果。

表 3 文档版面目标检测结果比较
Table 3 Result of document page objects detection of different methodsbg

下载CSV

/%
方法	背景IOU	插图IOU	表格IOU	公式IOU	mIOU	PA
FCN(Shelhamer等，2017)	96.53	67.70	71.70	54.46	72.60	95.88
DeeplabV3(Chen等，2017)	91.45	55.24	69.38	40.56	64.16	92.13
本文	97.88	90.17	89.65	71.34	87.26	98.10
注：加粗字体表示最优结果。

图 6展示了本文方法文档版面多目标的检测结果，灰色为背景部分，橙色区域为表格区域，蓝色为插图区域，粉色为公式区域。从结果分析，本文算法能够准确分割出目标区域，实现对文档中出现的插图、表格、公式的精准检测。

图 6 文档版面多目标检测结果

Fig. 6 Results of muti-object detection in document images

4 结论

针对异构文档图像，本文提出了一种多特征融合的卷积神经网络的文档目标检测算法。本文方法克服了传统方法的缺点，实现了同时对文档版面中插图、表格、公式区域的检测与定位。在模型上，并未采用复杂的预处理过程，模型结构简单。在训练样本数量少的情况下，相比主流分割模型，本文模型在像素准确率以及均交并比两项指标中，分别达到98.10%、87.26%，优于FCN以及DeeplabV3网络。但是由于ICDAR 2017 POD数据集只标注段落中的独立公式，对嵌入在文本行内或文本块段落内的公式并没有进行标注，因此这些公式是以普通字符处理，并不会对其进行检测。现阶段文档图像版面分析主要集中在曼哈顿版面的印刷体文档图像处理，在非曼哈顿版面的研究上仍有较大的进展空间，且缺乏大规模的有标记的文档数据集，这些都需要进一步完善。

参考文献

Arif S and Shafait F. 2018. Table detection in document images using foreground and background features//Proceedings of 2018 Digital Image Computing: Techniques and Applications. Canberra, Australia: IEEE: 1-8[DOI: 10.1109/DICTA.2018.8615795]

Barakat B K and El-Sana J. 2018. Binarization free layout analysis for Arabic historical documents using fully convolutional networks//Proceedings of the 2nd IEEE International Workshop on Arabic and Derived Script Analysis and Recognition. London: IEEE: 151-155[DOI: 10.1109/ASAR.2018.8480333]

Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking Atrous convolution for semantic image segmentation[EB/OL]. 2017-12-05[2019-05-05]. https: //arxiv.org/pdf/1706.05587.pdf

Clausner C, Antonacopoulos A and Pletschacher S. 2017. ICDAR2017 competition on recognition of documents with complex Layouts-RDCL2017//Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition. Kyoto, Japan: IEEE: 1404-1410[DOI: 10.1109/ICDAR.2017.229]

Dai J F, Li Y, He K M and Sun J. 2016. R-FCN: object detection via region-based fully convolutional networks[EB/OL]. 2016-05-20[2019-05-05]. https://arxiv.org/pdf/1605.06409.pdf

Eskenazi S, Gomez-Krämer P and Ogier J M. 2017. A comprehensive survey of mostly textual document segmentation algorithms since 2008. Pattern Recognition, 64: 1-14[DOI: 10.1016/j.patcog.2016.10.023]

Fink M, Layer T, Mackenbrock G and Sprinzl G.2018. Baseline detection in historical documents using convolutional U-Nets//Proceedings of the 13th IAPR International Workshop on Document Analysis Systems. Vienna: IEEE: 37-42[DOI: 10.1109/DAS.2018.34]

Gao L C, Yi X H, Jiang Z R, Hao L P and Tang Z. 2017a. ICDAR2017 competition on page object detection//Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition. Kyoto, Japan: IEEE: 1417-1422[ DOI:10.1109/ICDAR.2017.231]

Gao L C, Yi X H, Liao Y, Jiang Z R, Yan Z Y and Tang Z. 2017b. A deep learning-based formula detection method for PDF documents//Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition. Kyoto, Japan: IEEE: 553-558[DOI: 10.1109/ICDAR.2017.96]

Garcia-Garcia A, Orts-Escolano S, Oprea S, Villena-Martinez V and Garcia-Rodriguez J. 2017. A review on deep learning techniques applied to semantic segmentation[EB/OL]. 2017-04-22[2019-05-05]. https://arxiv.org/pdf/1704.06857.pdf

Gilani A, Qasim S R, Malik I and Shafait F. 2017. Table detection using deep learning//Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition. Kyoto, Japan: IEEE: 771-776[DOI: 10.1109/ICDAR.2017.131]

Hao L P, Gao L C, Yi X H and Tang Z. 2016. A table detection method for PDF documents based on convolutional neural networks//Proceedings of the 12th IAPR Workshop on Document Analysis Systems. Santorini, Greece: IEEE: 287-292[DOI: 10.1109/DAS.2016.23]

Kaddas P and Gatos B. 2018. A deep convolutional encoder-decoder network for page segmentation of historical handwritten documents into text zones//Proceedings of the 16th International Conference on Frontiers in Handwriting Recognition. Niagara Falls, NY: IEEE: 259-264[DOI: 10.1109/ICFHR-2018.2018.00053]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]

Oliveira D A B and Viana M P. 2017. Fast CNN-Based document layout analysis//Proceedings of 2017 IEEE International Conference on Computer Vision Workshops. Venice: IEEE: 1173-1180[DOI: 10.1109/ICCVW.2017.142]

Redmon J and Farhadi A. 2017. Yolo9000: better, faster, stronger//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE: 6517-6525[DOI: 10.1109/CVPR.2017.690]

Ren S Q, He K M, Girshick, Sun J. 2017. Faster R-CNN:towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Shelhamer E, Long J, Darrell T. 2017. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]

Tran T A, Oh K, Na I S, Lee G S, Yang H J, Kim S H. 2017. A robust system for document layout analysis using multilevel homogeneity structure. Expert Systems with Applications, 85: 99-113 [DOI:10.1016/j.eswa.2017.05.030]

Yu C, Levy C C and Saniee I. 2017. Convolutional neural networks for figure extraction in historical technical documents//Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition. Kyoto: IEEE: 789-795[DOI: 10.1109/ICDAR.2017.134]

Yu F and Koltun V. 2016. Multi-scale context aggregation by dilated convolutions[EB/OL]. 2016-04-30[2019-05-05]. http://arxiv.org/pdf/1511.07122.pdf