网刊加载中。。。

论文引用格式：Wang H X， Wu J L and Chen D S. 2023. A complex background-related binarization method for document-contextual information processing. Journal of Image and Graphics， 28（07）：2011-2025（引用格式:王红霞，武甲礼，陈德山. 2023. 分离复杂背景下的文档图像二值化方法. 中国图象图形学报， 28（07）：2011-2025）［0　引言随着深度学习的发展，光学字符识别技术（optical character recognition，OCR）取得了飞速的进步，但是对于复杂背景的文档图像识别还存在假阳性高、训练数据不足等诸多问题（王珂等，2020）。而二值化是OCR的重要步骤，是处理复杂背景的主要过程，该过程将拍摄到的彩色图像或处理得到的灰度图二分分割，输出只含有文字信息的图像，使计算机在不被复杂背景影响的前提下更快更准确地识别文字。因此，文档图像的二值化处理具有重要意义。最早的二值化方法主要是阈值法，包括全局阈值法和局部阈值法。主要思想是在整个图像或特定的滑动窗口中统计像素的灰度分布，根据这个灰度分布计算出一个阈值，再用该阈值和目标像素的大小关系区分背景和文字像素。其中比较著名的有最大类间方差法（Otsu）（Otsu，1979），将使图像像素分布的类间方差最大的灰度值作为阈值。Matas等人（2004）提出的区域特征提取算法（maximally stable extremal regions，MSER）使用不同的灰度阈值对图像进行二值化并得到最稳定的区域，特点是能对渐变像素进行处理。随着深度学习的发展（青晨等，2020），该技术开始应用于文档图像的二值化处理。Long等人（2015）提出了全卷积神经网络（fully convolutional networks，FCN），这是一种端到端的预测网络，移除了一般分类网络的全连接层，使用上采样和跳跃式结构将不同尺度下采样的特征图融合还原成原本输入图像大小的密集预测，这种密集预测在FCN中用于语义分割。二值化本身也是一个二分类的分割问题，不同的是二值化的文字目标与传统语义分割的目标在特征上存在较大差异，文字目标边缘并不规则，文字存在很大的镂空区域，不同风格的字体差异很大，且这些问题在复杂背景中会进一步加剧。在FCN的基础上，Ronneberger等人（2015）提出U-Net网络，给出了具体的编码—解码结构（韩慧慧等，2020），为成对出现的编码器和解码器添加了跳跃连接。与FCN相比，U-Net主要用于医学图像分割，分割的目标种类更少，在数据量不够充足的医学图像分割中表现较好。无论是较少的分类目标还是不够充足的监督训练数据，医学图像分割都与图像二值化分割很相似，U-Net在文档图像的二值化分割中表现也较好（Pratikakis等，2017）。但是，基于U-Net的方法存在假阳性较高的问题，如图1红色区域所示，输入图像的深色边界虽然没有文本像素的形态特征，但颜色分布上接近，在U-Net的二值化结果中产生了较大范围的假阳性区域。实验发现，这是因为U-Net二值化分割网络存在严重的错误拟合问题，使用U-Net处理一幅二值化图像，第2层解码器输入特征图各通道标准差分布如图2所示，其中蓝色点为跳跃连接传递的浅层特征，红色点为上采样输入的深层特征。可以看到，上采样的特征完全没有激活，各个通道特征值的标准差全部为0。10.11834/jig.220098.F001图1U-Net处理复杂背景的效果Fig.1Result of U-Net processing complex background10.11834/jig.220098.F002图2U-Net第2个解码器的特征输入Fig.2Characteristic input of the second U-Net decoder这说明即使是使用了深度学习的方法，U-Net也只是学习到了浅层的特征，最后的二值化结果是只依靠浅层特征分割的结果。二值化的主要依据仍是像素的颜色和对比度这样的浅层特征。因此辨别出与文字具有相似浅层特征的混淆背景是二值化亟待解决的问题，如颜色过深的背景容易被误判，粗笔画文字与深色背景相似，细笔画文字与纸张褶皱相似，透印的文字即保有文字的形态特征又有一定的颜色深度，渐变的背景使文字和背景的对比度不够明显等。针对这样的复杂背景问题，本文提出一种分离复杂背景下的文档图像二值化方法，通过进一步挖掘深度特征的方式，处理复杂背景的文档图像二值化问题。1　相关工作混淆目标的区分在语义分割中是常见的问题（王嫣然等，2019），在二值化领域则突出表现为较为严重的假阳性。经过训练的网络在二值化判断上容易以单一的色彩或对比度为导向，因此复杂背景中与文字相似的像素容易被误判成文字前景。如果对误判的混淆背景和文字做进一步区分，网络则需要对深度的抽象语义信息进行处理，综合考虑多种特征。为了达到这个目的，语义分割方法中提出了较多思路，如改进的编码—解码结构、半监督学习方法、多尺度特征信息捕获、注意力和上下文机制、预处理和后处理以及定向区分网络结构功能和多阶段分割等。与本文方法相关的工作主要包括网络结构改进和多阶段分割。优化网络对特定问题的处理效果，最为直接的方法就是改进网络结构，Zhou等人（2018）为U-Net重新设计了跳跃连接路径和深度监督机制，构建了U-Net++，在肺结核分割、细胞核分割等医学图像分割上取得了显著的进步。Zhuang（2019）提出了Laddernet模型，通过级联两个U-Net的结构，在视网膜血管分割中表现良好。值得注意的是，视网膜血管分割的输入数据和分割结果与二值化过程十分相似，只不过识别的目标分类不同。2019年的文档图像二值化比赛（competition on document image binarization，DIBCO）中Quang-Vinh等人使用改进于Laddernet的网络取得了第3名的成绩（Pratikakis 等，2019）。Kang等人（2021）也使用这种级联U-Net的结构进行二值化处理，同样取得了不错的效果。Zhou等人（2018）和Zhuang（2019）在实验中证明这种分割效果的提升主要来自于结构上的优化，而不是加深网络深度使网络学习更多的特征，尤其是医学图像分割和二值化处理中，过分加深网络深度并不能给分割效果带来明显提升，因为小数据集的限制也是制约最后分割效果的原因之一。多阶段分割是人为控制网络的阶段性输出，而不是将网络的处理过程看做一个完全不可理解的抽象过程。很多分割框架使用了多阶段分割的方法（Jing等，2021；Zhang等，2021；Lee等，2021；翟鹏博等， 2020），Cheng等人（2020）先用一个简单的语义分割网络对图像进行分割，输出不同精度的分割结果，然后将原图和上一阶段分割结果进一步处理，得到更加细致的分割结果。Wang等人（2020）构建了一个双路网络，一个路径用于图像的超分辨率重建；一个用于学习语义特征，只不过这两个阶段的处理过程是可以并行的。张淑萍等人（2020）使用蒙版进行阴影图像重建，第1阶段使用网络生成阴影蒙版，下一阶段则根据阴影蒙版和阴影图像重建无阴影图像。Huang等人（2020）的思路与Cheng等人（2020）的相似，先对大视野的图像输入进行二值化，保留全局特征，然后使用小尺度的图像重新二值化，最后组合两种分割结果。陈健（2019）使用自适应锐化结合光照补偿的方法作为预处理，分割模型以U-Net为基础，分别测试了残差结构与可分离卷积等多种类型的网络模块，得到了相当优秀的二值化结果。二值化中采用多阶段分割方法的优势在于：细化网络的分工，少量标记数据在不同阶段结构的训练中复用，且不同阶段结构处理的问题单一，不需要拓展成过于复杂的网络结构等。参考上述思路，本文通过改进编码—解码结构和细化网络处理阶段，提出一个分离复杂背景的二阶段二值化分割网络用于文档图像的二值化处理。2　本文方法针对前文分析的深层特征没有被识别导致假阳性过高即易混淆背景被识别为文字的问题，本文提出分离复杂背景下的文档图像二值化方法。该方法分为易误判背景分离和二值化分割两个阶段。第1阶段生成一个假阳性掩码，用来筛选易误判像素；第2阶段输入原始文档图像，并利用第1阶段生成的掩码引导二值化分割。其中，第2阶段为了更好地识别文字像素细节，又提出了一种非对称的编码—解码结构。2.1　本文方法总体流程对于具有复杂背景的文档图像，需要尽可能区分容易与文字像素混淆的复杂背景，解决复杂背景下，尤其是深色像素干扰时，分割结果假阳性过高的问题，从而提升最终的二值化效果。本文提出的二阶段二值化网络由假阳性掩码生成网络和细节分割网络两部分组成。具体工作流程如图3所示。10.11834/jig.220098.F003图3二阶段二值化网络工作流程Fig.3Workflow of two-stage binarization method首先将原始的文档图像I输入到假阳性掩码生成网络Mask-Net，经过假阳性像素识别，输出一个容易被误判为文字的背景预测MFP-pred。然后将复杂背景预测MFP-pred与原始图像I进行通道连接，生成包含复杂背景信息的高分辨率特征图。最后将该特征图输入到细节分割网络Detail-Net中，在MFP-pred指示出复杂背景的前提下，输出二值化预测。复杂背景预测MFP-pred和二值化预测MBinarize分别使用伪假阳性掩码M^FP和二值化标注Mgt指导训练，而M^FP是由OTSU二值化结果MOTSU和标准二值化结果Mgt生成的。2.2　假阳性掩码生成网络在整个方法中，假阳性掩码生成网络负责第1阶段的处理，从文档图像中区分出容易被误判的复杂背景，生成一个假阳性像素的掩码。假阳性掩码生成网络由4组对称的编码—解码器和1个瓶颈层组成，如图4所示。10.11834/jig.220098.F004图4假阳性掩码生成网络结构Fig.4Structure of network generating false positive mask假阳性掩码生成网络的设计要点如下：1）取消编码—解码结构的浅层跳跃连接。实验证明，训练中二值化网络容易收敛到一个只用浅层语义信息进行分割的局部最优解。为了进一步提取更加抽象的高级语义特征，在掩码生成网络中移除浅层编码—解码器之间的跳跃连接，确保处理高级语义信息的网络层在训练过程中被激活，各组编码—解码器提取的特征结果对比将在3.4.2节具体说明。2）深层网络引入残差结构（He等，2016），具体设计中，深层网络引入残差结构以保证这些网络不会出现过多参数冗余，并避免收敛缓慢的问题。3）改进深层跳跃连接。上采样得到的特征图经过多次特征提取，与跳跃连接传递的特征图之间存在语义差异（Zhou 等，2018），本设计在跳跃连接中增加了卷积层，如图4中跳跃连接部分所示，以弥补语义差异。用原始图像I∈RH×W×3，作为掩码生成网络的输入，掩码生成网络最终得到一个三通道的特征图FMask∈RH×W×3，这3个通道分别视做复杂背景的预测、标准二值化结果的预测以及简单背景的预测。复杂背景的伪标签M^FP通过标准二值化结果Mgt相对OTSU算法结果MOTSU的补集生成，简单背景的伪标签M^bg则是图像中既不属于二值化结果也不属于复杂背景的像素构成的集合。具体为M^FP=MOTSU－Mgt （1）M^bg=1－MOTSU－Mgt （2）式中，Mgt是标准二值化标注，MOTSU为OTSU算法的二值化结果，“－”为相对补集运算。假阳性掩码的损失函数定义为LMask=LDicesigmodFMask, Maskgt （3）Maskgt=concatM^FP, Mgt, M^bg （4）式中，sigmod（·）为sigmod函数，concat（·， ·）为沿着通道方向拼接特征图，LDice为Dice系数损失，定义为LDiceX,Y=1-DiceX,Y （5）DiceX,Y=2X⋂YX+Y （6）式中，X与Y为两个集合。2.3　细节分割网络第1阶段生成的假阳性掩码已经将主要的易混淆背景分离出来，第2阶段细节分割网络的作用则是在假阳性掩码的引导下进行二值化分割。一方面，利用假阳性掩码排除阳性概率高的背景像素，分割出文字像素；另一方面，掩码网络的高分辨率信息通过反卷积从抽象信息中还原，会损失一部分细节特征，而细节分割网络则通过重新提取原始图像的高分辨率特征将其还原。细节分割网络结构如图5所示，由4组编码—解码器构成，这里的编码—解码器使用了第2.4节的非对称结构。10.11834/jig.220098.F005图5细节分割网络结构Fig.5Detail segmentation network structure细节分割网络的输入有两个，一个是原始的图像输入I ∈ RH×W×3，一个是掩码生成网络的复杂背景预测MFP-pred ∈ RH×W×1，最终细节分割网络输出二值化的结果预测MBinarize，其输出使用二值化损失LBinarize进行约束，对应损失为LBinarizeX,Y=LDiceMBinarize, Mgt （7）MBinarize=DconcatI, MFP-pred （8）式中，D（·）代表细节分割网络，MFP-pred为掩码生成网络掩码通道对应的预测结果，且经过了sigmod函数激活。2.4　非对称的编码—解码结构不同于一般图像语义分割中常见的目标，文字像素通常不具有平整的轮廓，且文字内部存在过多的镂空区域，通常的分割网络多是处理连接成片的区域，在分割存在镂空区域和复杂边缘的目标上的表现并不良好（贾斌峰，2019），具体反映在两方面。1）加深网络不一定带来二值化效果提升。通过实验发现，过多加深网络深度反倒会给二值化结果带来负优化。因为过度增加网络的体积容易使网络在低质量文档图像这样小数据集上过拟合。2）中间层被跳过。Yosinski等人（2014）的研究提到网络训练过程中，接近输入输出的网络层最先收敛，中间层则需要更多训练。3.4.2小节的实验结果也证明二值化问题中，U-Net的中间层被跳过。为此，本文将编码—解码器的通道数减少，改变原本对称的结构，提出精简的非对称的编码—解码结构，并且给出实验中应用到的两种非对称分布方式，如图6所示。10.11834/jig.220098.F006图6两种非对称编码—解码结构Fig.6Two kinds of asymmetric encoder-decoder structures（（a） the first type；（b） the second type）主要改进如下：1）在两种结构中，将每个编码器的卷积运算分别增加至3次和4次。多次的卷积运算增加了网络的感受视野，同时可以学习更多非线性特征（Simonyan和Zisserman，2015）。对应的解码器卷积层减少为2个和1个，目的是在编码器加深的情况下，更有效地训练各层编码器和瓶颈层。2）在编码器的卷积运算之间引入残差连接。连续的卷积层填充会使特征图的边缘像素的预测失真，本设计通过残差连接来抑制这种情况。3　实验结果与分析3.1　实验细节3.1.1　数据集DIBCO数据集，即文档图像二值化竞赛的数据集。此数据集包含大小不同、问题各异的低质量文档图像，包含手写文字和打印文字，涵盖了影响二值化效果的典型问题，如文字透印、字迹模糊、光照不均匀和复杂背景等。自2009年至今，DIBCO竞赛共举办10次，每次比赛提供10～20幅具有准确标注的图像，其中2019年数据集与往年数据集相差较大，相关研究均未将2019年的数据集作为参照，因此本文实验收集2019年之外116幅大小不同的图像作为数据集。实验分别在DIBCO2018（Pratikakis 等，2018）、DIBCO2017（Pratikakis等，2017）以及DIBCO2016（Pratikakis等，2016）数据集上进行测试。3.1.2　实现细节训练时，在DIBCO2009—2018数据集中，除去测试年份的数据，将其他年份的数据集作为训练数据。从数据中随机裁剪出448 × 448像素大小的窗口，对Mask-Net和Detail-Net两个网络进行联合训练，其损失为Loss=αLMask+LBinarize （9）式中，α为掩码输出损失的权重系数，值为1或0。由于复杂背景区域没有标准的界定，且OTSU算法得到的伪标签提供信息有限，所以开始训练时α为1，迭代超过10 000次后，α设为0，此时只有二值化损失生效。算法实现采用PyTorch（Paszke等，2017），网络参数的学习采用Adam优化器（Kingma和Ba，2017），学习率为10-4，权重衰减为0，开源代码公布在https：//github.com/wjlbnw/Mask_Detail_Net。3.2　评估指标FM、Fps、PSNR和DRD是常用的二值化评估指标。FM（F-measure）（Powers，2021）是一个根据精确率（precision）和召回率（recall）计算的比值，具体为Precision=TPTP+FP （10）Recall=TPTP+FN （11）FM=2×Recall×PrecisionRecall+Precision （12）式中，TP表示正确预测为前景的像素，FP表示误判为前景的像素数，FN表示漏判的像素数。Fps（pseudo F-measure），又称为p-FM，由Ntirogiannis等人（2013）提出，在原本FM的计算中引入了伪召回率，可以在FM结果相近的时候区分二值化效果，具体为p-Recall=∑x=1, y=1x=M, y=NSG(x,y)×B(x,y)∑x=1, y=1x=M, y=NSG(x,y) （13）Fps=2×p-Recall×Precisionp-Recall+Precision （14）式中， M和N为图像的宽和高，SG（x， y）和B（x， y）分别为在（x， y）处二值化的标准结果和算法预测结果，前景为1，背景为0。峰值信噪比（peak signal to noise ratio，PSNR）是根据均方误差和像素差异计算的一个标准，用来标识图像的失真程度，PSNR越大，表示失真越少，具体为MSE=∑x=1M∑y=1N(I(x,y)-I'(x,y))2MN （15）PSNR=10logC2MSE （16）式中， MSE为二值化结果和标准的二值化结果的均方误差，I（x， y）和I'（x， y）分别表示在（x， y）处的标准预测像素值和二值化结果像素值，M和N分别为图像的宽和高。DRD（distance reciprocal distortion metric）用于标识视觉失真，与二值化效果负相关。其计算为DRDk=∑i=x-2x+2 ∑j=y-2y+2GTk(i, j)-B(x, y)×Wnm(i, j) （17）DRD=∑DRDkNUBN （18）式中，NUBN表示标准二值化结果中不全为黑或不全为白的8 × 8大小像素块个数，DRDk标识第k个翻转像素的失真程度，Wnm表示以（i， j）为中心的权重矩阵，矩阵的取值为各点到中心点距离的倒数，其中m表示权重矩阵大小，一般为5，n表示矩阵参数经过了归一化操作。GTk（i， j）为标准二值化结果在这个矩阵上（i， j）处的值，Bk（x， y）为二值化结果中第k个翻转像素的值，这个像素的坐标为（x， y）。3.3　实验结果与分析为了验证本文提出的分离复杂背景的二阶段二值化网络的效果，分别在DIBCO2018、DIBCO2017和DIBCO2016等3个数据集上进行实验，并与其他优秀二值化算法进行对比。Detail-Net为接入第2种非对称编码—解码结构的细节分割网络，未接入掩码输入；综合Mask-Net和Detail-Net的分离复杂背景的二阶段二值化网络记为Mask-Detail-Net。在DIBCO2018数据集上的实验对比结果如表1所示。其中，Otsu（1979）与Sauvola和Pietikäinen（2000）为经典的二值化算法，DIBCO2018-1st为官方比赛中取得第1名的二值化算法，Kang等人（2021）与Huang等人（2020）分别为构建级联网络结构和全局—局部阶段分割的二值化方法，陈健（2019）提出的两种二值化方法，后者使用了局部自适应锐化结合光照补偿的预处理。10.11834/jig.220098.T001表1在DIBCO2018上的实验对比结果Table 1The results of comparative experiment on DIBCO2018二值化方法FM/%Fps/%PSNR/dBDRD/%Otsu（1979）51.4553.059.7459.07Sauvola和Pietikäinen（2000）67.8174.0813.7817.69U-Net83.0586.9017.636.76DIBCO2018-1st （2018）88.3490.2419.114.92Zhao等人（2019）87.7390.6018.374.58陈健(2019）91.4795.2119.762.68陈健(2019)（预处理）92.5295.8720.322.26Huang等人（2020）92.1094.8820.412.36Kang等人（2021）89.7191.6219.392.51Detail-Net89.4192.3419.083.81Mask-Detail-Net92.3595.2020.312.67注：加粗字体表示各列最优结果。从表1可以看出，Detail-Net二值化效果较DIBCO2018比赛第1名有明显提升，FM超过89，除与PSNR相差0.03外，其他指标均超过后者，Detail-Net总体结果与Kang等人（2021）的效果很接近。Mask-Detail-Net使用Mask-Net结构分离复杂背景，同时运用细节分割网络进行二值化处理，进一步提升了二值化效果，FM超过92%，Fps超过95%，PSNR超过20。与Kang等人（2021）的级联U-Net结构相比，Mask-Detail-Net综合性能更优，仅DRD稍差；与陈健（2019）未预处理的结果相比，FM和PSNR有明显优势；与Huang等人（2020）方法相比，Mask-Detail-Net在FM和Fps上均表现更好。Mask-Detail-Net仅次于陈健（2019）（预处理）的结果，这是由于陈健（2019）方法中预处理带来的额外提升。值得一提的是，Huang等人（2020）使用的全局—局部二值化分割，虽然没有对多阶段分割进行探讨，但全局—局部的处理过程，也是多阶段分割的一种实现方式，其实验效果也证明了多阶段分割在二值化处理上的有效性。因此，在多种优秀方法中本文的二阶段方法与Huang等人（2020）方法均表现优异。为了进一步对比本文网络的二值化效果，同样在DIBCO2017以及DIBCO2016上进行实验，并与目前优秀的二值化算法进行对比，实验结果分别如表2和表3所示。10.11834/jig.220098.T002表2DIBCO2017的对比实验结果Table 2The results of comparative experiment on DIBCO2017二值化方法FM/%Fps/%PSNR/dBDRD/%Otsu（1979）77.7377.8913.8515.54Sauvola和 Pietikäinen(2000）77.1184.114.258.85DIBCO2017-1st91.0492.8618.283.4Zhao等人（2019）90.7392.5817.833.58陈健（2019）91.7493.1418.432.68陈健（2019）（预处理）92.6194.9118.962.35Huang等人（2020）92.1493.0218.712.81Kang等人（2021）91.5793.5515.852.92Detail-Net92.6294.3519.182.54Mask-Detail-Net93.4694.5519.442.28注：加粗字体表示各列最优结果。10.11834/jig.220098.T003表3DIBCO2016的对比实验结果Table 3The results of comparative experiment on DIBCO2016二值化方法FM/%Fps/%PSNR/dBDRD/%Otsu（1979）86.6188.6717.805.56Sauvola和Pietikäinen(2000）82.5286.8516.427.49DIBCO2016-Winner87.6191.2818.115.21Vo等人（2018）90.1093.5719.013.58Jia等人（2018）90.4893.2719.303.97Zhao等人（2019）91.6694.5819.642.82陈健（2019）90.2893.4819.173.27陈健（2019）（预处理）90.8393.5319.283.12Huang等人（2020）90.7794.2119.333.11Kang等人（2021）93.0994.8519.183.03Detail-Net90.5293.6819.073.31Mask-Detail-Net92.1394.0019.732.82注：加粗字体表示各列最优结果。从表2和表3可以看出，Mask-Detail-Net在两个数据集上均表现优秀。在DIBCO2017数据集上，Mask-Detail-Net二值化结果的FM和DRD提升明显，分别为93.46和2.28，包括PSNR在内，均为最佳，仅Fps略低于陈健（2019）（预处理）的效果。在DIBCO2016数据集上，Mask-Detail-Net二值化结果的PSNR和DRD两个指标同比最优，Mask-Detail- Net的二值化效果超过了陈健（2019）（预处理）的结果，与Kang等人（2021）方法效果相当，即使DICBO2016中的复杂背景也仅集中在透印问题上。3.4　消融实验3.4.1　编码—解码结构对比为了验证非对称编码—解码器的文档图像二值化效果，将U-Net的几种变体在DIBCO2018数据集上进行二值化对比实验，结果如表4所示。其中，U-Net-Deep为加深编码—解码层次的U-Net，U-Net-Shallow为去除一层编码—解码器的U-Net，U-Net-Cross-Layer为引入跨层连接的U-Net，U-Net-Asymmetry1和U-Net-Asymmetry2分别为接入本文两种非对称编码—解码结构的U-Net。U-Net-Deep网络参照VGG16（Visual Geometry Group-16）（Simonyan和Zisserman，2015）结构，将部分编码器和解码器的卷积次数增加到3次，同时增加了1组编码—解码器。U-Net-Shallow移除了1组标准U-Net中没有激活的深层编码—解码器，为了抵消移除深层网络带来的网络参数过分减少，它增加了编码器和解码器的滤器数量和深度。U-Net-Cross-Layer通过密集连接的方式，将所有的跨层信息传递给后续的编码器和解码器（Zhou等，2018）。10.11834/jig.220098.T004表4DIBCO2016的对比实验结果Table 4The results of comparative experiment on DIBCO2016二值化方法FM/%Fps/%PSNR/dBDRD/%U-Net83.0586.9017.636.76U-Net-Deep81.4982.4015.869.63U-Net-Shallow79.4981.7915.6011.55U-Net-Cross-Layer81.2384.8417.506.95U-Net-Asymmetry186.6088.6818.285.28U-Net-Asymmetry289.4192.3419.083.81从表4可以看出，增加网络深度的U-Net-Deep并没有给二值化结果带来提升，二值化结果的各项指标均低于基准U-Net网络。与一般的语义分割相比，二值化分割受限于数据集的特点较为明显，使得增加网络深度的改进在二值化中出现负优化的情况。U-Net-Shallow移除深层的编码—解码结构，同时增加浅层编码—解码器的卷积层深度和数量，其二值化效果明显降低，这是因为增加卷积层虽然防止了网络参数的过分减少，但是影响了浅层编码—解码器的训练效果，因此在非对称编码—解码结构增加了残差结构预防这种问题。同样地，U-Net-Deep网络深度的加深虽然有助于保留文字前景分布在不同分辨率中的特征，但是增加网络深度，二值化的小数据集不足以使其充分训练。所以如何通过有效训练提取到文字特征信息，是二值化网络需要面对的一个问题。引入跨层信息的U-Net-Cross-Layer与U-Net- Deep相比，除了FM略低，其他指标均明显优于后者。但是U-Net-Cross-Layer的各项指标均低于基准U-Net。这是由于网络处理过程中，为了融合跨层信息，网络增加许多额外的上采样和下采样处理，经过分辨率转换的特征图往往没有提取足够的特征就再次进行尺度变换，所以不能保证这些跨层信息得到有效利用。从其结果上看，保存过多的跨层信息并不适用于复杂背景的二值化处理。而两种非对称编码—解码结构的U-Net在二值化各项指标上均有提升。与基准U-Net相比，使用第1种非对称结构U-Net网络的FM值为86.60%，提升了3.55%；使用第2种非对称结构U-Net的FM值进一步提升，接近88%，且Fps值也得到明显提升，超过了90%，表明算法的二值化输出与标准的二值化结果更加接近。两种非对称结构的DRD都有明显的下降，分别下降了1.48和2.24，DRD值越小表明二值化结果的失真程度越小。实验结果表明，使用非对称结构的U-Net更准确地提取了文字特征，二值化效果受复杂背景的影响更小。与第1种非对称结构相比，第2种非对称结构二值化效果得到进一步提升。因为后者进一步增加编码器深度，且精简解码器，提取更多的文字特征，同时使网络得到更有效的训练。两种非对称结构网络的整体深度相同，参数量几乎相同，而后者效果更好，表明非对称结构的二值化性能提升来自于结构优化而不是增加参数。本文最终的细节分割网络采用效果更佳的第2种非对称编码—解码结构。3.4.2　解码器输入特征对比编码—解码器的有效训练也是二值化算法中的重要问题之一。为了对比不同编码器和解码器训练效果，将U-Net、Mask-Net、Detail-Net等4个解码器的输入特征导出，特征图每个通道的特征值标准差如图7所示，其中，图7（a）—（c）分别为标准U-Net、Mask-Net和Detail-Net的4个解码器输入特征图各通道特征值的标准差分布，从左到右分别对应第4对到第1对编码—解码器的解码器输入特征。散点图的横坐标为通道索引，纵坐标为对应通道的特征值标准差，蓝色点为跳跃连接输入的特征值标准差，红色点为上采样层输入的特征值标准差。10.11834/jig.220098.F007图7解码器输入特征图各通道标准差对比Fig.7Comparison of standard deviation of each channel of decoder input tensor（（a） inputed into decoders in U-Net；（b） inputed into decoders in Mask-Net；（c） inputed into decoders in Detail-Net）从图7可以看到，解码器输入特征包含对称编码器的输出（跳跃连接）和上采样层（瓶颈层或上一层解码器）的输出，从左到右，解码器输入特征图通道数逐个减少，对应的标准差散点逐渐稀疏。图7（a）前3幅图中，U-Net的瓶颈层和第4组编码器输出、第3组编码器和第4组解码器输出以及第3组解码器输出的特征图各通道标准差均为0，说明这些深层网络在训练中完全没有被激活；第4幅图为第1组解码器的输入，获取的特征只有第1组编码器、第2组编码器和解码器提取的浅层信息。因此，U-Net仅参照浅层信息进行二值化分割。图7（b）后两幅图中只有上采样层输出的特征，因为Mask-Net移除了浅层跳跃连接；图7（b）前两幅图中，Mask-Net深层网络输出特征图的通道标准差明显增加，说明这些深层网络得到了有效的训练，这是因为2.2小节Mask-Net设计中移除了浅层跳跃连接、补偿了跳跃连接的语义差异并使用掩码损失约束训练过程，使网络没有收敛到只依靠浅层信息进行分割的局部最低点，使得深层语义信息传递给上层解码器，Mask-Net通过这些信息分离图像的复杂背景。图7（c）中Detail-Net大部分深层网络的输出特征通道标准差不为0，说明非对称结构无需改变跳跃连接结构也可以使深层网络被有效训练；小部分通道上的标准差为0则是因为卷积层通道足够多的时候，这一小部分通道是冗余的。图8和图9直观展示了Mask-Net和Detail-Net部分特征通道的激活结果。图8第1幅图为输入图像，其余为Mask-Net的特征通道激活效果，可以直观地看到，Mask-Net的这些特征图已经对一般的背景、易混淆的背景以及文字像素做出了区分。图9第4幅图为Detail-Net的二值化预测，其余为Detail-Net的特征通道激活效果，可以看到，在Mask-Net输入的假阳性掩码指导下，Detail-Net有效抑制了假阳性区域并正确分割，同时Detail-Net的特征图中文字像素的细节也更加清晰。10.11834/jig.220098.F008图8掩码网络的深层特征激活Fig.8Deep feature activation of mask network10.11834/jig.220098.F009图9细节网络浅层细节处理Fig.9Shallow detail processing of detail network3.4.3　复杂背景的处理效果对比实验分别在DIBCO2018、DIBCO2017和DIBCO2016数据集上对比有无假阳性掩码生成网络Mask-Net的两种情况下正确前景、漏判前景和误判前景的像素占比，结果如表5所示。由表5可知，在使用Mask-Net分离复杂背景的情况下，细节分割网络的二值化结果中，误判前景的像素占比均明显下降，正确前景的像素占比明显提升。漏判前景像素占比在DIBCO2018上明显下降，在DIBCO2017和DIBCO2016上略有上升。结果表明，本文的Mask-Net有效缓解了假阳性过高的问题，辨别出与文字具有相似浅层特征的混淆背景，有效提升了二值化效果。10.11834/jig.220098.T005表5复杂背景分离效果Table 5Distinguishing effect of complex background /%数据集方法TPTP+FP+FNFPTP+FP+FNFNTP+FP+FNDIBCO2018Detail-Net81.4211.866.71Mask-Detail-Net85.989.48(-2.37)4.52DIBCO2017Detail-Net86.497.346.16Mask-Detail-Net87.854.91(-2.42)7.23DIBCO2016Detail-Net82.9210.696.37Mask-Detail-Net85.567.45(-3.24)6.97U-Net、本文Detail-Net和Mask-Detail-Net漏判和误判像素的对比效果如图10所示。4组分割结果中，红色区域为各算法将背景误判为文字的像素，蓝色区域为各算法漏判的文字像素，黑色和白色的像素分别为正确判断的文字和背景。10.11834/jig.220098.F010图10复杂背景处理结果对比Fig.10Comparison of complex background processing results （（a） original images；（b） U-Net；（c） Detail-Net；（d） Mask-Detail-Net）图10第1行中，原图的背景边缘部分像素深度明显超过主要文字像素深度，右下角文字则比较浅。基础U-Net在分辨这两种像素时，出现大面积误判像素和漏判像素。虽然其正确识别了一部分边缘深色背景，但是在最终结果中，深色背景和浅色背景的交界处仍存在大量的误判像素；且浅色的文字像素也有一定的漏判。Detail-Net整体效果优于基础U-Net，但仍存在少量的误判现象。而Mask-Detail-Net处理结果基本上不存在误判像素。图10第2行中，原图也存在深色边缘问题，同时存在更易混淆的纸张边缘纹理背景问题，这些边缘纹理颜色足够深且与周围的浅色背景有对比度，像素排列上类似细笔画文字，需要网络进一步区分深色像素的排列特征才能够分辨。针对原图深色边缘问题，由于深色边缘颜色深度低于文字像素，所以3个方法均可以正确识别，而针对更复杂的纹理背景问题，基础U-Net误判率较高，Detail-Net存在少量误判，Mask-Detail-Net则几乎将这些像素全部正确识别。图10第3、4行中，原图的复杂背景分别为颜色接近文字的墨水污渍和形态特征及颜色几乎与文字相同的非文字笔迹，网络需要凭借学习到的文字综合特征将其分离。由展示的效果图可知，Mask-Detail-Net与标准U-Net和Detail-Net相比，误判区域明显减少，分离复杂背景的效果更好。4　结论针对复杂背景下的文档图像二值化问题，设计了非对称的编码—解码结构，并提出分离复杂背景的二阶段二值化方法。非对称结构允许网络在更少参数量的基础上，增大编码过程中的感受视野，提取更多非线性特征，缓解网络过度依赖像素色彩和对比度进行二值化分割的问题。利用多阶段语义分割的思想提出一种分离复杂背景下的文档图像二值化方法，将易混淆的背景像素识别过程独立出来，将分离复杂背景和细节分割两个任务分阶段进行，根据面对的具体问题，用不同的思路分别构建假阳性掩码生成网络和细节分割网络，强化整个算法分离复杂背景的能力。实验结果表明，引入非对称编码—解码结构的网络在学习和识别文字特征时表现良好，各项指标均表现优异。假阳性掩码生成网络能够识别主要的假阳性区域，使得二阶段网络在面对复杂背景的处理时表现更好，进一步提升了二阶段网络的二值化效果。本文方法仍可以进一步改进，在二阶段分割中，假阳性掩码生成网络过于敏感，这使得在背景简单的文档图像上，假阳性掩码可能将少量文字像素识别为深色背景，造成漏判。理论上讲，可以通过限制假阳性掩码输入通道权重的方式抑制这种情况，但现阶段的网络还不能自适应地完成这项工作。这是多阶段分割都会面临的问题，即不同阶段的处理结果如何传递给下一阶段，有效解决这个问题可使多阶段分割的效果进一步提升。