网刊加载中。。。

论文引用格式：Qin H， Li Y J， Liang Q K and Wang Y N. 2023. AsymcNet： a document images-relevant asymmetric geometry correction network. Journal of Image and Graphics， 28（08）：2314-2329（引用格式:秦海，李艺杰，梁桥康，王耀南. 2023. 针对文档图像的非对称式几何校正网络. 中国图象图形学报， 28（08）：2314-2329）［0　引言随着计算机技术的普及与发展，人们已越发趋向于使用电子化的形式对文档进行存储与传播。现阶段，对纸质文档进行电子化录入通常使用光学字符识别（optical character recognition，OCR）技术实现。一个典型的OCR系统通常包括图像采集、图像预处理、字符识别及排版输出等4个步骤（Markovitz等，2020；Das等，2021）。其中图像采集是指使用图像采集设备对纸质文档进行成像，并转化为数字图像的过程。在图像采集时由于纸质文档与图像采集设备所在的平面可能并不平行、图像采集设备自身的透镜可能存在畸变或纸质文档本身可能存在形变，最终获取的数字图像往往具有一定程度的几何畸变。在使用手持式图像采集设备（如手机摄像头）进行图像采集时，这些干扰与畸变通常将更严重。如何设计出一种高鲁棒性的校正算法用于消除纸质文档在成像过程中产生的几何畸变，是当前计算机视觉领域研究的重点与难点（应自炉等，2020；Xie等，2021；Feng等，2021；Zhang等，2022；高良才等，2022）。在纸质文档成像过程中，导致成像结果出现几何畸变的成因较为复杂，大体来说，成因可归咎于以下3种情况：1）图像采集设备与纸质文档相对位置不理想导致的成像倾斜及透视畸变；2）图像采集设备自身（如透镜研磨误差或装配误差）导致的畸变；3）纸质文档本身的形变导致的畸变。对于简单的歪斜及透视畸变，业内一般通过透视变换或多项式校正进行处理。而在实际的校正过程中，常常涉及校正点的定位，校正点定位的精度将对最终的校正结果造成直接影响。在传统的数字图像处理方法中，常根据纸质文档的自身视觉特征使用边缘检测、角点检测和轮廓跟踪等算法进行组合对校正点进行定位。该定位过程中往往涉及许多参数需要人为调整，导致整个算法的适应性有限。由图像采集设备自身导致的畸变通常可分为径向畸变与切向畸变。其中，径向畸变常由透镜的物理形状所导致，切向畸变则来源于图像采集设备的整个装配过程的误差。实际情况中还存在其他畸变，但其影响通常没有径向畸变和切向畸变显著，故一般仅考虑径向畸变和切向畸变。对于这两种畸变，业内常通过相机标定（Zhang，1990）求取畸变参数进行处理。现阶段，对于相机标定业内已有较为成熟的解决方案。对于纸质文档本身形变导致的成像畸变，在基于神经网络的算法普及以前，业内常用的校正算法大多通过对文档图像进行三维重建来实现。获取文档图形的三维模型后，再通过相关优化算法求解出“展平”后的平整图像以实现文档图像的校正。在文档图像的三维重建过程中，这些算法一般会使用诸如激光扫描仪（Meng等，2014；Zhang等，2008）、结构光（Brown和Seales，2001）在内的辅助硬件，或使用多视图（Tsoi和Brown，2007；You等，2018）、基于先验假设的约束（Liang等，2008）以及基于图像本身的几何属性与视觉线索（Tian和Narasimhan，2011；Liu等，2015）来完成重建工作。在完成文档图像的三维重建后，对平整图像的优化求解过程仍需耗费高昂的计算成本。在实际情况下，导致成像出现几何畸变的成因往往是由上述列举的3种情况组合而成的，故而单纯地针对歪斜及透视畸变的透视校正与针对图像采集设备自身畸变的相机标定的实用性通常十分有限。针对纸质文档自身畸变进行三维重建的部分校正算法可以覆盖透视畸变与采集设备自身畸变所产生的几何畸变。但这些算法有些需要用到额外的硬件设备，有些需要在不同视角下对文档图像进行拍摄，有些则仅能处理相对简单的畸变且鲁棒性较弱。且此类算法的计算过程通常比较繁复，实现困难。随着神经网络理论的发展，基于神经网络的算法在计算机视觉及图像处理的众多领域内均表现出了优越的性能与前景。近年来，越来越多的学者尝试将神经网络应用于文档图像的几何校正中。Das等人（2017）和Xing等人（2018）分别使用卷积神经网络（convolutional neural network，CNN）（Krizhevsky等，2017）对文档的折痕及文档的形变进行估计，从而实现文档图像的校正。Li等人（2019）则构建了更为精细的数据集，使用切块的方法对数据集进行处理后送入网络进行训练，使模型更关注于文档图像的局部形变。但以上方法在实际应用时需要对图像进行预处理或后处理，并非端到端的校正算法。近年来，Ma等人（2018）提出的DocUNet（document image unwarping via a stacked U-Net）实现了端到端的文档图像校正。DocUNet由两个UNet网络堆叠而成，通过估计文档图像的形变来实现图像的几何校正，相比之前的方法取得较大的进步。但DocUNet所用的数据集是在一定假设的约束下所生成的，与真实世界中文档图像所产生的形变有较大出入，导致实际应用时泛化性不佳。在DocUNet的基础上，Das等人（2019）使用真实的形变文档与点云相机，通过渲染软件构建了具有多种形变类型的文档几何校正数据集Doc3D，并对DocUNet的结构进行了更改，设计了较为先进的文档处理网络DewarpNet（single-image document unwarping with stacked 3D and 2D regression networks）。Xie等人（2020）则构建了全连接网络DFE-FC（displacement flow estimation with fully convolutional network），使用三角剖分并引入局部平滑约束对文档的形变进行回归，同时引入前背景分割损失，使网络具有对图像文档区域进行分割的能力，以此提升模型在复杂背景下的处理效果。Bandyopadhyay等人（2021）提出的RectiNet（a gated and bifurcated stacked U-Net module for document image dewarping）则在网络的训练过程中显式地对文档区域的边缘进行回归，从而提升了校正算法对于不同视野下图像的泛用性。Ma等人（2022）结合真实世界的图像与合成图像混合训练模型PaperEdge，获得很好的泛化性能。Xue等人（2022）提出文档校正识别网络FDRNet（Fourier document restoration network），专注于傅里叶空间中的高频分量，能捕捉大部分结构信息。Jiang等人（2022）提出一种新颖的网格正则化方案，从约束优化的角度出发，通过考虑文本线和文件边界实现最佳的可读性。相比于传统的几何校正算法，无论是在硬件需求还是算法实现方面，基于神经网络的文档图像校正算法均表现出了更为优越的性能。但需要强调的是，现阶段提出的这些算法仍具有一定的局限性，其处理性能均有进一步提升的可能，特别是在离线化及轻量化的方向上具有较为广阔的探索空间。基于上述讨论，针对图像采集时可能存在的几何干扰，本文设计了非对称式级联几何校正网络（asymmetric geometry correction network，AsymcNet）对其进行处理。AsymcNet由用于文档区域定位的分割网络和用于校正网格回归的回归网络构成，两个子网络以级联的形式搭设。由于分割网络的存在，AsymcNet对于各种视野下的文档图像均能取得良好的校正效果。本文主要贡献为：1）提出了一种整合文档分割及校正功能的轻量化几何校正网络AsymcNet，AsymcNet可以端到端地完成文档图像的几何校正工作，相较于对比方法，AsymcNet在校正精度、运算效率及泛化性等方面均取得了良好的实验结果。2）在AsymcNet的设计过程中，提出使用小分辨率网格作为网络的回归目标，降低了网络的收敛难度与训练及推理时的显存消耗，同时提升了网络的泛化性。1　基于网格采样的图像几何校正1.1　从图像转换到形变回归2018年由Ma等人（2018）提出的DocUNet通常被认为是第1个具有实用价值的端到端文档图像几何校正网络。在此之前，业内通常将文档图像的几何校正视为一个图像转换任务，并多使用类全卷积网络（fully convolutional network，FCN）（Long等，2015）形式的网络架构对此类任务进行处理。然而沿用图像转换的思路对文档图像进行几何校正所取得的效果却不如预期。对于相对简单的畸变，在类FCN网络的架构上引入STN（spatial transformer network）（Jaderberg等，2015）模块或沿用pix2pix（Isola等，2017）的思想引入生成式对抗网络（generative adversarial network，GAN）（Goodfellow等，2020）后，可以获得较好的校正效果。但对于相对复杂的畸变，基于图像转换的思路却并不实用。pix2pix被视为一个通用的图像转换网络框架，在如图1所示的许多图像转换场景下，其表现十分优异。从宏观上来看，文档图像的几何校正可以认为是一个图像转换任务，但仔细分析不难看出，在图1中表现较好的应用场景下转换前后图像的结构内容通常差异较小，基于自监督学习的CycleGAN（Zhu等，2017）亦是如此。具体来说，基于pix2pix和CycleGAN等框架的图像转换网络并不具备在更高维或更抽象的层次上对图像特征抽取的能力。在使用此类网络完成图像转换任务时，网络更着重于图像本身的结构内容，换言之，此类网络对于图像特征的理解更多停留在图像本身。10.11834/jig.220426送排稿.F001图1pix2pix和CycleGAN等表现较好的应用场景示例Fig.1Examples of better performing application scenarios such as pix2pix and CycleGAN （（a） label-scene；（b） remote sensing-map；（c） grayscale map-color map；（d） spring-winter；（e） photo-painting；（f） apples-oranges）对于文档图像几何校正任务，原始图像与预期的校正结果间通常存在较大的结构内容差异，这种差异会随着原始图像畸变程度的加剧而放大。这也是使用图像转换的思路处理文档图像几何校正时仅能在较小畸变的场景下取得较好效果的原因。DocUNet将文档图像的几何校正视为一个形变回归任务进行处理，该网络希望通过对原始图像的特征进行抽取，从而回归出原始图像的形变参数。通过形变参数获取校正网格，然后根据校正网格对原始图像进行采样，从而获取校正后的图像。关于校正网格以及网格采样的机理将在1.2小节进行论述。相比于沿用图像转换的思路对文档图像进行几何校正，这种相对间接的校正方式对于复杂的图像畸变所取得的效果更好，后续的端到端图像几何校正网络也多采用这种思想进行设计与实现。本文设计的AsymcNet也采用这种思想进行设计。与原始的DocUNet不同，AsymcNet将直接回归出用于采样的校正网格，原始图像的形变参数不再显式地回归出来，从而省略了通过形变参数获取校正网格这一步骤。这也是自DocUNet之后端到端几何校正网络设计的惯例。1.2　校正网格与网格采样考虑一幅存在几何形变的文档图像A与一幅理想的校正后文档图像B，可以发现，图像A与图像B中的某些像素存在对应关系。具体来说，图像B可以认为是图像A中的像素依据某种规则的映射而生成的。这种映射规则可以用一个尺寸为2×h×w大小的张量来保存，将这个张量称为校正网格，按照这一规则进行映射的过程则称为网格采样。如图2所示，校正网格中X通道和Y通道(x0,y0)处的值gx和gy即表示图像A(gx,gy)处的像素点K将映射至图像B的(x0,y0)处。10.11834/jig.220426送排稿.F002图2校正网格及网格采样图示Fig.2Calibration grid and grid sampling illustration在Pytorch框架（Paszke等，2019）中，这一具体的映射过程被封装成了grid_smaple函数，其他的深度学习框架也有类似的映射函数。在实现文档图像的几何校正时，只要能通过原始图像准确回归出校正网格，即可很轻易地实现高精度的图像几何校正。可以发现，校正网格保存的实际上是一组坐标信息。在具体实现时，通常将校正网格中的值归一化至［-1， 1］区间内，其中（-1， -1）表示原始图像左上顶点的像素，（1， 1）则表示其右下底点的像素。经归一化后，校正网格的尺寸大小可以与原始图像不一致。在映射过程中，当根据校正网格中存储的坐标信息无法在原始图像中找到对应点时，通常使用双线性插值在原始图像中取值对输出图像进行填充。1.3　小分辨率网格回归性能度量通过1.2节的论述不难发现，在使用网格采样的方式对文档图像进行几何校正时，最终输出校正后图像的分辨率与校正网格的分辨率（为了方便后续讨论，将校正网格看做是一幅双通道的数字图像，故使用分辨率指代其尺寸）相同。在实际应用时，可以通过插值的方法对校正网格进行缩放，从而达到控制输出图像分辨率的目的。校正网格实质上保存的是校正前后图像间像素点的映射关系。对于文档图像而言，原始图像的分辨率通常较高，由于校正后图像是由校正前图像通过映射生成，出于图像质量考虑，校正后图像的分辨率应不高于校正前图像。同时，出于校正精度考虑，在假定校正网格完全精确的情况下，使用分辨率尽可能高的校正网格进行校正显然可以获取更为精细的校正结果。基于上述分析，从理论上而言，校正网格的分辨率应与校正前图像保持一致。但在现实世界中，文档图像产生的扭曲或畸变通常具有连续性和相关性。即相对于校正后的图像，校正前的图像中不可能每一个像素点发生的偏移都是独立的，更多的情况下，在小范围的空间区域内，其像素点的偏移通常是相关的。由此可以推断，与校正前图像分辨率一致的校正网格保存的映射关系存在大量的冗余信息。在实际应用时，可以仅回归出一个低分辨率的校正网格，再对这个小分辨率的校正网格进行插值放大后对校正前图像进行映射。为了衡量使用低分辨率校正网格经插值放大后进行映射对最终校正结果造成的性能损失，本文通过实验对此进行了测试。在实验中，原始校正网格的分辨率为448 × 448像素，以原始分辨率的校正网格对校正前图像进行映射获取校正后图像并作为基准图像。使用双线性插值将原始分辨率的校正网格分别缩小至256 × 256像素、128 × 128像素、64 × 64像素、32 × 32像素、16 × 16像素、8 × 8像素，将此分辨率称为校正网格的有效分辨率，再使用双线性插值将这些低分辨率的校正网格放大回448 × 448像素后，对校正前图像进行映射并获取对应的校正图像。将这些映射得到的校正图像与基准图像进行比较，获取其L1损失与结构相似性测度（structure similarityindex measure，SSIM）（Wang等，2004）的相似度，并以此作为最终的校正性能损失的量化标准。不同有效分辨率下的性能损失量化结果如表1所示。10.11834/jig.220426送排稿.T001表1不同有效分辨率下的性能损失量化结果Table 1Quantitative results of performance loss at different effective resolutions校正网格的有效分辨率/像素L1SSIM256 × 2560.007 80.848 1128 × 1280.008 10.847 264 × 640.009 70.798 232 × 320.013 30.674 516 × 160.018 70.448 68 × 80.027 70.178 0注：加粗字体表示各列最优结果。从表1可以看出，随着校正网格有效分辨率减小，校正后图像与基准图像的L1损失呈上升态势，SSIM相似度呈下降态势，这表示最终的校正性能发生了衰减。在校正网格的有效分辨率缩小至64 × 64像素后，校正后图像相较于基准图像，其L1损失出现了较大幅度的增长，同时其SSIM相似度也出现了较大程度的减少。图3为使用各有效分辨率的校正网格映射得到的校正图像与基准图像的可视化对比。可以看到，直到校正网格的有效分辨率缩小至32 × 32像素后，相较于基准图像，校正后图像才出现较为明显可以观测到的性能衰退，而此时的L1损失已高达0.013 3，但SSIM相似度仅为0.674 5。10.11834/jig.220426送排稿.F003图3不同有效分辨率（像素）下的几何校正结果Fig.3Geometric correction results at different effective resolutions（pixels）（（a） pre-calibration images；（b） benchmark images；（c） 256 × 256；（d） 128 × 128；（e） 64 × 64；（f） 32 × 32；（g） 16 × 16；（h） 8 × 8）在现实世界中，大多数文档均以A4纸为载体进行打印，其规格为210 mm × 297 mm。以该规格的纸质文档为主体目标进行图像采集，加上文档边界所预留的背景，采集后的文档图像约对应现实世界中250 mm × 350 mm面积的区域。此时若使用有效分辨率为128 × 128像素的校正网格对其进行映射，则网格中单个点所覆盖的面积约为2 mm × 3 mm。考虑到实际情况下，极少有纸质文档存在的几何畸变在如此小的区域内发生突变，综合量化结果，本文使用有效分辨率为128 × 128像素的校正网格对图像进行校正。在3.4小节的消融实验中，将通过实验进一步证明使用小分辨率校正网格的可行性。相比于使用原始分辨率的校正网格对图像进行校正，使用小分辨的校正网格具有以下优势：1）校正网格最终通过模型回归得到，使用小分辨的校正网格意味着模型在优化时占用的显存更小。在硬件资源相同的情况下，可以设置更大的batch_size，继而获取更为精准的单次梯度，加快模型的收敛。2）以小分辨率的校正网格作为标签可以显著降低模型的拟合难度，从而可以使用更简单的模型来完成校正网格的回归，加快模型优化速率的同时更能从侧面提升模型的泛化性。3）推理时，使用小分辨率的校正网格对计算资源的需求更小，更利于模型后续的本地化、移动化部署。2　AsymcNet2.1　模型整体结构通过1.1小节的分析，本文沿用DocUNet提出的网格采样思路对AsymcNet进行设计，并使用分辨率为128 × 128像素的校正网格作为AsymcNet的回归目标。总体来说，本文设计的AsymcNet由两个子网络构成，分别是用于文档区域定位的分割网络Net1和用于校正网格输出的回归网络Net2。AsymcNet的整体结构如图4所示。10.11834/jig.220426送排稿.F004图4AsymcNet的整体结构Fig.4The overall structure of AsymcNet考虑到分割任务较为简单，出于轻量化以及后续可能的本地化及移动端移植的考虑，网络Net1使用小分辨率（128 × 128像素）的文档图像Is作为输入，并输出小分辨率的分割结果D^s。从整体架构上考虑，网络Net1参考经典的小样本分割网络UNet（Ronneberger等，2015）搭建。在编码器和译码器间设置跳线连接，使低层的特征能直接流动到高层，并在原版Unet的基础上进行简化，使其适应小分辨率的输入和输出。同时在编码器和译码器间依据ResNet（residual network）（He等，2016）的思路构建残差块，在增大网络感受野的同时也防止网络过于简单而不足以较好地完成对图像中文档区域的定位。相比于分割任务，用于校正网格输出的回归任务显然更为复杂。为了从待校正图像中捕获更多的细节以便于最终的校正网格回归，网络Net2使用高分辨率（512 × 512像素）的文档图像Il与网络Net1输出的分割结果D^l（D^l为D^s通过双线性插值放大至与Il具有相同分辨率的分割结果）进行点乘后作为输入，并输出低分辨率（128 × 128像素）的校正网格G^s。D^l的引入可以使网络Net2更关注于图像中文档区域部分的信息，减少对图像背景的关注，从而进一步提升网络的回归效果。网络Net2参考CycleGAN的生成器而搭建，由于最终网络输出的是一个低分辨率的校正网格，与输入的图像分辨率并不一致，所以译码器的卷积架构与编码器并不对称。同时在残差块和译码器之间，增设了由空洞卷积（Yu等，2017）堆叠而获取的特征金字塔，进一步提升网络的感受野，以提升网络整体的性能表现。需要强调的是，考虑到转置卷积可能带来的棋盘效应（Odena等，2016），在网络Net2的译码器部分，本文使用上采样与卷积堆叠的方式替代原本译码器部分的转置卷积。整个网络的计算流程如图5所示。由于网格采样和双线性插值均被封装至深度学习框架内，在训练和推理过程中，均无需再进行其他后处理或预处理工作。10.11834/jig.220426送排稿.F005图5AsymcNet的计算流程Fig.5AsymcNet’s calculation process2.2　损失函数设计用于指引AsymcNet进行优化的损失函数由3部分构成，分别为用于指导网络Net1进行文档区域定位的分割损失Ls、用于指导网络Net2进行网格回归的回归损失Lg以及网格局部平滑损失Lc。整体的损失函数为L=αLs+βLg+γLc （1）式中， α， β， γ为超参数，用于调整网络优化时的收敛倾向。后续将对分割损失Ls、回归损失Lg及局部平滑损失Lc做出详细说明。2.2.1　分割损失由于网络Net1仅需对图像的文档区域与背景区域进行区分，实际上是一个二分类任务，故使用BCE（binary cross entropy）损失函数作为分割损失。其损失函数为Ls=∑iNs-(yilog(pi)+(1-yi)log(1-pi))Ns （2）式中， yi为像素点i是否为文档区域的标签，在｛0， 1｝中取值，Pi为网络Net1对于像素点i为文档区域的概率的预测结果，在（0， 1）区间内取值，Ns为图像中像素点的个数。2.2.2　回归损失网格回归损失用于指引网络Net2精确回归出校正网格，故使用L1损失作为整体的回归损失，其损失函数为Lg=∑iNsgi-g^iNs （3）式中， gi和g^i分别为网格点i的标签值和预测值，均在［-1， 1］的区间内取值，Ns为网格点的个数。2.2.3　局部平滑损失通常情况下，以校正后的图像为参照，校正前图像的像素偏移在小范围的区域内存在较强的关联，这就意味着用于映射的校正网格在小范围区域内的取值是连续的。本文参考DFE-FC（Xie等，2020），引入局部平滑损失Lc，以迫使回归出的校正网格符合局部连续的假设，其具体的损失函数为Lc=1Ns∑iNsδi-δ^i= 1Ns∑iNs∑jk(gj-gi)-∑jk(g^j-g^i)= 1Ns∑iNs∑jk(gj-g^j)-k×(gi-g^i) （4）式中，δ表示校正网格中局部区域内的值相对中心点的偏移。在实际实现时，∑j=1k可以用权重全为1的卷积核进行运算，从而降低计算开销。δ的定义为δ=∑jk(gj-gc) （5）式中， gc为k×k的邻域内中心点的值。2.3　数据集获取及处理针对文档图像几何校正任务，Das等人（2019）通过点云相机实际采集畸变文档图像的形变位移，并通过软件渲染更改光照、制作了包括原始图像、三维坐标图、反照率图、UV图、深度图及对应的校正网格在内的共计105 000组数据集Doc3D。相比于通过对部分畸变规则的限制而模拟生成的畸变，Doc3D数据集中的畸变均为现实世界中真实发生的，使用Doc3D数据集训练出来的模型更能泛化至现实场景。由于使用小分辨率的网格作为标签可以极大程度降低模型的拟合难度，从侧面提升模型的泛化性，故本文仅使用Doc3D数据集中的小部分数据（30 000组，约占原始Doc3D数据集的28.57%）进行最终的模型训练。在原始的Doc3D数据集的基础上，对深度图进行阈值处理，获取用于网络Net1进行训练的分割标签，并在实际训练时对原始图像与网格标签进行同等随机边界裁剪，以模拟实际场景下原始图像中不同程度的文档区域占比。在正式训练时，以15%的几率随机增加纯背景图像，从而提升分割网络Net1的泛化性。数据集采样示例如图6所示，其中第3行为纯背景图像。10.11834/jig.220426送排稿.F006图6数据集采样示例Fig.6Examples of sampling a dataset（（a） large resolution ll；（b） small resolution ls；（c） splitting labels Ds；（d） correcting grid labels Gs；（e） calibration preview）2.4　网络优化与超参数选取在Ubuntu系统下，使用Pytorch深度学习框架，用单张RTX2080Ti显卡即可完成模型的优化。优化时batch_size取8，使用Xavier（Glorot和Bengio，2010）方法对模型参数进行初始化。使用Adam（Kingma和Ba，2015）优化器，初始学习率lr设置为0.000 2，在Adam优化器中，衰减系数β1取0.5， β2取0.999。以最小化式（1）为目标对模型中的参数进行优化，其中，超参数α， β， γ均取10。以初始学习率迭代20个epoch后，在后120个epoch内，学习率将线性衰减至0，经过约15个epoch的迭代后，可以得到初步的校正效果。3　实验为了验证本文设计的AsymcNet的有效性及先进性，将AsymcNet与DocUNet（Ma等，2018）、DewarpNet（Das等，2019）、RectiNet（Bandyopadhyay等，2021）、DFE-FC（Xie等，2020）和DocTr（document image transformer）（Feng等，2021）中提出的几何校正算法以及华为应用市场具有23亿次安装的商用扫描软件XX全能王中的切边—曲面校正算法进行对比实验，从定性及定量两个方面对各算法性能进行评估。除XX全能王的实验在移动端设备完成以外，其余算法实验均在Windows 10 专业版的PC端（Intel（R） Core（TM） i5-9400F CPU @ 2.90 GHz RTX2080Ti， CUDA11.1）完成，故不对XX全能王的运行效率进行评估。3.1　评价指标1）结构相似测度（structure similarity index measure，SSIM）基于图像的亮度、对比度和结构特征，对两幅图像的结构相似度进行衡量。2）多尺度结构相似度（multi-scale structural similarity，MS-SSIM）（Wang等，2003）为图像以不同比例进行缩放得到图像金字塔后的SSIM结果。相比于SSIM，MS-SSIM考虑了图像的分辨率，其指标更具有全局意义。3）局部畸变（local distortion，LD）（You等，2018）用于衡量两图像间特征点的距离，已在文档图像的几何校正领域广泛使用。其机理在于使用SIFT flow（scale-invariant feature transform flow）（Liu等，2011）对校正后图像与真值图像间执行密集图像配对，获取两幅图像间的各像素水平位移差值和垂直位移差值，并计算各像素位移差值的L2距离，以此对校正后图像相对于真值图像的畸变程度进行量化。4）字符错误率（character error rate，CER）通过参考文本与识别结果间的编辑距离（Levenshtein，1966）对OCR系统或语音识别系统的性能进行量化。在本实验中，使用Tesseract（Smith，2007）的识别结果作为CER度量的依据。3.2　实验数据集考虑到Ma等人（2018）提出的测试数据集对图像边缘进行了裁剪，使得文档部分在整幅图像中所处的位置及面积占比相对固定。在现实情况下对纸质文档进行采集时，通常不会对文档与采集设备的相对位置做出严格约束，文档部分在整幅图像中所处的位置及面积占比应当是随机的。为了对各算法在现实环境下的校正性能做出更准确的度量，本文参考Ma等人（2018）的方法，自建测试数据集对各算法的性能进行量化。本文创建的测试数据集含待处理图像80幅及其对应的扫描图像，其中待处理图像通过手机摄像头在不同光照条件及不同成像背景下对现实生活中常见的纸质文档（涵盖不同规格的文献、票据、书页、单据和说明书等）进行人为扭曲、弯折后拍照获取。扫描图像则通过专用的扫描仪在纸质文档被人为扭曲或弯折前扫描获得，并以此作为校正算法的校正目标。由于Tessract识别引擎仅对纯文本图像有较好的识别效果，为了防止文档图像中其他内容（如图、表和公式等）对最终的CER结果造成干扰，在本文创建的测试数据集中包含了30幅纯文本图像，用于对各算法的OCR性能增益进行评估。最终获取的量化指标中，各算法的MS-SSIM及LD指标将通过整个测试数据集获取，而CER指标仅由测试数据集中30幅纯文本图像获取。本文自建的测试数据集示例如图7所示。10.11834/jig.220426送排稿.F007图7本文创建的测试数据集示例Fig.7Examples of a test dataset created in this paper3.3　实验结果及分析图8为各校正算法在本文自制的测试数据集中的部分实验结果。图8（a）—（i）分别为待处理的畸变图像、DocUNet、DewarpNet、RectiNet、DFE-FC、DocTr、XX全能王、AsymcNet的处理结果及畸变图像对应的扫描图像。10.11834/jig.220426送排稿.F008图8各算法几何校正结果Fig.8Geometric calibration results for each algorithm （（a） pre-calibration images；（b） DocUNet （Ma et al.，2018）；（c） DewarpNet （Das et al.，2019）；（d） RectiNet （Bandyopadhyay et al.，2021）；（e） DFE-FC （Xie et al.，2020）；（f） DocTr （Feng et al.，2021）；（g） XX scanning all-in-one；（h） ours；（i） scanned images）从图8的实验结果来看，横向对比现阶段本领域内的其他校正算法，本文提出的AsymcNet具有一定的优势，特别是当文档区域在待处理图像中占据的相对面积较小时，AsymcNet的优势更为显著（图8中（A）行与（B）行），这是由于AsymcNet中集成了用于文档区域分割的子网络带来的设计优势。需要说明的是，DewarpNet、RectiNet及DFE-FC均针对文档区域定位做了相应的设计。其中，DewarpNet中的Shape-Net通过对待处理图像的3D坐标进行回归，隐性地实现了对文档区域的定位。RectiNet及DFE-FC则在网络优化的损失函数中显性地对文档的边界及文档区域进行了回归。此外，DocTr不仅对图像进行几何校正还进行了光学校正，本文只对比了其中的几何校正方法。从实验结果来看，RectiNet与DFE-FC这种显性回归的设计确实优于DewarpNet。DocTr提出的文档图像几何校正和光学校正transformer结构，取得了很好的图像校正质量，但仅从几何校正来看，对畸变为圆柱面的情形校正效果并不突出。相对而言，XX全能王中切边—曲面校正算法的处理结果具有较好的稳定性。由于其为商用软件，无法对其校正原理进行精准分析，从校正过程及实验结果来看，推测其校正机理大致是基于透视校正或多项式校正对图像进行切边，再通过具有一定先验假设约束（如假定畸变为圆柱面）的校正方法对切边后图像进行二次校正，但当文档实际发生的畸变不遵循其先验假设时，其校正结果则并不十分理想。各算法在测试数据集中关于图像校正质量和处理效率的具体量化如表2所示。表中MS-SSIM与LD为各算法的几何校正结果以扫描图像为参照获取的量化结果。相比于MS-SSIM与LD，CER指标更能反映出各校正算法的真实性能。在表2中，CER1表示以真值为参考文本时获取的CER结果，CER2表示以扫描图像的识别结果为参考文本时获取的结果。CER1能直观反映出各校正算法对于OCR识别结果的影响，CER2则更能反映各校正算法的校正结果对扫描图像的还原程度。显存消耗为各算法在推理时占用的最大显存，平均耗时为各算法在测试数据集中平均处理单幅图像耗费的时间。10.11834/jig.220426送排稿.T002表2各几何校正算法的图像校正质量量化表Table2Image correction quality quantification table for each geometric correction algorithm图像类别/算法MS-SSIMLDCER1CER2显存消耗/MB平均耗时/s扫描图像--0.063---待处理图像0.31833.6080.5700.572--DocUNet0.35728.8950.5020.4991 5011.150DewarpNet0.41818.4290.4060.4021 3571.063RectiNet0.40922.2880.5430.5471 7921.102DFE-FC0.43113.8080.3050.3043 28710.303DocTr0.38726.8510.5540.5561 5271.111XX全能王0.43312.2500.3800.379--AsymcNet（本文）0.46711.6150.2730.2712 9940.912注：加粗字体表示各列最优结果，“-”表示无相应的实验数据。从表2可以看出，在图像质量方面，本文设计的AsmycNet相对于同领域对比算法在MS-SSIM、LD、CER等指标上均具有一定优势。而在处理效率方面，AsmycNet在推理时的显存消耗方面要高于DocUNet、DewarpNet、RectiNet和DocTr，这是由于AsmycNet中用于文档区域定位的分割网络引入了跳线连接，在推理时低层特征图不能及时释放，且用于校正网格进行输出的回归网络中引入了特征金字塔，导致整个网络的复杂度较高。但从单幅图像的平均推理耗时来看，本文设计的AsmycNet具有最高的处理效率。这是由于DewarpNet及RectiNet为了获取更好的校正效果，在对图像进行校正前均对校正网格进行了滤波处理，同时也说明AsmycNet的实际计算量并不高。3.4　消融实验本文设计的AsymcNet相对于沿用网格采样的技术路线设计的同类型网络而言，最大的创新点在于采用了非对称设计。即在AsymcNet中采用了小分辨率的校正网格作为标签，使得用于校正网格输出的网络Net2输入图像的分辨率与输出网格的分辨率并不对称。虽然在1.3小节中对使用低分辨率网格校正进行了简单的量化分析，但其分析仅局限在基于数据集的理论上进行。为了对使用低分辨率网格进行几何校正的具体性能进行进一步评估，本文构建了回归目标分别为128 × 128像素、256 × 256像素、512 × 512像素分辨率的3个网格，在Doc3D数据集中抽取10 000组数据用于训练，1 000组数据用于测试，每完成1轮迭代打印1次在测试集上的网格回归损失。实验共进行400轮迭代，其网格回归损失与迭代轮次的曲线图如图9所示。10.11834/jig.220426送排稿.F009图9网格回归损失曲线图Fig.9Grid regression loss-epoch plot从图9可以看到，在未进行优化时，使用128 × 128像素分辨率作为回归目标的网络的损失值最大，512 × 512像素次之，256 × 256像素最小，这与网络初始化有关。随着迭代持续进行，3个网络均快速收敛，在进行约6轮迭代后，以128 × 128像素作为回归目标的网络的损失已与512 × 512像素及256 × 256像素相近，随后3个网络均振荡收敛。在完成全部的迭代后，以128 × 128像素作为回归目标的网络具有最小的损失（约0.001 28），以256 × 256像素为回归目标的网络则只能收敛至0.001 62左右，以512 × 512像素为回归目标的网络的损失则高达0.001 72。这是由于回归目标的分辨率越高，网络的拟合难度则越大，而使用低分辨的校正网格作为网络的回归目标则可以显著降低网络的拟合难度，取得更快的收敛速度和更好的拟合效果。需要强调的是，本次实验中3个网络的参数量及主体结构均完全一致，不同之处在于网络中Net2译码器部分上采样的采样倍数有所区别。图10为用于实验的3个网络对测试集中部分数据进行几何校正的实验结果。从图10可以较为明显地看出，使用128 × 128像素作为回归目标的网络相对而言具有最佳的校正性能。10.11834/jig.220426送排稿.F010图10测试集部分数据几何校正可视化Fig.10Geometric correction visualisation of part of the test set data（（a）pre-calibration images；（b） network results with a resolution of 128 × 128 pixels；（c） network results with a resolution of 256 × 256 pixels；（d） network results with a resolution of 512 ×512 pixels；（e） ideal calibrated images）表3为使用不同分辨率网格作为回归目标的网络在实际优化时的显存占用与完成单次迭代的平均耗时对比。实验在Ubuntu18.04.5系统及CUDA10.2的版本下进行，使用单张RTX2080Ti显卡进行计算，batch_size均设置为1。相较于使用高分辨率的网格作为网络的回归目标而言，使用低分辨率的网格作为回归目标可以极大程度地降低网络优化时计算资源的开销（batch_size增大时更为明显）。特别是在硬件资源有限的情况下，使用小分辨率的网格作为回归目标的优势更为显著。10.11834/jig.220426送排稿.T003表3不同分辨率网格作为回归目标的网络优化时计算资源对比Table 3Comparison of computational resources for network optimization with different resolutions of calibration grids as regression targets网格分辨率/像素显存占用/MB单次迭代平均耗时/s128 × 1281 8970.062256 × 2562 1150.075512 × 5123 2030.137注：加粗字体表示各列最优结果。同时，本文参考DFE-FC在整体的损失函数中引入了局部平滑损失。虽然在DFE-FC中已对局部平滑损失的有效性进行了验证，但由于其设计的网络与本文设计的网络在结构上存在较大差异，且两者的回归目标也有所不同（DFE-FC希望回归出待校正图像的三角剖分的形变参数，本文设计的网络希望直接回归出可用于网格采样的校正网格）。出于严谨性的考虑，本节将通过实验对局部平滑约束的有效性进行验证。图11为两个以128 × 128像素为回归目标的几何校正网络性能对比，两个网络的唯一区别在于对网络进行优化时是否施加局部平滑损失。从图11可以看到，施加了γ为10的局部平滑约束的网络，其校正性能明显好于未施加约束的网络（见图11（A）行红框部分），图11中（B）行是两个网络优化初期（约5个epoch）在测试集上的几何校正效果，可以更为直观地看出局部平滑约束对网络性能的影响。10.11834/jig.220426送排稿.F011图11施加局部平滑约束对网络性能的影响Fig.11Effect of whether local smoothing constraints are applied on network performance（（a） pre-calibration images；（b） apply local smoothness constraint （γ=10）；（c） not applying local smoothness constraint （γ=0））4　结论针对图像采集时可能存在的几何干扰，本文设计了AsymcNet对其进行处理。AsymcNet基于网格采样的技术路线进行设计，同时参考DFE-FC的思路在网络优化中引入局部平滑约束。在AsymcNet的设计过程中，使用低分辨率的校正网格作为回归目标，以此降低网络的收敛难度，加快收敛速度，并极大程度地降低了网络优化阶段的显存占用与耗时。通过消融实验证明了本文提出AsymcNet的有效性。尽管AsymcNet能较好地处理原始图像中的几何干扰，但对部分较难处理的文档原始图像（如图像中存在高度扭曲与细小折痕及褶皱）进行校正时，最终的校正效果尚不够理想，相对于完全展平的扫描件的效果仍有一定差距。同时，本文方法的处理细节也不利于下游检测与识别任务。如何进一步提升几何校正网络的处理性能，是后续研究的重点与难点。由于计算资源及实验时间的限制，本文仅使用30 000组数据集对AsymcNet进行优化，尽管在对比实验中AsymcNet表现出了一定优势，但深度学习毕竟依赖大量数据驱动，后续工作中，将使用更大批次的数据对网络进行优化，期望获取更佳的处理效果。