网刊加载中。。。

论文引用格式：Liu C L， Jin L W， Bai X， Li X H and Yin F. 2023. Frontiers of intelligent document analysis and recognition： review and prospects. Journal of Image and Graphics， 28（08）：2223-2252（引用格式:刘成林，金连文，白翔，李晓辉，殷飞. 2023. 文档智能分析与识别前沿：回顾与展望. 中国图象图形学报， 28（08）：2223-2252）［0　引言文档（含有文字的纸张、图像或电子文件）在日常生活和互联网等通信渠道大量存在，对其内容进行分析与理解具有广泛的应用需求。纸张或物理表面的文字一般通过扫描、拍照等方式变成图像，对图像中的文字、符号等进行检测和识别是文档分析与识别（或称为文档图像分析与识别，有时简称为文档识别）技术的主要研究内容。早期（20世纪50—70年代）（Suen等，1980；Mori等，1992）文字识别主要研究单个文字图像的分类和识别，后来发展到简单结构文档再到复杂结构文档中的文字检测/分割和识别。由于此历史渊源，文档分析与识别仍经常简称为文字识别（或字符识别）。因为文档图像通过光学成像获取，所以文字识别或文档识别又称为光学字符识别（optical character recognition， OCR）。最近出现的“文档智能”（document intelligence或document AI）（Motahari等，2020；Cui等，2021）主要指对订单、合同和报表等商业文档的内容分析和语义信息抽取，也可以扩展至所有类型文档的分析识别与理解。文档识别技术也在从文字检测、识别向语义理解和信息抽取层次上升，其处理的对象包括各种各样的文档：书籍、报纸、档案、信件、笔记、票据和证照等纸张文档，车牌、标识和标牌等场景文本图像，网络场景图像和视频，合成文档图像，联机（在线）手写文档等。联机手写文档由笔划轨迹构成，与此相对，图像形式的文档称为脱机或离线文档。文档识别技术将各种非结构化文档数据（图像、联机笔迹）转化为结构化数据，便于计算机处理和理解，其应用场景十分广阔，包括办公自动化、图像通信、历史文档数字化、文物考古、智能教育/政务/法务、个人笔记管理、商业文档管理、会议记录、电脑/手机文字输入以及机器人感知与交互等。一个完整的文档识别系统流程包括4个主要步骤：图像预处理、版面分析/区域分割、内容识别（文本识别、图形符号识别）和后处理/语义分析/信息抽取。文本识别（主要指文本行识别，会涉及字符切分和字符识别）是其中最核心的任务，主要基于通用的模式识别和机器学习理论与方法（如模式分类、序列学习）。其余步骤则与文档图像风格特点和应用场景密切相关，涉及图像处理、分割、机器学习、关系推理和自然语言处理等方法和技术。对应这4个步骤，文档分析与识别的主要难点包括：1）图像背景复杂性（主要指场景文本图像）、图像退化和噪声（主要指历史文档）和图像形变（文档不正、不平和拍照视角导致的几何形变）；2）文档版面结构复杂性（区域多、区域形状不规则、区域间关系复杂）；3）内容多样性（文本之外，有插入图像、图形、符号、印戳和水印等）；4）手写笔记不规整、风格多变；5）场景、语境变化大，语言模型或先验知识不足导致语义理解难。此外，与一般的模式识别和机器学习问题类似，文档识别系统设计面临标记样本不足、类别不均衡、弱标记、标记噪声、数据动态变化以及异构关联等问题。图1展示了几种典型的复杂文档的例子。10.11834/jig.221112送排稿.F001图1复杂文档的例子Fig.1Examples of complex documents （（a） mixed printed-handwritten document；（b） complex table image；（c） ancient document；（d） natural scene text image；（e） online handwritten document）面向文档分析与识别的多个任务，研究者提出了大量的理论模型和方法。以深度学习出现（2006年最早提出并首先用于语音识别和手写文本识别（Graves等，2006，2009），2012年开始获得计算机视觉和模式识别领域的广泛关注，2014年开始在文档分析和识别领域较多采用）为界，这些方法可以划分为非深度学习（统计模式识别、句法结构模式识别、统计学习等，或称为传统方法）和深度学习（各种深度神经网络及其学习、推理方法）两大类。采用深度学习方法在大量样本上训练，文档分析与识别各个任务的性能相比传统方法得到了大幅提升，使原来很多难以识别的内容（如手写文本）变得可以识别，使文档识别技术可以规模化落地应用。然而，如本文下面将要讨论的，文档识别技术应用中还有很多性能不足的地方，还有很多细分任务没有得到充分研究或落地应用。这些尚未充分研究或尚未解决的技术问题需要研究者开展持续深入的理论方法探索。文档分析与识别研究历史上发表了一系列综述（如：Suen等，1980；Mori等，1992；Fujisawa，2008；Nagy，2000；Plamondon和Srihari，2000），近几年也有一些针对专门任务的以深度学习方法为主的综述（如：场景文本检测与识别（Long等，2021；刘崇宇等，2021）、版面分析（Binmakhashen等，2019）、文本识别（Chen等，2021））。本文旨在对文档分析与识别领域的研究问题、研究现状进行概要性回顾，并指出一些值得重视的前沿和未来研究方向。由于文档分析与识别领域技术范围广、历史久、发展快、成果多，本文在回顾进展时只按作者的见识和理解选择引用和介绍部分代表性工作，而并非全面的综述，因此难免会遗漏一些具体技术成果。1　文档分析与识别的技术范畴文档识别系统从输入文档图像到输出结构化电子文档或语义信息，中间经过图像处理、版面分析、内容识别和语义理解/信息抽取等主要环节（步骤），每个环节又有很多不同的技术问题，对此产生了大量研究成果。具体研究内容如表1所示。其中，字符识别和文本行识别（统称为文本识别）一直是文档识别研究的中心和主线。图像处理和版面分析为文本识别提供支撑，而信息抽取是文本识别的应用出口。由于研究内容众多，在此不一一解释。应该说，每个内容（技术问题）都值得深入研究。10.11834/jig.221112送排稿.T001表1文档分析与识别的主要研究内容Table 1Main research contents of document analysis and recognition技术环节研究内容（任务）图像处理文档检测，文档/非文档分类、文档类型分类；图像增强（对比度增强、去噪）；图像矫正（光照/视角/变形矫正）；二值化、文本抽取；框线/装饰去除；文档生成，文档鉴伪版面分析物理版面分析/几何版面分析（页面分割，包括区域分割与分类、文本检测/定位，文本行分割）；手写/印刷区分；表格分析（单元格提取与关系分析）；逻辑版面分析（区域语义分类、阅读顺序）；签名/图标/印章提取内容识别字符识别（预处理、特征提取、分类器设计、结构分析）；文本行识别（字符切分、序列模型、上下文处理）；整段/整页识别（表示学习、预训练）；图形/符号识别（流程图、工程图、音乐符号、数学公式、物理化学公式）；风格鉴定（字体鉴别、语种/文种判别、书写人鉴别、签名验证、文档年代推定）语义理解/信息抽取文档检索（关键词检索、内容检索、基于结构的检索）；信息抽取（提取出指定关键词类别的文本信息）；语义分析（内容分类、摘要、翻译；文档问答：根据图像内容针对提问给出合理的答案）2　发展历史历史上一些综述文章（Mori等，1992；Fujisawa，2008）对文档分析与识别的早期研究进展做了全面介绍。刘成林（2019）对文档分析与识别研究历史进行了概述，并列表显示文档识别主要方法和对象的历史演变和相关事件。在20世纪50年代计算机模式识别和人工智能领域正式起步发展之前，20年代即有用光学模板匹配方法进行字符识别的早期技术专利出现（Mori等，1992）。50年代以后提出和采用的主要方法有统计模式识别（Chow，1957）、模板匹配、特征匹配、结构匹配、神经网络、支持向量机、隐马尔可夫模型（hidden Markov model，HMM）、循环神经网络和深度学习等。80年代以后逐渐开展了版面分析、字符串识别（英文词识别、文本行识别）、数学公式和流程图识别以及笔迹鉴别等研究（这些方向在1980年之前有零星的工作出现）。进入21世纪后，多方面的研究全面展开，且面向越来越复杂（结构复杂、背景复杂）的文档图像。70年代国际模式识别学会成立、90年代国际文档分析与识别会议（International Conference on Document Analysis and Recognition，ICDAR）创办、21世纪移动互联网和大数据技术发展等事件都极大地推动了文档分析与识别领域的发展。本文以文档识别的处理对象为主线，将文档分析与识别技术发展历史分为4个阶段进行概述。1）第1阶段（20世纪50—70年代）。字符识别方法探索与应用。这一阶段，模式识别领域形成了统计模式识别理论框架和系列方法、句法和结构模式识别系列方法。文字识别的方法探索和商业应用几乎同步开展。方法上，主要研究单字识别（初期为印刷字符，70年代开始手写字符识别）的各种方法。大类别集汉字识别在60年代即有研究探索，到70年代末开始在日本有实际应用。考虑到实际应用的计算实现，当时的字符识别方法以模板匹配和特征匹配为主，研究字符图像的归一化、特征提取和相似度计算方法以提高识别精度和速度。结构分析方法也得到了充分研究，主要是从字符图像提取一系列反映结构特点（如拓扑性质、笔划密度等）的特征，进行特征匹配。至于字符如何从文档图像分割出来，当时少有研究。一般是假设处理的文档中字符间隔比较大，或版面布局比较规范，从而用投影分析和人工规则可将字符切分开。应用方面，60年代初即已出现商用OCR机器，推出产品的有美国的IBM，日本的日立、东芝和NEC等公司。70年代，激光扫描仪出现，取代了之前的飞点扫描仪，推动了OCR研究和应用。80年代，OCR机器发展到第3代，主要特点是可以识别手写字符（书写比较规整的字体，又称为手写印刷体（handprint））和日文汉字（Mori等，1992）。2）第2阶段（1980—2000年）。简单结构文档分析与识别。随着应用的拓展，这个阶段的研究除了继续发展字符识别方法，开始重视印刷文档图像的旋转/倾斜矫正、版面分析和文本行识别中的字符切分与词识别。在版面分析层次，以印刷文档为主要研究对象。主要进展特点总结如下：（1）手写字符识别受到高度关注。手写数字识别和手写印刷体汉字识别成为关注的焦点，在特征匹配、结构匹配、统计分类器、多层神经网络分类和多分类器集成等方面都提出了一些有影响的方法。其中，非线性归一化、方向直方图特征和修正二次判别函数（modified quadratic discriminant function，MQDF）（Kimura等，1987）都是80年代提出的非常有效并产生了长远影响的方法。多分类器集成方法在80年代末提出，在整个模式识别和机器学习领域都产生了长远影响。（2）词识别和字符串识别开始受到重视。词识别中要解决的主要问题是字符难以在识别之前准确切分，该问题在60、70年代即有人提出（Mermelstein和Eden，1964；Sayre，1973），但80年代以后才有较多的研究。解决这个问题的基本思路是动态切分形成候选字符，然后基于候选字符识别结果选择正确的切分方式。与此相关，出现了一系列专门研究字符切分的工作，包括字符切分的早期代表性工作（Bozinovic和Srihari，1982；Casey和Lecolinet，1996）、综述方面的工作（Casey和Nagy，1982），特别是日本的Murase（1988）提出了字符串识别的原理性框架Candidate Lattice，用于日文联机手写字符串识别（Murase，1988）。90年代中期，隐马尔可夫模型（HMM）开始在英文词识别中大量应用，并逐渐成为西文字符串识别的主流方法。这期间出现了一些可商用的大词汇量联机手写词识别系统，如NPen++（Manke等，1995）和Newton（Yaeger等，1998）。90年代，卷积神经网络（convolutional neural network， CNN）已在字符识别和字符串识别中得到成功应用（LeCun等，1998），但尚未受到广泛重视。（3）文档识别应用促进版面分析研究。版面分析是文档识别的首要步骤，首先要对文档图像中不同内容的区域分割，定位文字区域，才能进行字符识别。早期的版面分析方法基于投影分析，只能对结构整齐、图像端正的文档进行分割，对于扫描放置不正的文档，有些工作研究如何对文档图像进行矫正。同时，80年代开始有较多专门研究版面分析的工作，80—90年代提出了很多方法，其中自上而下的方法包括投影分析、recursive X-Y cut等；自下而上的方法包括run-length smoothing（smearing）（Wong等，1982）、Docstrum（document spectrum）（O’Gorman，1993）、Area Voronoi Diagram（Kise等，1998）等。此外，80—90年代公布的一些数据集（包括加拿大Concordia大学的CENPARMI、日本ETL系列数据集以及美国布法罗大学的CEDAR等）极大推动了文档识别的研究。90年代开始组织本领域的系列学术会议，包括1990年开始的国际手写识别前沿研讨会（IWFHR（International Workshop on Frontiers in Handwriting Recognition），2008年改名为ICFHR（International Conference on Frontiers in Handwriting Recognition））、1991年开始的国际文档分析与识别会议（International Conference on Document Analysis and Recognition， ICDAR）、1994年开始的国际文档分析系统研讨会（International Workshop on Document Analysis Systems， DAS）。应用方面，80年代印刷文档OCR开始在办公自动化中广泛应用，用于书籍、报纸和期刊等文档数字化；90年代，打印和手写票据、支票识别（Suen等，1996；Gorski等，1999）开始大规模应用，邮政编码和地址识别技术开始用于邮政分拣（Srihari，1993）。3）第3阶段（2001—2013年）。复杂结构文档分析与识别。这个阶段除了继续改进手写单字、字符串和英文词汇（扩展到其他西方语言）识别，开始关注文本行整行识别（词分割和词识别同时进行）、手写文档分割（包括区域分割和行分割）、联机手写图文混合文档分割与识别、自然场景（拍照图像）和视频文本检测。这些文档具有结构复杂或背景复杂的特点，文本行难以分割。主要进展特点如下：（1）文本行识别成为趋势。英文词识别发展到一定程度后，考虑应用时发现虽然英文词之间比字之间有更多空白，但是手写文本行中词的边界也有很多歧义，需要结合识别才能准确分割。因此，研究者越来越多地关注整行识别，主要方法是HMM，或HMM结合神经网络。中文手写文本行识别中由于字符类别数大，用基于候选切分（或叫过切分）的方法更为有效。（2）手写文档版面分析提上日程。手写文本行成为主要识别对象，将文本行从手写文档中分割出来成为一个重要任务。联机手写文档中则有线画图形与文本混合，且文本行书写方向变化较多，当然其数据中的笔划轨迹和顺序也为分割和识别提供便利。其实，手写文档分割在2000年之前也有研究，但成为一个值得高度关注的趋势是在2001年以后，并开展了相关工作（Zahour等，2001；Jain等，2001）。（3）自然场景和视频文本检测成为研究热点。随着20世纪90年代数码相机的兴起和21世纪智能手机的兴起，越来越多的文档图像通过拍照获得，同时互联网和视频监控图像及视频中的文字提取具有重要应用价值。自然场景图像和视频中的文字提取由于图像背景混杂、拍照视角和光照变化等原因，文字的检测定位尤其困难，因此场景文本检测吸引了大量研究者。这个方向成为一个热点是在2003年ICDAR举办了首次Robust Reading竞赛（Lucas等，2003）以后，这个竞赛早期于2003和2005年举办，后来从2011年开始每届ICDAR上都举办并且任务不断扩展。由于图像背景复杂、文字形态变化多，场景文本检测成为文档识别和计算机视觉领域共同关注的方向，其方法也大量借鉴了计算机视觉和机器学习领域的思想方法。早期方法以边缘分析、连通成分提取和分类判别方法为主，2016年以后全面转向基于深度学习的方法。总的来说，第3阶段在方法研究、应用推广方面继续快速发展，学术会议和共享数据集（如英文手写文本IAM数据集（Marti和Bunke，2002）、中文脱机+联机手写字符和文本数据集CASIA-HWDB/OLHWDB（Liu等，2011）、Robust Reading数据集等）的发布加速推动了领域的研究发展。应用方面，大量书籍和历史文档的数字化和检索受到重视，出现了一些大型数字图书馆项目，如谷歌公司的Book Project于2004年启动，到2013年已扫描超过300万册图书（Nagy，2016）。古代历史文档（纸张陈旧，手写文本难分割和识别）数字化也引起了文档图像二值化、文本行分割和关键词检索的研究兴趣。拍照印刷文档识别技术开始商用，如谷歌的PhotoOCR用于拍照文本翻译（Bissacco等，2013）。4）第4阶段（2014年以后）。文档复杂内容识别新突破。这一阶段的主要特点是深度学习（深度神经网络）逐渐颠覆传统的模式识别方法，成为文档分析与识别的主流方法，在各种文档的多种内容要素（手写文本、场景文本、图形、公式和表格等）上的性能快速提升。深度学习在2006年出现（Hinton等，2006）之后，成功应用于语音识别和手写文本识别（Graves等，2006，2009）等序列模式识别问题，2012年深度卷积神经网络（CNN）在大规模图像分类竞赛ImageNet中大获成功之后，深度学习才开始获得计算机视觉和人工智能其他领域的广泛关注。在文档分析领域，2014年ICFHR上采用深度学习的论文明显增多，到2017年ICDAR深度学习已经得到普遍采用。这个阶段的主要进展包括：（1）手写字符和文本识别。手写汉字识别在过去一直被认为是一个难题，基于传统特征提取和分类方法，在CASIA-HWDB数据集上3 755类国标一级汉字识别的正确率只能达到92% 左右（Liu等，2013）。后来基于CNN模型，识别正确率很快提升到97%以上（Zhang等，2017b；Xiao等，2017）。自此，单字识别不再是一个主要问题。文本行识别方面，发展了一系列基于循环神经网络（recurrent neural network， RNN）的适合序列学习和识别的方法、CNN结合RNN（convolutional recurrent neural network， CRNN）（Shi等，2017b）以及非循环网络的方法（Yin等，2017；Kang等，2022），不断提升手写文本和场景文本识别的性能。文本行识别性能达到类人水平，并已开始整段识别和整页识别（无文本行分割标记）的探索。（2）场景文本检测与识别。借鉴计算机视觉领域物体检测方法，文档识别领域提出了一系列场景文本检测方法，可用于任意方向、长宽比甚至任意形状的文本行检测定位。有一些工作同时考虑文本检测与识别（称为端到端文本识别或文本发现（text spotting），通过共享模型参数或端到端训练同时提升文本检测和识别的性能。（3）复杂文档版面分析。得益于全卷积神经网络（fully convolutional network， FCN）和图神经网络（graph neural network， GNN）的发展，文档版面分析的方法和性能得到了很大发展。基于FCN的实例分割模型有助于区分形态或空间相近的文档区域，而图神经网络为区域间关系分析和消歧提供了方便的计算框架。复杂手写文档数据集（如Maurdor（Brunessaux等，2014））和印刷文档数据集（如PubLayNet）上的性能不断提升。（4）结构化图形符号识别。随着纸张文档（包括扫描和拍照文档）中文本分割和识别性能不断提升，文档识别中开始关注文本以外的各种要素内容的识别，如数学公式识别、表格结构分析、流程图分析和签名验证等，这些部分在应用中也有大量需求。相应地提出了一些基于深度学习的方法，如基于注意神经网络和图神经网络的公式识别、基于图神经网络的表格结构分析和流程图分析等，相比传统的基于分阶段基元分割与识别的方法大幅提升了识别性能。应用方面，由于技术的进步，基本上所有文档类型和内容要素的识别都引起了研究兴趣并可能转化成应用。过去长期被认为难以实用的自由手写文档识别、自由格式表格和表单识别技术已实现规模化应用。同时，也有一些传统应用，如支票识别、邮政地址识别，由于应用条件变化（支票使用大幅减少，邮件已普遍采用条码标签），已趋于消失（Nagy，2016）。这一阶段的具体技术进展将在下面的现状分析中进一步介绍。3　研究现状下面就文档分析与识别的几个主要技术环节（文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取）概要性地综述研究进展与现状，重点介绍近10年来的新进展。3.1　文档图像预处理文档图像质量影响后续的版面分析和内容识别效果，而图像质量取决于物理文档形状、成像条件和成像视角等。传统OCR采用扫描成像，因光照均匀，图像一般比较清晰。纸张放置不正会导致文档图像旋转，因此20世纪90年代以来一些学者开始研究如何矫正图像的旋转或倾斜，主要采用多方向投影，对像素或连通成分进行相关分析、Hough变换和频率谱分析等。历史文档因纸张陈旧、污损等，图像噪声多，文本和背景分离（二值化）成为一个问题，为此提出了一些局部二值化及改进方法，包括基于窗口的局部二值化（Sauvola和Pietikäinen，2000）、基于像素分类、概率图模型（如马尔可夫随机场）（Cao等，2009b）和神经网络（典型地如全卷积网络）的二值化方法等。由于概率图模型和神经网络较好地利用了空间上下文信息，可以在噪声干扰严重的情况下分离出文本，代价是像素级分类耗费较多计算资源。近年来，对文档图像形变矫正的研究工作快速增加。在用平板扫描仪对书籍扫描时，书籍放置不平势必带来书籍页面图像的阴影和曲面形变。数码相机和手机拍照的文档图像，除了纸张不平、弯曲和褶皱等因素，相机视角不正和光照不均也是造成图像形变的因素。2000年以来，一系列研究工作关注文档图像形变矫正，目的是将图像变成平整端正的图像便于后续的识别处理。早期的文档图像矫正方法主要包括基于3D重构的矫正方法（Brown和Seales，2001；Meng等，2012，2013）以及基于2D图像处理的矫正方法（Zhang等，2008），例如利用多视角图像、深度信息和光场信息构建文档图像3D模型，或利用底层纹理、文本行基线和文本边缘等先验信息来进行矫正。多视角、深度及光场等三维信息在实际应用中并不易获取，而底层特征不容易进行稳健提取、文档形变的先验假设也不具备普适性，限制了此类方法应用范围。最近，基于深度学习的文档图像形变矫正已成为此领域主流方法，主要包括基于预测密集形变场进行矫正的方法、基于预测稀疏控制点进行矫正等方法。典型的密集形变场预测矫正方法例如有Das等人（2019）提出的DewarpNet网络，通过预测出三维坐标图、形变场和阴影图等来继续更精细的文档矫正；Zhang等人（2022a）提出了先进行边界去除再进行内容矫正的框架，更适合于处理实际应用中的复杂场景。为减少矫正模型的计算量，Xie等人（2021）提出预测稀疏的控制点来实现矫正，使得模型更加灵活和轻量化。在矫正网络训练上，虽然现有合成数据在数量上有优势，但仍与真实数据存在较大差异，因此近期也有研究探索利用真实数据来进行训练，由于无法获得真实数据的形变场，它们大多采用弱监督的方式，例如Xue等人（2022）在频域空间提取图像的高频信息，消除拍照时引入的阴影等噪声，从而可以利用平整图作为弱监督的标注来训练网络，用远小于合成数据量的真实数据就可以获得相当甚至更好的性能；Ma等人（2022）同时利用合成数据的强监督和真实数据的弱监督来训练网络，其中真实数据仅需要文档区域的掩膜标注即可。总的来看，基于学习的文档图像矫正方法是此领域近几年的主流方向，但公开数据集的数据量和多样性仍然极大不足，限制了其研究发展。此外，现有评测数据集都缺少直接的标注。例如，DocUNet和WarpDoc数据集以扫描或打印前的PDF平整图作为标注，而OCR_REAL数据集则是以文本内容作为标注。这给模型的性能评测带来了不便。此外，如何使模型更符合实用场景、如何更好地利用无标注真实数据也是未来重要的研究问题之一。3.2　版面分析版面分析的目的是将文档图像分割成不同类型内容（文本、图形、公式和表格等）的区域并分析区域之间的关系，是内容识别之前的关键步骤。版面分析任务分为物理版面分析（或称为几何版面分析）和逻辑版面分析两类，前者主要解决区域分割问题，又称为页面分割；后者则关注区域之间的逻辑关系或阅读顺序。3.2.1　物理版面分析20世纪80 年代以来，物理版面分析研究受到了高度关注，早期主要关注印刷文档的页面分割，后来扩展到手写文档的区域分割和文本行分割。页面分割方法按照分割的流程可以分为自上而下的方法、自下而上的方法和混合方法。自上而下的方法从文档整体出发，利用直方图投影或背景空白迭代地将大的区域切分成小的区域；自下而上的方法从像素或连通成分等底层元素出发，基于规则或聚类方法逐级将底层元素聚合成更大的区域；混合方法则是将两种方法相结合，利用全局先验知识指导聚合或进行交替的分裂—合并。相比而言，自下而上的方法和混合方法更适合复杂、不规则版面的文档图像。自上而下的典型方法有递归X-Y Cut、最大空白矩形方法以及背景空白细化方法等；自下而上的代表性的方法包括游程平滑（Wong等，1982）、Docstrum（O’Gorman等，1993）以及Area Voronoi Diagram（Kise等，1998）等。基于图的连通成分聚类方法在手写文本行分割中也取得了良好的效果（Yin和Liu，2009）。此外，手写文档分割也发展了一系列基于弹性分割的方法，如水平集和弹性轮廓等。近年来，深度神经网络广泛用于文档图像页面分割。相比传统方法，深度神经网络可以从数据学习优化特征表示和模型参数，因而可以提升分割性能。现有深度学习的页面分割方法大致可以分为基于目标检测的方法和基于实例分割的方法两大类。其中基于目标检测的方法（Gao等，2017；Zhong等，2019）采用计算机视觉中目标检测的路线，用通用目标检测器（如YOLO（you only look once）、Faster R-CNN（region CNN）、Mask R-CNN 等）对文档图像中关注的目标区域（文本行、段落、图形、表格和公式等）进行检测。这类方法通常只能检测矩形的区域以及长宽比适中的区域，而无法胜任倾斜扭曲等任意形状文档区域的检测任务。基于实例分割的方法利用自然场景图像中实例分割的框架来进行文档区域分割，例如用全卷积网络（FCN）或Mask R-CNN 从复杂文档图像分割文本行区域（Renton等，2018）或其他类型区域（段落、表格、插图和公式等）（Yang等，2017；Li等，2019b）。基于实例分割的方法能够分割任意形状的文档区域，但需要额外的后处理步骤从像素分割结果中得到区域分割结果。此外还有基于图模型的分割方法，这类方法先采用连通成分分析或目标检测的方式提取基元区域，再利用图神经网络（如图卷积网络、图注意网络）或条件随机场来对基元区域进行聚合，得到完整的区域分割结果（Riba等，2019；Li等，2020）。基于图模型的方法结合了自上而下的知识和自下而上的基元检测与聚合，能够对复杂的空间关系和逻辑关系进行建模，从而可以处理复杂结构的文档；缺点是在训练和测试时需要额外的方式（例如字符识别器、连通成分分析或人工标注等）来得到基元区域。3.2.2　逻辑版面分析相比于页面分割，逻辑版面分析更加侧重于在逻辑层面上对文本区域的语义类别（标题、正文、列表、注释、页眉和页脚等）进行区分，并对不同文本区域之间的阅读顺序进行判定。传统的文本语义分类工作主要着重于利用文本的位置、字体和文本内容等信息来设计复杂的启发式规则（Krishnamoorthy等，1993），或基于人工设计特征利用简单的分类器对文本语义进行分类（Luong等，2010）。早期的阅读顺序分析方法（Saitoh等，1993）通常基于领域相关的先验知识（如文档组织格式和人类阅读习惯等），设计启发式规则来对阅读顺序进行判定，通常只能处理特定类型的文档图像，缺乏通用性。近年来，基于深度学习的方法（Wang等，2021b）利用深度神经网络和大规模数据集，结合文本区域的几何坐标、视觉特征和文本语义等多种模态信息对文本阅读顺序进行预测，分类结果得到明显提升。文档中除了普通的顺序文本，还存在表格等复杂的结构化文本，而表格结构的解析可以看做是一类特殊的阅读顺序判定问题。表格结构解析方法主要包括自上而下的方法、自下而上的方法以及端到端图像到标记的方法等。自上而下的方法（Siddiqui等，2019；Li等，2021）从表格整体图像出发，采用目标检测、语义分割或序列标注的版面分析方式提取表格的行区域和列区域，再根据行区域和列区域的相交得到单元格区域。此类方法只能处理行列结构明显的表格，对于存在大量跨行跨列或空白单元格的表格以及具有旋转褶皱变形的表格其性能欠佳。自下而上的方法（Li等，2022b）先采用连通成分分析、目标检测或第三方OCR 引擎来提取文本片段，再利用卷积网络、图卷积网络、Transformer 等模型合并属于同一单元格的文本片段，并判断单元格之间的行列关系，分类过程中会用到视觉特征、语义特征、坐标布局特征或多种特征融合。相比于自上而下的方法，自下而上的方法通用性更强，但同时也对检测算法以及关系分类算法的要求更高。端到端图像到标记的方法（Zhong等，2020）借鉴图像描述生成（image captioning）、字符串识别和公式结构识别等问题中常用的编码器—解码器（encoder-decoder）的网络结构，利用卷积网络提取特征再利用递归神经网络或注意力机制进行解码，直接从原始图像出发得到描述表格结构的LaTeX 源码。这类方法的优点是数据集获取比较简单，可以从现有的PDF文档及LaTeX 源码中获取并合成大量的图像—编码对进行训练；缺点是模型可解释性较差，输出结果没有给出单元格的具体位置，难以重构表格。高良才等人（2022）对表格分析与识别进展进行了更全面的介绍。3.2.3　数据集与性能状况版面分析领域常用的页面分割数据集包括UW-III（Shafait等，2008）、Maurdor（Brunessaux等，2014）、POD2017（Gao等，2017）和PubLayNet（Zhong等，2019）等。Shafait等人（2008）对版面分析领域多种经典的页面分割算法进行了综合评估，结果表明自下而上的方法（Docstrum， Voronoi）性能更优。Maurdor数据集是一个高度多样化的多语种数据集，包含科技论文、表单、杂志和便签等多种类型文档图像，区域标注方式为多边形外接框。该数据集上的页面分割评价指标为ZoneMap，目前最好结果是29.32（Li等，2019b）。POD2017数据集和PubLayNet数据集主要包含数字生成的科技文献类文档图像，区域标注方式为矩形外接框，评价指标为通用目标检测任务中常用的AP（average precision）和mAP（mean AP）。在上述两个数据集中，mAP分别达到0.892（Shi等，2022）和0.973 3（Yepes等，2021）。相比于PubLayNet数据集，POD数据集上的插图检测性能较差，这一方面是由于POD 数据集规模较小，不利于深度模型的训练；另一方面是由于POD 数据集对不同插图实例进行了类别区分，导致检测难度增加。表格结构分析数据集大致分两类，一类是以cTDaR2019（Gao等，2019）为代表的显式单元格切分数据集，此类数据集需要算法检测出单元格的坐标位置，并分析单元格之间的行列关系，评价指标为特定交并比（intersection over union ， IoU）阈值下邻接单元格对检测的准确率（precision，P）、召回率（recall，R）以及调和均值（F1）；另一类是以PubTabNet（Zhong等，2020）为代表的隐式单元格切分数据集，此类数据集不需要算法给出单元格的明确坐标，仅需给出表格的整体结构（一般用XML或LaTeX 格式表示），评价指标为树编辑距离相似度（tree-edit-distance-based similarity， TDES）和TDES-Struct（不考虑单元格文本内容，仅考虑结构）。两种数据标注格式也催生了两大类表格结构识别算法，一类是以图神经网络为核心的单元格检测 + 关系推理模型，另一类是以编码器—解码器为核心的端到端图像到标记模型。Li等人（2022b）给出cTDaR TrackB2 modern上的平均F1值为0.756 4，PubTabNet数据集上代表性的结果为TEDS = 95.1%（Liu等，2021）和TEDS-Struct = 97.5%（Lin等，2022）。整体而言，现有表格结构识别算法的性能还比较低，尤其是对于结构复杂的表格，模型的性能还有较大的提升空间。3.3　场景文本检测场景文本检测旨在获取自然场景图像中的文本区域，是识别图像中文本的不可或缺的步骤。与通用目标不同，场景文本往往具有多方向、极端长宽比和形状多变等特点，这导致基于水平框的通用目标检测方法难以处理。研究者于2000年前后开始尝试自动检测自然图像中的文字，但受限于手工设计特征的表征能力，早期的文本检测方法性能不佳。随着深度学习方法的流行，场景文本检测性能快速提升并逐步走向实用。下面对传统检测方法和基于深度学习的方法分别介绍研究进展。3.3.1　传统场景文本检测方法传统的场景文本检测方法大多数基于传统区域特征，如最大稳定极值区域（maximally stable extremal regions， MSER）（Matas等，2004）和笔划宽度变换（stroke width transform， SWT）（Epshtein等，2010）。这些方法（Pan等，2011；Yin等，2014）首先通过区域特征或目标检测方法获得大量的字符候选框，并采用传统分类模型对字符框进行关联且去除虚警框，从而获得单词或文本行级别的检测结果。Yao等人（2012）初步探索了基于SWT特征的多方向场景文本检测方法。由于传统特征和分类器的区分力不足，传统检测方法框架较为烦琐，常常需要一些经验式操作。更多传统检测方法的介绍可参考Ye和Doermann（2015）以及Zhu等人（2016）的工作。3.3.2　基于深度学习的场景文本检测方法基于深度学习的场景文本检测方法通常可以分为3类，即基于回归的方法、基于图像分割的方法和回归与分割混合的方法。基于回归的方法与通用目标检测类似，需要回归预测文本包围框的顶点坐标位置。然而，由于自然场景文本往往存在多方向、任意形变以及极端长宽比变化等特点，现有的通用目标检测框架难以直接用于处理场景文本。为此提出了一些有针对性的方法。CTPN（connectionist text proposal network）（Tian等，2016）首先将图像空间划分为多个小块，再使用循环神经网络去分析小块的上下文连接关系。CTPN对于长文本检测具有稳定的效果，但只能处理近似水平的文本。TextBoxes（Liao等，2017）和TextBoxes++（Liao等，2018）设计了一系列具有不同长宽比的锚点和卷积核来适应文本的长宽比变化，通过多任务学习来同时预测文本的水平框和四边形框。为了避免多方向文本背景噪声的干扰， DMPNet（deep matching prior network）（Liu和Jin，2017）提出了紧密性先验的四边形匹配方法。针对任意方向文本的预测，SegLink（Shi等，2017a）将文本检测转化成字符单元和单元间连接关系的预测，从而可以组合得到任意方向的文本多边形。SegLink++（Tang等，2019）完善了文本单元间的关系描述，在密集文本检测任务上取得了更加鲁棒的检测效果。与SegLink类似，DRRG（deep relational reasoning graph）（Zhang等，2020c）也是通过直接回归获得文本单元以及关系对，但其采用的是图网络来建模文本单元之间的联系。由于四边形通常不能够紧密地刻画文本的形状轮廓，ContourNet （Wang等，2020b）通过解耦候选框中的水平和竖直方向的文本轮廓来显式预测文本框的多边形边界。为了更好地拟合任意形状场景文本，最有代表性的是ABCNet（adaptive Bezier-curve network）（Liu等，2020），其采用贝塞尔曲线拟合文本的形状，使不规则形状的文本检测能在实时低参数的空间下实现。为了更加紧密地拟合不规则文本的轮廓，FCENet （Fourier contour embedding network）（Zhu等，2021）则采用了傅里叶曲线的方式来对文本轮廓进行建模。基于图像分割的方法能够提供像素级的检测结果，可适应文本的任意形状。基于图像分割的场景文本检测通常可以看做是二分类分割任务，旨在精确分离前景（文本）和背景。由于分割方法只能提供一个像素级的预测概率，这类方法通常需要后处理操作以获取精准的文本检测结果。Zhang等人（2016）首次提出采用全卷积网络（FCN）提取文本行区域，结合传统区域特征MSER，设计了对应的后处理方法，实现了多方向场景文本检测。PixelLink（Deng等，2018）在预测文本像素的同时，预测了像素间的文本连接关系，对于分割后处理提供了更丰富的信息。PixelLink的基本思想与 SegLink相似，虽然两者采用了不同的检测方式。此后的代表性分割方法大多致力于设计信息更丰富的分割网络，这有利于后处理过程能够获得更加准确的文本区域。例如，PSENet（progressive scale expansion network）（Wang等，2019）采用渐进性的文本掩码作为分割网络的优化目标，获得文本行预测的多尺度表示，再通过后处理的融合过程获得更加精准的文本检测结果；TextField（Xu等，2019）采用基于文本边界构建的方向像素场来替代文本掩码，使得分割网络的预测结果具有更丰富的信息，这导致后处理过程能更加有效地分离前景和背景；CRAFT（character region awareness for text detection）（Baek等，2019）通过弱监督的方式在分割过程中同时预测了字符的位置，利用字符信息进一步提升了检测的精准性。虽然基于分割的文本检测能够适应文本形状的多样性，但其后处理过程往往带来了更多的时间消耗。为了简化后处理的过程，DBNet（differentiable binarization network）（Liao等，2020b）和DBNet++ （Liao等，2023）则提出了一个可微的二值化网络模块，该模块可以与分割网络一同进行优化，并使模型自适应地选择所有位置所需的二值化阈值。联合优化的过程不仅提升了检测的性能，而且简化了后处理的操作，在场景文本检测任务的速度和精度方面取得了理想的平衡。回归与分割混合的方法将回归和分割融合到一起，结合两者的优势从而更精确地定位文本位置。其中最具代表性的是EAST（efficient and accurate scene text detector）（Zhou等，2017）和Direct Regression（He等，2018），在全卷积分割网络的基础上直接得到本文区域任意四边形框，消除了中间候选框提取的过程，具有较高的效率和精度。MOST （multi-oriented scene text detector）（He等，2021）提出动态地调整粗粒度的检测结果的感受野，并根据位置敏感分割图合并可靠的检测结果以辅助回归不同尺度的文本实例。TextBPN（adaptive boundary proposal network）（Zhang等，2021a）则通过分割图提取出文本的粗轮廓，进而使用图网络迭代回归优化粗轮廓得到更精确的结果。近几年，基于Transformer的混合回归与分割的方法（Tang等，2022；Song等，2022）也在文本检测领域上逐步展现了潜力。例如，Tang等人（2022）通过分割图得到粗略的文本特征，然后使用Transformer建模这些文本特征，最后切分成不同组，并回归出文本的边界。Song等人（2022）则将视觉语言预训练用于文本检测，预训练后的模型在回归和分割的方法上都明显提升了性能。综上所述，基于深度学习的场景文本检测方法已经逐步取代传统检测方法成为主流方法。检测方法演变的一个显著趋势是变得越来越灵活以及轻量化，从简单场景水平文本到多方向文本再到复杂场景的任意形状文本检测，从复杂多阶段以及烦琐的后处理方法再到轻量级单阶段的方法。场景文本检测的方法在面向更加通用和实用的场景逐步演化。3.3.3　数据集与性能情况场景文本检测实验中常用的数据集包括ICDAR 2015（Karatzas等，2015）、MSRA-TD500（Yao等，2012）、MLT-2017（Nayef等，2017）、Total-Text（Ch’ng等，2020）、CTW1500（Liu等，2019b）和ICDAR2019-ArT（Ch’ng等，2019）等，前3个数据集为多方向文本数据集，后3个数据集为任意形状文本数据集，MLT-2017为多语言（共9个语种），MSRA-TD500、CTW1500、ICDAR2019-ArT为中英文混合。英文数据集一般给出词级标注，中文和中英混合数据集给出文本行级标记，多方向文本区域标记为四边形，任意形状（曲线型和直线型混合）文本区域标记为多边形。根据最新的实验结果（Tang等，2022；Liu等，2022b)，ICDAR 2015、MSRA-TD500、Total-Text、CTW1500等数据集上检测的F1值接近90%，MLT-2017上检测的F1值接近80%。相比ICDAR 2015竞赛的结果（Karatzas等，2015）（最好结果不到50%），深度学习方法带来了场景文本检测性能快速提升。3.4　文本识别文本识别的中心任务是文本行识别，因为文档图像中的文本行分割相对容易，而文本行内字符切分非常困难。传统的文本识别主要针对纸张文档，包括印刷体文本识别和手写体文本识别两大类（研究工作主要针对手写文本行识别）。近年来，自然场景文本识别由于其字形多变、背景复杂等技术挑战，受到了广泛关注，逐渐成为OCR领域新的研究热点。3.4.1　手写文本识别按照笔迹数据采集方式，手写文本识别又分为联机手写识别和脱机手写识别。二者除了在数据预处理、特征提取环节有区别之外，在文本行识别流程和学习方法上相似。手写文本识别的方法可分为基于过切分的方法和无切分方法两大类。基于过切分的方法通过过切分（候选切分）来克服字符切分的歧义。其基本思想是对输入的文本行图像经过过切分得到多个初始切分候选块，用字符分类器对候选切分块分类后，结合字符分类和后处理搜索最佳识别路径，从而得到最终识别结果。这类方法在20世纪80年代以来有较多研究，关注点在如何切分开粘连的字符，如何对候选切分—识别路径进行评价和搜索。中文手写文本行识别的代表性工作有Wang等人（2012）提出的融合过切分识别结果、几何特征和语言模型的方法，以及Zhou等人（2013）提出的基于半马尔可夫条件随机场（Semi-CRFs）的方法等。基于过切分识别框架中的字符分类器、语言模型等也可用深度神经网络代替，得到较高的识别精度（Wu等，2017）。其学习方法也可扩展到弱监督学习（用无字符位置标记的文本行图像样本训练）。近年来，也有学者在传统的基于切分的方法基础上，与神经网络模型结合来解决文本行识别问题，例如Peng等人（2022c）提出了基于全卷积网络的切分与识别模块，基于弱监督学习进行训练，在无需标注字符框的情况下，设计了一种使模型可同时输出字符切分和文本行识别结果的方法。早期的无切分方法主要采用隐马尔可夫模型（HMM，可结合神经网络）对词或文本行建模，通过Viterbi解码将图像帧（窄的窗口）序列划分成字符序列。这类方法后来逐渐由循环神经网络（RNN）方法取代。基于深度神经网络的方法大致可以分为基于连接时序分类（connectionist temporal classification， CTC）的方法和基于注意力机制（Attention，包括Transformer）的方法。基于CTC的方法最早来源于语音序列识别和西文手写文本行识别（Graves等，2006，2009），此后，Shi等人（2017b）利用CNN取代传统的特征提取模块，提出了卷积循环神经网络（convolutional recurrent neural network， CRNN），已广泛用于场景文本识别和手写文本识别。在此基础上，Xie等人（2018）提出了一种融合路径积分、CTC和隐式语言模型的联机文本识别方法。除了基于过切分和CTC的方法之外，基于注意力机制的方法在文本识别中取得了不俗的进展，在场景文本识别、手写文本行识别特别是西文手写文本行识别中得到广泛应用（Shi等，2019；Luo等，2019，2022）。此类方法的一个不足是其存在注意力偏移的问题，在识别复杂且序列较长的中文手写文本时更加严重，另外基于注意力机制的方法通常采用自回归的预测机制，使得在序列较长时推理速度较慢。此外，最近基于自注意力机制的Transformer结构也用于脱机手写文本行识别（Kang等，2022）和联机手写文本行识别（Peng等，2021），例如Peng等人（2021）提出的基于CNN+自注意力模块+Transformer语言模型的联机文本行识别方法，在准确率、推理速度和存储量等方面达到了较好的综合性能。大多数手写文本行识别方法都针对单一语种（或单语种文本中混有少量英文字母、数字和符号的情况）。多语种混合的文本识别还需要考虑模型对语种的通用性、大字符集和大词汇量带来的问题以及语种难以准确判别等问题。为此，有些研究专门针对多语种文本识别提出了有效的方法，包括通用、高效识别模型设计（Carbune等，2020），同时进行语种判别和文本识别模型学习（Chen等，2020）等。另外，跨语种识别（同时进行文本识别和翻译）（Chen等，2022）也是值得注意的方向。一个值得注意的趋势是，手写文本行识别近年来扩展到了篇幅级识别（整页或整段识别，没有预先进行文本行分割）。篇幅级识别要同时完成文本行检测、文本行识别和阅读顺序等任务。一些方法在识别过程中动态检测文本行开头并识别文本行（Moysset等，2017；Wigington等，2018），但在训练过程中需要提供文档图像的文本行分割标记。Tensmeyer和Wigington（2019）在训练过程中引入对齐优化，从而不需要文本行分割标记。Bluche等人（2017）引入注意力机制在文档图像中动态搜索和识别文本行，但需要文本行识别器在文本行图像样本上预训练。Yousef和Bishop（2020）提出OrigamiNet，通过将二维的特征展开为一维特征，实现了一种利用CTC识别篇幅级手写英文文本的方法。Coquenet等人（2023）提出了一种垂直注意力网络用于整段识别。针对中文手写文档中文本行形状和方向变化多的情况，PageNet（Peng等，2022c）通过字符检测、字符识别和阅读顺序预测实现整页识别。手写文本识别实验中较常用的数据集包括英文数据集IAM、法文数据集Rimes和中文数据集CASIA-OHDB。英文/法文文本行识别的性能通常以字符错误率（character error rate， CER）和词错误率（word error rate， WER）来评价。代表性的评价结果，在IAM测试集上，文本行识别CER = 3.5%，WER = 9.3%，整页识别结果为4.54%和14.55%。在Rimes测试集上整页识别和文本行识别性能相近，CER = 3.83%，WER = 13.94%（Coquenet等，2023）。在中文数据集上通常以字符正确率（correct rate， CR）和准确率（accuracy rate， AR）来评价，最新结果为脱机数据字符正确率CR = 97.91%，联机数据CR = 98.06%（Peng等，2022a）。3.4.2　场景文本识别与手写文本识别相似，早期的场景文本识别也采用基于字符切分（过切分）的方法，比较成功的例子是谷歌的PhotoOCR（Bissacco等，2013）。基于切分的方法虽然简化了识别器（即字符分类器）的设计，但是受限于字符切分的准确性且需要复杂的后处理过程，所以目前的研究工作更多关注能够端到端地进行文本行识别的方法。此类方法也可以大致划分成基于CTC的方法和基于注意力（attention）机制的方法。CTC方法的优势在于无需进行单字符切分，也无需文本标注和模型输入的对齐信息，即可学习到二者的隐式对齐信息。Shi等人（2017b）提出的CRNN将自然场景文本识别任务视为序列识别任务，在多种不同场景下都展现了不错的性能。从CRNN以后，基于CNN/RNN + CTC的文本识别方法已成为文本行识别领域的主流方法之一。基于滑动窗分类和CTC学习的文本识别方法（Yin等，2017）克服了RNN训练收敛慢的缺点，同时可给出字符位置，容易推广到大类别集的中文场景和手写文本行识别。注意力机制最早用于机器翻译任务，Shi等人（2016）较早将注意力机制用于场景文本识别。此后，注意力机制成为了场景文本识别领域一个重要的研究方向，学者们针对不同的问题设计了各自的改进方式，主要包括：从一维注意力推广到二维注意力预测（Li等，2019a）、解决注意力漂移问题的方法（Cheng等，2017；Wang等，2020a）、解决不规则文本识别提出的各种端到端矫正识别方法，例如ASTER（attentional scene text recognizer with flexible rectification）模型（Shi等，2019）和MORAN（multi-object rectified attention network）模型（Luo等，2019）、融合注意力机制及Transformer语言模型的方法（Fang等，2021）。此外，随着ViT（vision transformer）的发展，近期也有以ViT为基础的文本识别方法（Bautista和Atienza，2022；Du等，2022）提出，并取得了显著的性能提升。无监督或自监督学习是近年来机器学习领域的一个重要研究方向，面对海量无标注文本图像数据，学者们探究通过自监督的方式提升模型的表征能力，例如Aberdam等人（2021）和Luo等人（2022）分别通过对比学习和生成式学习的方式实现了在特征空间上对不同字符的表征，Yang等人（2022）结合生成式学习与区分性学习，进一步提升了场景文本识别及有关任务的性能。这是一个新兴的研究方向，值得进一步深入研究和探讨。一些典型的场景文本识别方法在目前6个常用场景文本数据集上的识别结果如表2所示。表2中所用英文数据集规模都比较小（其中最大的IIIT5K只有3 000个词样本），近几年测试性能不断提升，已接近极限。然而，最近关于艺术字识别的研究（Xie等，2022）表明，这些方法仍有较大的提升空间。一些学者发布了几个较大规模的中文或中英双语场景文本图像数据集，如CASIA-10K（He等，2018）、RRC-ArT（Ch’ng等，2019）、ICDAR2019-ReCTS（Zhang等，2019a）和RRC-LSVT（Sun等，2019），尚未引起广泛重视。中文场景文本行由于图像宽高比差异大、字符类别数多，一些在英文数据集上表现优异的方法可能并不适用，需要投入更多研究关注。10.11834/jig.221112送排稿.T002表2部分场景文本识别方法在6个不同数据集上的性能（词正确率）对比Table 2Comparison of scene text recognition performance （word correct rate） on 6 public datasets方法规则文本不规则文本IIIT5KSVTIC13SVTPIC15CUTECRNN (Shi等，2017b)84.378.988.864.861.561.3MORAN (Luo等，2019)91.288.392.476.169.077.4ASTER (Shi等，2019)93.489.591.878.576.179.5ABINet (Fang等，2021)96.293.597.489.386.089.2SVTR (Du等，2022)96.391.797.288.786.695.1PARSeq (Bautista和Atienza，2022)97.294.097.389.086.792.2%3.4.3　端到端文本检测与识别近年来，场景文本图像中文本检测和识别吸引了大量关注。有些工作将文本检测和识别联合起来考虑，称为端到端文本检测与识别或文本发现（text spotting）。基于深度学习的端到端方法大致可以分为两阶段和一阶段两大类方法。早期端到端两阶段方法一般都让检测模块和识别模块共享特征提取分支（即主干网络），然后将检测得到的文本区域特征送入识别模块进行文本识别。一个较早的端到端文本检测与识别方法（Li等，2017）只能处理水平文本；此后，有学者提出了对任意四边形的端到端文本识别方法（Liu等，2018）。近年来，端到端的研究聚焦于任意形状（包括不规则文本）的检测与识别，例如TextDragon（Feng等，2019）和CRAFT （Baek等，2020）认为基于组件（单字或文本块）的方式能更灵活处理不规则文本；ABCNet系列（Liu等，2020，2022b）则对不规则文本的边界进行几何建模；Mask TextSpotter系列（Liao等，2021，2020a）结合上述两种方式的特点，在Mask R-CNN检测文本行的基础上加入了单字检测与识别，得以更灵活地处理不规则文本。上述端到端方法中，检测器与识别器唯一联合的部分是共享了主干网络提取的特征，而Huang等人（2022a）提出的SwinTextSpotter模型可以使识别分支更充分地利用来自检测分支的反馈，提高了端到端文本识别的性能。近年来，考虑到端到端联合训练检测与识别分支时，特征对齐与变换的操作会造成特征的失真，从而给识别带来负面影响，一些学者提出了单阶段的方法，即模型可以在检测文本区域的同时预测文本的内容。CharNet（Xing等，2019）是较早的单阶段方法，在进行文本行检测的同时，通过单字检测与识别获得文本行的识别内容；MANGO（mask attention guided one-stage）（Qiao等，2021）可根据字符级别的分类结果，并行输出端到端识别结果；Zhang等人（2022c）提出的TESTR（text spotting transformer）则是基于DETR （detection transformer）（Carion等，2020）设计了Dual Decoder，同时输出文本检测框及其对应的文本识别内容；SPTS （single-point text spotter）（Peng等，2022b）模型首次将端到端文本检测和识别任务建模为简洁的序列预测问题，采用基于Transformer的序列预测模型将文本检测和识别融为一体。总结来看，近年来此领域涌现出不少基于Transformer框架的端到端场景文本识别新方法（Huang等，2022a；Zhang等，2022c；Peng等，2022c），是一个值得关注的发展方向。3.5　结构化符号和图形识别文档中除了文本，还包含（数理化）公式、流程图、图表（chart）、电路图、工程图和音乐符号等结构化元素。虽然这些元素数量相对较少，但是对文档内容的准确表达具有非常重要的作用。这些结构元素一般由文字和符号混合构成，具有较为复杂的二维结构关系。因此，除了需要对其中的文字和符号进行识别之外，还需要对其构成的二维结构进行分析，给出关系描述，如数学公式识别要同时给出每个文字/符号的类别及相互关系（如分子—分母、上标—下标等）。从20世纪60年代开始，就有学者尝试对文档结构化元素（主要是数学公式和流程图）进行识别，到80年代可以看到较多论文发表。早期方法基本都包含3个步骤：符号分割、符号识别和结构分析。首先基于人工规则将文档中的基元（联机文档为笔划；脱机文档为像素或连通成分）聚合为字符或符号，然后用一个分类器对字符/符号进行识别，结构分析则基于语法或人工规则对字符/符号相互间的逻辑关系进行标记。关系分析是这里的主要问题和难点。对于数学公式识别，基于语法或语法和图模型结合的方法是早期较常用的方法，有大量的语法规则相继提出，如随机上下文无关语法（stochastic context-free grammar）（Álvaro等，2014）、关系语法（relational grammar）（MacLean和Labahn，2013）以及图语法（graph grammar）（Álvaro等，2016）。对于流程图的识别，80年代已有一些联机手写流程图识别的工作（Wakahara等，1992），主要对符号进行分割和识别，较少涉及结构分析。后来有一些基于句法规则的流程图识别方法（Julca-Aguilar等，2020；Costagliola等，2014），将流程图的结构分析、符号分割与识别均嵌入到语法规则中，而无独立或显式的结构分析。流程图符号的分割与识别方法可以分为自底向上和自顶向下两种思路。自底向上方法（Bresler等，2016）依次执行符号分割与符号识别，通常首先采用过切分技术生成候选符号，然后用符号分类器对候选符号进行识别并拒识分割错误的符号。自顶向下方法（Julca-Aguilar等，2020）将符号分割与符号识别统一在一个优化框架下，同时求解这两个问题。上述这些基于字符/符号分割的数学公式和流程图识别方法存在一个主要不足：符号分割错误在后面识别中不能消除，造成错误积累，即使是经过训练的分类器也难以拒识所有的错误分割符号。近年来，数学公式和流程图识别越来越多地采用深度学习方法，性能得到快速提升。下面是一些基于深度学习的研究进展。1）数学公式识别。受图像描述（image captioning）工作的启发，可以将数学公式识别作为一种特殊的图像到序列（image-to-markup generation）的任务来处理。Deng等人（2017）首先提出将基于注意力的编码器—解码器架构用于脱机公式识别。基于编码器—解码器结构的神经网络能够通过基于注意力机制的解码方式来实现隐式的字符切分、识别和结构分析，因此很快成为数学公式识别方法的主流。一些改进的方法聚焦如何提升编码器—解码器模型的能力。Zhang等人（2017a）、Wu等人（2021）、Ding等人（2021）分别将FCN、DenseNet、MDLSTM （multi-directional LSTM）和Transformer等网络结构作为编码器。其中，解码器部分通过添加视觉哨兵（visual sentinel）机制（Wu等，2020a）、解码器多层堆叠（Ding等，2021）、双向 Transformer 进行正反向解码（Zhao等，2021）等方式来提升解码器对结构的解析能力。还有一些研究工作则在训练损失和策略方面提出改进，如印刷—手写样本的对抗学习（Wu等，2020a）、通过树结构拆分的数据合成方法（Le等，2019）、脱机和联机两个模态的识别器进行集成（Zhang等，2019b）、多尺度计数（Li等，2022a）等技术引入公式识别，并有效提升了识别性能。图像到序列生成的方法虽然可以给出LaTeX标记的结构识别结果，但是其隐式切分的方式不像人的识别一样可以准确分割符号。因此，基于树、图或语法结合深度神经网络的方法重新开始受到重视。Zhang等人（2020a）针对数学公式的符号关系树（symbol layout tree，SLT）表示方式设计了一种树解码器，在不同的结构上都取得了良好的泛化性。Yuan等人（2022）通过继续在树解码器中引入语法约束关系来提升性能。Wu等人（2021）提出了一种基于图到图生成的联机数学公式识别方法，可直接从数据中自动学习目标符号标签图，并准确切分符号。数学公式识别方法主要在常用数据集CROHME 2014/2016/2019（联机手写公式，可转化为图像用于验证脱机识别方法）上进行评价（Mahdavi等，2019）。部分数学公式识别方法性能（没有训练数据增强和模型集成的情况）如表3所示。从表3中可以看出，现阶段手写公式识别正确率仍然较低。最近，大规模手写公式数据集HME100k（Yuan等，2022）上的结果进一步证明，即使使用了更多的训练数据，手写公式识别仍然是极具挑战的任务，仍需从表示模型设计、学习和推理等方面深入研究。表3　部分数学公式识别方法性能（公式级别正确率）Table 3　Selected results （expression-level accuracy） ofhandwritten mathematical expression recognition/%10.11834/jig.221112送排稿.T003方法CROHME2016CROHME2019WAP (Zhang等，2017a)44.55-TAP (Zhang等，2019b)50.22-PAL-v2 (Wu等，2020a)49.61-G2G (Wu等，2021）52.05-DWAP-TD (Zhang等，2020a)48.5051.40BTTR (Zhao等，2021）52.3152.96SAN (Yuan等，2022)53.6053.50ABM (Bian 等，2022)52.9253.96CAN-ABM (Li等，2022a)56.1555.96注：“-”表示无相关实验结果。2）流程图识别。流程图识别的工作主要集中在联机手写流程图识别（目的是将手写笔迹转化为标准的格式化图形）。脱机流程图识别只有少数工作，如Julca-Aguilar和Hirata（2018）直接采用Faster R-CNN目标检测方法进行流程图组成符号的检测，Schäfer等人（2021）提出了Arow R-CNN框架进行箭头的检测。联机流程图识别一般以笔划为基元，通过笔划分类、聚合实现符号分割与识别。Yun等人（2022）以图神经网络为基础提出了Instance GNN，将笔划分类问题转化为图节点分类问题，将符号分割转化为节点聚类和边分类问题，从而将笔划分割、符号分类和关系分析较好地统一起来。目前常用的联机手写流程图数据集FC_A、FC_B和FA规模较小。中国科学院自动化研究所发布了一个较大规模的数据集CASIA-OHFC（Yun等，2022），含2 957个文档，33个符号类别。识别性能方面，Instance GNN在FC_A、FC_B和FA等3个数据集上可得到95%以上的符号召回率，而在CASIA-OHFC上的符号召回率低于80%，说明实际场景下的联机手写流程图识别问题依然较难。3.6　文档检索和信息抽取文档识别的应用目的一方面是数字化（转化为电子文档），另一方面是检索。文档检索旨在从文档数据库中搜索出用户指定类型或内容的文档。文档信息抽取可以看做是文档检索的高级形式。20世纪90年代以来，开展了较多的文档检索研究工作（Doermann，1998；Mitra和Chaudhuri，2000）。早期方法包括基于OCR的方法（即将文档转录为电子文本后用文本查询）、关键词检索（keyword spotting，即直接从文档图像检索关键词，其查询输入方式又分为文本或键盘查询、图像或示例查询）、自动摘要、基于文档结构的检索和图形符号检索等。2000年以后，针对历史文档的关键词检索工作开始增多。历史文档因图像质量差、手写变形和训练样本少等原因，词识别正确率较低，所以基于OCR的检索方法效果不佳，因此多采用基于文本或示例查询的关键词检索方法。关键词检索的主要问题是如何计算查询词（文本或图像示例）与文档中词图像或候选区域的相似度/距离，涉及特征提取、相似度计算与学习以及上下文融合等，具体方法有跨模态嵌入属性学习（Almaz􀆦n等，2014）、概率建模（Cao等，2009a）以及基于候选切分网格的检索（Huang等，2013）等。这些非深度学习的方法限于文本识别精度或关键词相似度建模能力不高，关键词检索的精度（召回率—准确率）有限，往往需要牺牲准确率来提升召回率，需要较多人工对查询结果进行筛选，因而在关键词检索基础上的文档内容检索或分类精度（基于词包（bag of words）表示）也受到影响。文档信息抽取（information extraction）指对输入的文档图像的多模态（语义、布局和视觉）信息进行分析处理并提取出指定语义类别文本的过程，又称为视觉信息抽取（visual information extraction， VIE），是OCR与自然语言处理（natural language processing， NLP）交叉领域的一个新问题，近年来受到广泛关注。常见的方法有基于栅格（grid）的方法（Katti等，2018；Denk和Reisswig，2019；Lin等，2021）、基于图神经网络（GNN）的方法（Liu等，2019a）、基于大规模预训练方法（Xu等，2020；Wang等，2022a）以及端到端方法（Zhang等，2020b；Wang等，2021a）等。基于栅格（grid）的方法将文档视为一个二维网格，通过使用文本编码填充文本所在的像素点来融合文档的语义和布局信息，代表性方法包括Chargrid（Katti等，2018）、BERTgrid（Denk和Reisswig，2019）、 ViBERTgrid（Lin等，2021）等；图神经网络近年来广泛应用于结构化文档的建模。Liu等人（2019a）将文档抽象为全连接图，将每个文本段的语义信息和布局信息分别嵌入到图的节点和边特征之中，并利用图卷积运算进行特征融合，最后利用BiLSTM-CRF（Huang等，2015）对节点特征进行实体类别预测；MatchVIE（Tang等，2021）引入了一种基于多模态特征的实体内容相关性评估机制，一定程度上克服了语义模糊与混淆造成的影响。基于图网络的方案在开销和性能上取得了较好的平衡，但由于图网络本身的一些特性，如过度平滑、梯度消失等问题，往往会为模型训练带来困难。在自然语言处理领域，BERT （Devlin等，2019）基于Transformer结构，利用掩码语言模型（masked language model，MLM）任务进行大规模自监督预训练，在多种NLP下游任务上取得了突破性进展和优异性能。受此启发，在OCR和计算机视觉领域，也开始关注如何通过大规模无监督预训练的方式从无标注文档中提炼出有效的通用基础模型。LayoutLM（Xu等，2020）首次提出了文档理解的大规模预训练框架，它将文档中每个单词的语义特征和布局特征进行叠加作为输入，送入基于Transformer的结构对单词进行特征编码，并利用掩码视觉语言建模（masked visual language model，MVLM）和多标签文档分类任务在RVL-CDIP数据集上分别进行自监督和监督预训练。后续的LayoutLMv2 （Xu等，2021b）和LayoutLMv3 （Huang等，2022b）进一步引入视觉信息或掩码图像建模（masked image modeling，MIM）等进行了改进，在多个常用数据集上均达到了当时最优的性能。此外，为了解决多语言文档信息抽取问题，LayoutXLM （Xu等，2021a）在LayoutLMv2的基础上利用多语言数据进行训练，拓展出了多语言的视觉富文档预训练模型；LiLT（Wang等，2022a）则提出了一种独立于语言种类的模型框架。基于大规模预训练的方法往往拥有强大的可泛化性能，且应用场景广泛，可扩展到其他文档理解任务中，然而这些模型往往开销较大，需要足够的计算资源支撑。上述视觉信息抽取方法均利用已有的OCR结果，OCR中的误差会对后续操作产生影响，构建OCR与VIE端到端过程的新范式，或是尝试直接略过OCR过程（利用真值文本），也是近期学界开始关注的重要研究方向。TRIE（end-to-end text reading and information extraction）（Zhang等，2020b）首次将文本检测与识别系统和信息抽取模块组合成为一个端到端的联合优化体系，这种端到端的联合优化方式能够使OCR模块和VIE模块配合的更加紧密；VIES（Wang等，2021a）则进一步提出了视觉和语义协作机制，使得信息抽取模块能够从文本检测识别的结果中收集到丰富的视觉和语义表征，反之又提供了更高级别的语义线索以指导OCR系统的训练优化过程；此外，近期也有学者尝试OCR-free的新范式，例如Kim等人（2022）提出的 Donut，可以端到端提取视觉多层次关键信息。尽管视觉信息抽取方法已经取得了令人鼓舞的进展，但仍然存在一些亟待解决的问题。1）大部分方法都在关注如何更好地融合文档中的多模态特征，然而从目前一些研究表明模型对视觉信息的利用程度仍然较为有限，如何更好地挖掘与利用视觉信息可能是一个值得研究的方向；2）OCR结果中的误差会影响信息抽取算法的性能，有些工作甚至略过OCR过程，后续工作可尝试探索OCR误差纠错和构建端到端系统这两个领域；3）如何充分利用不同数据域中的相似实体类别，增强模型在跨数据域间的泛化能力；4）不同的应用场景往往对不同的实体类别感兴趣，能否将现有的标注数据视为部分标注的情景，从而利用已标注信息去挖掘未被标注的其他实体，值得进一步思考。3.7　现状总结本节介绍的主要是深度学习方法兴起以来的阶段进展。可以看出，当前文档图像分析与识别领域的研究进展和技术状况有几个主要特点。1）研究对象向深度、广度扩展。深度方面，处理的文档形式和内容越来越复杂：成像方式从扫描到拍照，文档载体从纸张到自然、任意场景，文档版面结构更加复杂多变，识别单元从单字到文本行再到整页，字符形状、书写风格更加多样化，识别目标从文本转录上升到语义信息抽取。广度方面，从聚焦字符、文本识别扩展到文档多要素、全要素识别，从单语种到多语种、混合语种文档识别等。2）处理方法全面转向深度神经网络模型和深度学习方法。深度神经网络成功用于字符识别、文本行识别、版面分析（包括页面分割和区域关系分析）、数学公式识别、流程图分析、表格分析和语义信息抽取等各个环节。大部分方法都采用端到端学习方式（从输入图像映射到最终分割、识别结果），有些学习方法只需弱标记数据（如训练文本行识别模型只给出真值文本，不需标记字符位置）。自监督学习和预训练模型开始受到重视，已初步显示提升识别性能和减少标记样本需求的效果。3）识别性能大幅提升。在各个识别任务（典型的如手写字符和文本行识别、场景文本检测和识别）上，基于深度学习的方法相比传统方法都大幅提升了识别性能，这也得益于当前有大量数据（包括合成数据）训练复杂的模型。一些复杂结构识别问题（如数学公式识别、自由表格分析），在传统方法时代性能不高、研究者不多，在深度学习时代，方法不断创新和性能不断提升，吸引了越来越多的研究者。4）应用场景不断扩展，从纸张文档数字化扩展到任意有文字信息的视觉文档处理。一方面，手写文本识别和复杂版面文档识别、自由表格分析技术的突破促使纸张文档数字化和办公自动化应用大规模推广；另一方面，智能手机和移动终端的普及使泛在的图像获取和传输处理变得非常方便，网络信息处理和服务系统可以从大量拍照文档图像提取文字内容，处理对象包括电子商务、金融、保险等行业的票据、证照、合同和广告等，以及城市街面招牌、道路指示和车辆牌照等。在取得巨大技术进展的同时，现有方法和技术还有很多不足。1）大数据依赖。这是当前深度学习模型的共性问题：相比传统方法，深度学习方法需要巨量标记样本训练才能保证泛化性能。当前公开的手写文本和场景文本图像数据集都花费了大量人工进行整理标注。很多研究实验中还补充合成数据或对真实数据增强。自监督学习和预训练模型对减少标记样本需求已初显效果，但有些应用场合样本获得真实样本非常困难（如古籍文档中的生僻字），因此仍需研究少样本情况下更好的识别模型和学习算法，以及高真实度样本合成方法。2）识别精度和可靠性仍然不足。深度学习模型一般是作为闭合集分类器，对训练过的已知类别的样本分类正确率很高，但对类别集以外的异常样本和有歧义的已知类别样本难以拒识，因此在低质条件（图像退化、书写风格变化大和训练样本不足等）下仍然会产生大量识别错误，且不能对异常和歧义样本提供可靠的置信度，导致对识别结果的人工校对非常困难。总的来说，低质条件下的文档识别技术应用仍受限制。3）结构和语义理解能力不足。结构解释能力差是深度学习模型可解释性不足的一种表现。深度神经网络的分类能力很强，但不能解释字符的笔划组成；很多端到端的文本行识别和数学公式识别不能准确定位字符的位置，不方便后处理和人工校对。笔划分析（Wang等，2022b）和字符定位（Wu等，2020b）及置信度估计在很多高可靠性、高解释性应用中是需要的。另一方面，文档信息抽取还只是文档中语言信息理解的初级形式，对于篇章级语义理解、文档的问题求解、自动问答等应用还需要更高级的语义理解和知识推理能力。4）学习灵活性缺乏。现有的识别模型一般都是用预定类别集的样本一次性训练，训练之后对风格变化的数据、训练数据少的类别以及未训练类别的数据难以正确识别。机器学习和文档识别领域有一些领域自适应的研究工作，局限于源域数据（原始训练数据）和目标域数据（新数据）一起训练的情况。实际应用中往往难以保存原始训练数据，而只在新数据上更新模型的话，原来学过的知识容易忘记（灾难性遗忘问题）。这样的增量学习或持续学习问题是人工智能领域的前沿问题，在文档识别领域应予以充分重视。此外，当前学术界的研究模式也有值得反思的地方，突出地体现在选题和性能评价两个方面。选题方面，存在片面追逐热点、在公开数据集上刷性能的情况。如场景文本检测与识别，一些论文的工作着眼于如何去提升公开数据集上的性能，提出的方法缺乏通用性、可扩展性和启发性。文档识别应用落地所需要的可解释性、置信度、弱监督学习和增量学习等问题少有研究。在性能评价方面，多数研究工作的实验数据集较小或比较单一，难以覆盖实际应用场景的多样化风格，因此即使报告的性能很好，其实并不实用；性能评价准则过于单一，主要集中在识别正确率、检测召回/准确率等少数几个指标，对可解释性、迁移性等很少关注；有些性能比较评价不公平，在使用训练数据、标注程度、辅助知识、网络架构、计算平台不同和测试数据单一的情况下，不能对方法的性能优劣得出可靠结论。4　研究前沿与展望面向不同行业、不同领域智能化应用对文档分析与识别技术的需求，针对现有技术的不足，从提升系统性能、扩展应用范围和增强学习能力3个角度，可以发现很多值得研究的前沿问题。1）从提升系统性能的角度，有一些值得重视的问题。（1）设计更好的识别模型和学习算法，进一步提升文本和符号识别的可靠性（包括置信度估计，对未知类样本和歧义样本的拒识能力）；（2）对长尾问题（类别数巨大而有些类别训练样本稀少）、多语种文本识别问题，需要克服样本不均衡、部分类别样本少、部分语种样本少带来的识别性能下降的问题；（3）文档中的结构化图形符号（数理化公式、流程图、图表（Davila等，2021）、几何图形（Zhang等，2022b）、签名和印章等）目前识别精度还不高或尚未受到足够重视；（4）复杂版面文档和拍照变形文档的分析识别性能不足，目前的研究工作或针对复杂版面（如表格分析），或针对变形文档（如形变矫正），尚缺少针对变形复杂结构文档的工作；（5）文档语义信息抽取和语义分析的工作还较少，需要针对具体应用（提取语义的目的，如回答问题（Tito等，2021）），结合多模态信息（文字、图像图形和语言）进行更深入的语义分析和知识推理。2）从应用角度，已有的应用（纸质文档数字化、票据和商业文档自动处理等）还有很大的扩展空间，同时还有很多潜在的应用场景（如教育领域的作业自动分析批改）尚未实现。下面是几个可能的应用场景和需求：（1）纸质文档数字化和信息处理，成像方式包括扫描和拍照，应用场景包括历史书籍、古籍、报纸、杂志等数字化和再出版，各种档案和文书（政府、企事业单位和公检法）、各种票据和商业文档、医疗病历、教育文档和作业、个人笔记等；（2）自然场景文档，这里主要指纸张以外的拍照文档图像，应用场景包括街景、道路标识、旅游景点、车牌、车架号、工业产品标记和包装、邮政包裹、计量表读取以及机器人环境感知和导航等；（3）网络图像、视频和合成文档图像，包括网络通信中用户上传的各种扫描和拍照文档图像、视频流、含有文字的合成图像（常见于广告）或人工贴上文字的自然图像等；（4）联机手写文档，内容包括文本、图形、表格、公式和流程图等，主要用于个人笔记、电子书、学校教育中的作业和考试以及电子白板的会议记录等。对于新的应用场景，需要建立数据集和性能评价标准，有些应用（如教育文档）还需要建立领域知识库来帮助识别、语义分析和推理。3）从识别系统设计和学习的角度，文档识别系统需要从多个方向提升学习能力，从而减轻系统设计中的数据收集和标记代价，并提升系统的识别性能和自适应能力。相关的机器学习问题如表4所示，其中，监督学习和多任务学习已经比较常用，其他学习问题和方法都需要加强，在一些方向上已经有一些初步研究，如混合监督文本检测（Zhao等，2022）、开放集文本识别（Liu等，2022a）、跨模态字符识别（Ao等，2022；张颐康等，2021）以及多模态版面分析和信息抽取等。10.11834/jig.221112送排稿.T004表4文档分析与识别中的学习问题Table 4Machine learning problems involved in document analysis and recognition学习方式说明应用任务或场景监督学习训练数据给出类别，对结构化识别给出部件或基元分割标记字符识别、文本行识别、公式识别、流程图识别等多任务学习在相同数据集上多个处理任务（如分割和识别、语种判别和文本识别）同时学习文本检测与识别、版面分析、表格分析等小样本学习、长尾学习标记样本总量少，或部分类别标记样本少古籍文字识别、文本行识别、签名验证等置信度估计判断字符或文本行、公式等单元识别正确的确信度，给后处理提供便利或对低置信度输出予以拒识字符识别、文本行识别、公式识别、表格分析、流程图识别等弱监督学习结构化识别只给出端到端标记，无部件或基元分割标记文本行识别、公式识别、整页识别等半监督/混合监督学习部分样本无标记或标记较弱，或训练样本混合了不同类型的标记文本检测、文本行识别、整页识别、公式识别、版面分析等自监督学习用无标记数据预训练特征提取或语言模型，在下游任务中直接应用或对模型进行细调文档分析和识别各个任务领域自适应训练数据（源域）和测试数据（目标域）有特征分布差异，模型需适应目标域分布文档分析和识别各个任务开放集识别识别过程中输入模式超出已训练（已知）类别的范围，对未知类别模式拒识或更进一步，自动发现新类别字符识别、文本行识别、整页识别，符号识别增量学习（持续学习）识别模型训练后，分阶段增加新样本，在新样本上学习同时保留过去学到的知识（旧样本不保留或保留很少）字符识别、文本行识别、整页识别，符号识别跨模态学习同时利用图像和文本数据，或不同模态的模式数据（如联机和脱机手写笔迹）学习识别模型字符识别、文本行识别、版面分析、语义信息抽取、文档问答上述一系列研究问题的不断投入和逐步解决，将推动文档分析与识别技术的持续进步和广泛的应用推广。应用任务（功能）和应用场景的扩展不断提出新的研究问题和性能要求。机器学习模型和方法的研究是为了充分利用各种数据（包括人工干预）的信息提升识别系统的性能，包括识别精度和可靠性、全要素识别、结构理解和语义分析能力等。学习能力的提升可以减少对标记数据的依赖和系统设计、更新中的工程投入，提高系统设计的自动化程度。识别性能的提升可以减少应用中的人工校对，并最终实现无人化应用。5　结语本文对文档智能分析与识别领域60多年的研究历史进行了简要回顾，重点对深度学习兴起以来的研究进展从几个主要技术环节（图像预处理、版面分析、场景文本检测、文本识别、图形符号识别和信息抽取）进行了回顾和分析，总结了当前技术发展的主要特点和研究与应用中存在的不足，最后从系统性能提升、应用扩展、学习能力增强3个角度提出了未来研究方向。在这些方向上努力深耕，有望持续推进文档识别技术的发展和推广应用。21世纪以来，文档识别技术经历了20多年的加速发展。随着文本识别精度的不断提升，文档智能识别的技术任务已扩展到文档语义内容的理解和利用，或结合视觉信息和语言信息来同时提升图像识别和语义理解的性能。预训练大模型（包括多模态预训练模型）给包括文档识别在内的人工智能领域带来了很大的冲击，也意味着一系列新的挑战和机遇。面向应用，不断发现和解决科学技术问题，文档识别领域将继续向深度和广度不断发展，持续推广和深化在社会各个层面的落地应用。