摘要:文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放集学习和跨模态学习等。
摘要:目的 在线公式识别是一种将在线输入手写轨迹点序列转换为公式文本的任务,其广泛应用在手机、平板等便携式设备上。众所周知,训练数据对于神经网络十分重要,但获取有标注的在线公式数据所需要的成本十分昂贵,在训练数据不足的情况下,深度神经网络在该任务上的泛化性和鲁棒性会受到影响。为此,提出了一个基于编码—解码模型的在线数据生成模型。方法 该模型从给定的公式文本生成对应的在线轨迹点序列,从而灵活地扩充训练数据规模。生成模型在编码器端设计了结合树形表示的文本特征提取模块,并且引入了基于位置的注意力算法,使模型实现了输入文本序列与输出轨迹序列间的对齐。同时,解码器端融入了不同手写人风格特征,使模型可以生成多种手写人风格的样本。结果 实验中,首先,将本文生成方法在不同类型输入文本和不同手写人风格上的结果可视化,并展示了模型在多数情况下的有效性。其次,生成模型合成的额外数据可作为训练集的增广,该数据被用于训练Transformer-TAP(track,attend,and parse)、TAP和DenseTAP-TD(DenseNet TAP with tree decoder)模型,并分析了3种模型在使用增广数据前后的性能变化。结果表明,引入增广数据分进行训练后,3个模型的绝对识别率分别提升了0.98%、1.55%和1.06%;相对识别率分别提升了9.9%、12.37%和9.81%。结论 本文提出的在线生成模型可以更加灵活地实现对原有数据集的增广,并有效提升了在线识别模型的泛化性能。
摘要:目的 为解决基于深度学习算法在执行胎儿四腔心超声切面图像质量评测时无法准确反映心脏区域中瓣膜与房室间隔及心室心房区域的可见程度问题,提出一种目标检测与两级分割相结合的胎儿四腔心超声切面图像质量评测方法。方法 首先利用自行构建的胎儿超声切面数据集训练主流的YOLOv5x(you only look once v5x)模型,实现四腔心区域与胸腔区域的有效定位。当检测到四腔心区域在胸腔区域内时,将其视为感兴趣区域送入训练好的U2-Net模型,进一步分割出包含心房室及瓣膜的部分。然后利用形态学算子去除其外围可能存在的少许心脏外膜区域得到四腔心内区域后,通过直方图修正与最大类间方差法(OTSU)相结合的方法分割出瓣膜连同房室间隔区域,并通过减法操作得到心室心房区域的分割图。最后通过联合胎儿四腔心超声切面图像中瓣膜连同房室间隔与心室心房区域的面积之比、瓣膜与房室间隔区域以及心室心房区域的平均灰度构建评分公式与评分标准,实现胎儿四腔心超声切面图像质量的有效评测。结果 在胸腔和四腔心区域的检测任务上的mAP@0.5、mAP@0.5-0.95和召回率分别为99.5%、84.6%和99.9%;在四腔心内部区域分割任务上的灵敏度、特异度和准确度分别为95.0%、95.1%和94.9%;所提质量评测方法在所构建的A、B、C三类评测数据集上分别取得了93.7%、90.3%和99.1%的准确率。结论 所提方法的评测结果与医生主观评测结果相近,具有较好的可解释性,拥有良好的实际应用价值。