Current Issue Cover
少数民族文字文本分析与识别的研究进展

王维兰1, 胡金水2, 魏宏喜3, 库尔班·吾布力4, 邵文苑5, 毕晓君6, 贺建军7, 李振江8, 丁凯9, 金连文10, 高良才11(1.西北民族大学数学与计算机科学学院, 兰州 730030;2.科大讯飞研究院, 合肥 230001;3.内蒙古大学计算机学院, 呼和浩特 010021;4.新疆大学计算机科学与技术学院, 乌鲁木齐 830046;5.上海大学社会学院, 上海 200000;6.中央民族大学信息工程学院, 北京 100081;7.大连民族大学信息与通信工程学院, 大连 116605;8.甘肃政法大学网络空间安全学院, 兰州 730000;9.上海合合信息科技股份有限公司, 上海 200000;10.华南理工大学电子与信息学院, 广州 510641;11.北京大学王选计算机研究所, 北京 100871)

摘 要
对于少数民族古籍的保护与传承,国家予以高度重视,并强调了对这些不可再生文化资源透彻数字化的重要性。随着文档图像分析与识别技术的不断进步,对少数民族文字的文本分析与识别研究受到广泛关注,并取得显著成就,成为人工智能应用研究的一个热点领域。然而,由于少数民族文字种类繁多、应用场景多样及数据集的稀缺性等问题,这一研究领域仍面临诸多挑战。本文旨在总结先前的工作,并为未来的研究提供支持,重点讨论了印刷体文本、联机手写、古籍文档及场景文字识别等任务,概述了国内外在少数民族文种识别领域的发展和最新成果。首先阐明了少数民族文字文本分析与识别的重要性及其价值,介绍了特定少数民族文字及其古籍文档的特征。然后,回顾了这一领域的发展历史和现状,分析并总结了传统方法的代表性成果及其应用;详细讨论了研究重点向深度神经网络模型和深度学习方法的全面转移,这一转变使得各文种的识别性能得到了显著提升。最后,基于相关分析,本文指出了在不同文种文档分析与识别中存在的精度和泛化能力等方面的不足,以及与汉文文本分析与识别的差异;面对少数民族文字文本识别领域的主要困难与挑战,展望了未来的研究趋势和技术发展目标。
关键词