文档图像分析与识别(Document Image Analysis and Recognition, DIAR)作为连接物理世界与数字信息的关键桥梁,其技术体系正经历从传统任务驱动向大模型时代智能理解的深刻变革。本文基于中国图象图形学学会文档图像分析与识别专业委员会主办的“文档图像微沙龙”系列学术活动,系统梳理并凝练了近年来中国青年学者在该领域的代表性成果。文章以技术演进为脉络,首先回顾了文字检测、识别、公式与表格等核心基础任务的创新突破,重点阐述了开放集识别、自监督学习等前沿范式;进而探讨了从独立任务到端到端联合优化的系统性进展;最后,聚焦于大模型时代下智能文档解析的新范式,深入剖析了专用光学字符识别(Optical Character Recognition, OCR)大模型、多模态文档解析框架以及评估体系构建等关键方向。本文旨在勾勒DIAR领域从精细化单点技术到智能化系统集成、再到认知级语义理解的发展全景,为构建高鲁棒性、可解释且高效的通用文档智能基座提供理论参考与实践指引。本文提及的算法、数据集和评估指标已汇总至https://github.com/xhli-git/Micro-Salon-Survey.
目的提出了一种基于3DGS的3D人头化身建模方法TPAvatar(Avatar with Texture Prior),能够从多视角或单目视频序列数据中高效重建高保真可动画的3D人头化身,解决现有方法重建训练速度慢、难以重建精细皱纹细节的问题。方法TPAvatar通过构建一个轻量化网络模型学习高斯属性的特征隐空间,并首次提出利用预训练的DINOv2模型从建模对象的纹理图中提取视角无关的身份外观先验,构建UV空间对齐的身份特征。在表情驱动方面,TPAvatar为每个高斯点构建一组隐式表情特征基,通过网格绑定和表情特征基的线性组合实现模型的高效动画。结果在多视角数据集NeRSemble和单目数据集INSTA上的实验结果表明,TPAvatar可以实现高质量的多视角或单目人头化身重建。在多视角重建场景中,与基线方法GaussianAvatars/GEM相比,TPAvatar将重建时间从8/12小时缩短到了1.5小时,同时取得了更高的重建质量,在测试集上LPIPS分别降低了0.0037/0.0131;与基线方法RGBAvatar相比,TPAvatar在保持快速重建优点的同时显著提升了视角泛化性,在新视角合成任务中LPIPS降低了0.0155。在单目重建场景中,相对于最优基线方法RGBAvatar, LPIPS降低了0.0016。结论TPAvatar是一种可实时动画的3D人头化身重建方法,适用于多视角或单目视频输入下的个性化3D人头化身重建任务,通过融合纹理特征和构建表情特征基提升了模型的动画质量和视角泛化性,实现了快速训练、高效推理以及高质量的重建与动画。代码链接:https://doi.org/10.57760/sciencedb.j00240.00128。