摘要:文档图像分析与识别(Document Image Analysis and Recognition, DIAR)作为连接物理世界与数字信息的关键桥梁,其技术体系正经历从传统任务驱动向大模型时代智能理解的深刻变革。本文基于中国图象图形学学会文档图像分析与识别专业委员会主办的“文档图像微沙龙”系列学术活动,系统梳理并凝练了近年来中国青年学者在该领域的代表性成果。文章以技术演进为脉络,首先回顾了文字检测、识别、公式与表格等核心基础任务的创新突破,重点阐述了开放集识别、自监督学习等前沿范式;进而探讨了从独立任务到端到端联合优化的系统性进展;最后,聚焦于大模型时代下智能文档解析的新范式,深入剖析了专用光学字符识别(Optical Character Recognition, OCR)大模型、多模态文档解析框架以及评估体系构建等关键方向。本文旨在勾勒DIAR领域从精细化单点技术到智能化系统集成、再到认知级语义理解的发展全景,为构建高鲁棒性、可解释且高效的通用文档智能基座提供理论参考与实践指引。本文提及的算法、数据集和评估指标已汇总至https://github.com/xhli-git/Micro-Salon-Survey.
摘要:目的提出了一种基于3DGS的3D人头化身建模方法TPAvatar(Avatar with Texture Prior),能够从多视角或单目视频序列数据中高效重建高保真可动画的3D人头化身,解决现有方法重建训练速度慢、难以重建精细皱纹细节的问题。方法TPAvatar通过构建一个轻量化网络模型学习高斯属性的特征隐空间,并首次提出利用预训练的DINOv2模型从建模对象的纹理图中提取视角无关的身份外观先验,构建UV空间对齐的身份特征。在表情驱动方面,TPAvatar为每个高斯点构建一组隐式表情特征基,通过网格绑定和表情特征基的线性组合实现模型的高效动画。结果在多视角数据集NeRSemble和单目数据集INSTA上的实验结果表明,TPAvatar可以实现高质量的多视角或单目人头化身重建。在多视角重建场景中,与基线方法GaussianAvatars/GEM相比,TPAvatar将重建时间从8/12小时缩短到了1.5小时,同时取得了更高的重建质量,在测试集上LPIPS分别降低了0.0037/0.0131;与基线方法RGBAvatar相比,TPAvatar在保持快速重建优点的同时显著提升了视角泛化性,在新视角合成任务中LPIPS降低了0.0155。在单目重建场景中,相对于最优基线方法RGBAvatar, LPIPS降低了0.0016。结论TPAvatar是一种可实时动画的3D人头化身重建方法,适用于多视角或单目视频输入下的个性化3D人头化身重建任务,通过融合纹理特征和构建表情特征基提升了模型的动画质量和视角泛化性,实现了快速训练、高效推理以及高质量的重建与动画。代码链接:https://doi.org/10.57760/sciencedb.j00240.00128。
摘要:目的由相机图像信号处理(image signal processing,ISP)流程所决定的成像风格是制造商的核心知识产权。然而,攻击者可通过代理模型攻击来窃取该风格。具体来说,攻击者利用采集的RAW-RGB图像对训练代理ISP模型,生成与目标相机风格高度相似的RGB图像。现有水印方法主要针对常规信号攻击和物理信道攻击设计,难以抵抗此类非线性的代理模型攻击。为此,本文提出一种面向代理模型攻击的相机成像风格保护鲁棒水印方法StyleSign。方法该方法基于端到端设计,通过联合优化水印编码器、内部代理模块和解码器三个模块实现对成像风格的保护。首先,设计多尺度水印编码器,其中采用注意力机制与离散小波变换相结合的模块,以增强水印鲁棒性。然后,设计内部代理模块,用于在训练过程中模拟代理模型攻击。该模块采用双分支网络结构,去马赛克分支基于全局引导色彩映射网络准确模拟图像风格,RAW分支采用基于离散小波变换和通道注意力机制的U-Net结构以在模拟成像风格的同时保留水印信息。最后,利用编码器和内部代理模块的输出对解码器进行联合优化,使其能够从攻击者所采用的代理ISP模型输出的图像中准确提取水印。结果在Zurich RAW to RGB数据集上的实验结果表明,StyleSign对图像质量影响较小,水印图像在PSNR(37.26 dB)、SSIM(0.9893)和LPIPS(0.0425)等指标上均接近原始图像质量。该方法在RAW-to-sRGB、AWNet、MW-ISPNet和Airia CG这四种代理模型攻击下均表现出较好的鲁棒性,水印提取误码率分别低至1.07%、1.19%、0.99%和0.49%,优于对比水印方案。结论所提出的水印框架能够在多种代理模型攻击场景下保持水印的鲁棒性与可提取性,为相机成像风格的知识产权保护提供了一种有效且具备泛化能力的技术方案。
摘要:目的现有基于分割的场景文本检测方法多默认不同尺度特征可在同一语义空间中直接融合,采用统一监督信号驱动多尺度特征学习,忽略了跨层特征在语义层级上的本质差异,易导致低层像素噪声与高层语义约束相互干扰,从而影响检测性能。提出了一种基于尺度内分布感知与跨语义协同推理的高效场景文本检测方法。方法将像素级文本标注提升为多层次分布感知监督,引导不同尺度特征分支自主学习其对应感受野下的文本分布语义;在此基础上,引入跨语义全局知识集成机制,对多层次特征进行尺度内增强与跨层次协同融合,从而提升模型对复杂文本结构的整体建模能力。所引入的分支自主分布感知建模仅在训练阶段启用,测试阶段无需额外计算,保证了检测精度与推理效率之间的良好平衡。结果在多个公开数据集上,与现有10余种先进方法进行对比,本文方法均取得显著提升。相较于先进方法DBNet++(differentiable binarization network++),提出方法的F值在Total-Text、MSRA-TD500(MSRA text detection 500 database)、CTW(Curve Text in the Wild)1500数据集上分别提升了4.2%、5.0%和2.6%。消融实验进一步验证了所提出模块的有效性。结论实验结果表明,提出方法在多种场景下均具备良好的检测性能,同时保持较高的推理效率,验证了提出方法在高效场景文本检测任务中的可行性。
摘要:目的大熊猫作为全球生物多样性保护的旗舰物种,其在相机陷阱图像中的精确检测对生态评估与保护决策至关重要。然而,标注数据稀缺且预训练数据与野外图像存在域差异,限制了通用检测器在野外环境中的实用性。为此,本文提出一种集成生成模型与检测模型的统一生成-检测方法——PandaGenDet。方法该方法通过生成模型合成图像以缓解数据资源的限制,并通过结构改进提升了检测模型在野外环境下的鲁棒性。具体而言,为生成模型设计了类别引导机制,增强生成图像的语义一致性。在检测模型中构建即插即用的图像增强器模块,调整野外图像至更适应检测器预训练权重的分布;进一步地,提出生成特征注入器,将生成模型中蕴含的多尺度语义先验迁移至检测网络。结果实验表明,类别引导机制使生成图像的KID(kernel inception distance)从0.059改善至0.038,FID(fréchet inception distance)由147.00降至123.13;图像增强器使检测模型在大熊猫数据上的mAP(mean average precision)由88.8提升至89.7,mAR(mean average recall)由94.9提升至95.5;在此基础上,加入生成特征注入器模型的mAP达89.8,最终联合合成图像继续训练模型的mAP提升至90.1,并表现出良好的开放集检测能力。结论PandaGenDet建立了一个从数据合成到目标检测的统一协同架构,通过数据级合成缓解样本稀缺、图像级增强缩小域间分布差异、特征级注入复用生成模型的语义表征,实现了三重维度的深度协同,显著提升了通用检测模型在复杂野外环境下的大熊猫检测性能。
摘要:目的任意倍率视频超分辨(arbitrary-scale video super-resolution,AVSR)旨在根据指定倍率提升视频帧的空间分辨率。现有方法在细节恢复、时序一致性与计算效率之间仍存在权衡问题。方法本文采用基于前瞻机制的循环神经网络作为整体框架,在兼顾性能与效率的基础上,融合多尺度频率先验、基于光流的传播单元、二阶可形变对齐单元和超上采样单元,以增强时空信息聚合及任意倍率重建能力。结果在REDS数据集的多倍率测试中,本文方法相较代表性AVSR方法在PSNR上平均提升0.16 dB;在Vid4数据集的整数与非整数倍率测试中,仍表现出较好的跨数据集泛化能力。消融实验表明,二阶可形变对齐与多尺度频率先验能够有效提升复杂运动场景下的重建质量。结论所提出的任意倍率视频超分辨方法能够兼顾重建精度、泛化能力与计算效率,为实际任意倍率超分应用提供了可行方案。本文代码已公开发布,相关资源可通过 Science Data Bank获取:https://www.doi.org/10.57760/sciencedb.j00240.00181。