随着训练数据体量和深度学习模型规模的不断提升,视觉基础模型(vision foundation model,VFM)和大语言模型(large language model,LLM)在多种类型下游任务中表现出优异的泛化能力,引发广大学者关注。在遥感(remote sensing,RS)领域,数据来源多样、模态复杂、地物类型丰富且分布异质,传统方法难以全面建模其中蕴含的语义与空间关系。围绕遥感多源数据特性和复杂地物关系设计预训练基础模型,对于提取通用、鲁棒的特征表示以及实现遥感影像智能解译具有重要意义。本文系统回顾了遥感预训练基础模型(remote sensing foundation model,RSFM)的研究进展,重点聚焦于单模态与多模态预训练策略的发展脉络和关键方法,梳理了当前主流遥感预训练数据集及其构建特性。在单模态方面,总结了典型的自监督对比学习(self-supervised contrastive learning,SSCL)与掩码生成预训练(masked generative pre-training)框架,并分析其在不同分辨率和多光谱影像中的应用效果;在多模态方面,重点回顾了图像—文本、图像—位置、图像—音频等多模态预训练策略及其特征对齐机制。进一步地,本文对遥感基础模型在跨场景适应、特征表征能力、预训练范式、数据质量与获取成本等方面所面临的主要挑战进行了分析,并从多模态融合、轻量化建模、跨域与跨时间泛化、模型透明度与可信性等角度,对未来遥感大模型的发展趋势与潜在研究方向进行了前瞻性探讨。本文旨在为遥感智能解译与大模型研究提供系统综述与理论参考。
目的图表作为直观高效的信息呈现方式,在科研与商业分析中扮演着重要角色。然而,当无法直接访问其底层原始数据时,基于图表进行深入分析便面临显著挑战。图表数据抽取技术旨在克服这一障碍,通过从视觉化的图表中精确提取数据,为后续的复杂指标计算、图表类型转换等下游任务提供关键的数据基础。本研究构建了一个大规模中文条形图数据集,并分别实现基于规则与大模型微调的图表数据抽取方法,以提升中文图表数据逆向提取的准确性与鲁棒性。方法本研究构建了包含58 712幅多种类型中文条形图及其对应数据表格的数据集,含垂直/水平/堆叠条形图、多角度文本旋转等复杂场景,并衍生出图表文本识别、图例检测等专项数据集,为中文图表理解任务提供了高质量、多样化的基准数据支持。同时,提出了两种基准模型:基于规则的图表数据抽取方法和基于大模型微调的数据抽取方法。最后,本文设计并实现了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。结果基于规则的方法在中文条形图上取得了最佳的性能(69.97%);而基于大模型微调的方法在DVQA(understanding data visualization via question answering)数据集上的性能显著超越了先进方法UniChart(a universal vision-language pretrained model for chart comprehension and reasoning)(24.53%)和DePlot(one-shot visual language reasoning by plot-to-table translation)(41.29%),分别高出36.75%和19.99%,表明了该方法在跨语言场景下的卓越泛化能力。 实验表明,基于规则的方法展现出处理特定图表类型的最佳性能,尤其在处理复杂图表结构方面具有明显优势;而基于大模型微调的方法虽然在单一图表类型上表现略逊,但具备更强的泛化能力和鲁棒性。结论本文创建的中文条形图表数据集为中文图表理解任务提供了高质量、多样化的基准数据支持,并设计了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。数据集开源地址https://doi.org/10.57760/sciencedb.j00240.00052,相关代码开源地址https://github.com/maqiuping59/ChineseChartExtract。
文档图像分析与识别(Document Image Analysis and Recognition, DIAR)作为连接物理世界与数字信息的关键桥梁,其技术体系正经历从传统任务驱动向大模型时代智能理解的深刻变革。本文基于中国图象图形学学会文档图像分析与识别专业委员会主办的“文档图像微沙龙”系列学术活动,系统梳理并凝练了近年来中国青年学者在该领域的代表性成果。文章以技术演进为脉络,首先回顾了文字检测、识别、公式与表格等核心基础任务的创新突破,重点阐述了开放集识别、自监督学习等前沿范式;进而探讨了从独立任务到端到端联合优化的系统性进展;最后,聚焦于大模型时代下智能文档解析的新范式,深入剖析了专用光学字符识别(Optical Character Recognition, OCR)大模型、多模态文档解析框架以及评估体系构建等关键方向。本文旨在勾勒DIAR领域从精细化单点技术到智能化系统集成、再到认知级语义理解的发展全景,为构建高鲁棒性、可解释且高效的通用文档智能基座提供理论参考与实践指引。本文提及的算法、数据集和评估指标已汇总至https://github.com/xhli-git/Micro-Salon-Survey.
目的提出了一种基于3DGS的3D人头化身建模方法TPAvatar(Avatar with Texture Prior),能够从多视角或单目视频序列数据中高效重建高保真可动画的3D人头化身,解决现有方法重建训练速度慢、难以重建精细皱纹细节的问题。方法TPAvatar通过构建一个轻量化网络模型学习高斯属性的特征隐空间,并首次提出利用预训练的DINOv2模型从建模对象的纹理图中提取视角无关的身份外观先验,构建UV空间对齐的身份特征。在表情驱动方面,TPAvatar为每个高斯点构建一组隐式表情特征基,通过网格绑定和表情特征基的线性组合实现模型的高效动画。结果在多视角数据集NeRSemble和单目数据集INSTA上的实验结果表明,TPAvatar可以实现高质量的多视角或单目人头化身重建。在多视角重建场景中,与基线方法GaussianAvatars/GEM相比,TPAvatar将重建时间从8/12小时缩短到了1.5小时,同时取得了更高的重建质量,在测试集上LPIPS分别降低了0.0037/0.0131;与基线方法RGBAvatar相比,TPAvatar在保持快速重建优点的同时显著提升了视角泛化性,在新视角合成任务中LPIPS降低了0.0155。在单目重建场景中,相对于最优基线方法RGBAvatar, LPIPS降低了0.0016。结论TPAvatar是一种可实时动画的3D人头化身重建方法,适用于多视角或单目视频输入下的个性化3D人头化身重建任务,通过融合纹理特征和构建表情特征基提升了模型的动画质量和视角泛化性,实现了快速训练、高效推理以及高质量的重建与动画。代码链接:https://doi.org/10.57760/sciencedb.j00240.00128。