随着训练数据体量和深度学习模型规模的不断提升,视觉基础模型(vision foundation model,VFM)和大语言模型(large language model,LLM)在多种类型下游任务中表现出优异的泛化能力,引发广大学者关注。在遥感(remote sensing,RS)领域,数据来源多样、模态复杂、地物类型丰富且分布异质,传统方法难以全面建模其中蕴含的语义与空间关系。围绕遥感多源数据特性和复杂地物关系设计预训练基础模型,对于提取通用、鲁棒的特征表示以及实现遥感影像智能解译具有重要意义。本文系统回顾了遥感预训练基础模型(remote sensing foundation model,RSFM)的研究进展,重点聚焦于单模态与多模态预训练策略的发展脉络和关键方法,梳理了当前主流遥感预训练数据集及其构建特性。在单模态方面,总结了典型的自监督对比学习(self-supervised contrastive learning,SSCL)与掩码生成预训练(masked generative pre-training)框架,并分析其在不同分辨率和多光谱影像中的应用效果;在多模态方面,重点回顾了图像—文本、图像—位置、图像—音频等多模态预训练策略及其特征对齐机制。进一步地,本文对遥感基础模型在跨场景适应、特征表征能力、预训练范式、数据质量与获取成本等方面所面临的主要挑战进行了分析,并从多模态融合、轻量化建模、跨域与跨时间泛化、模型透明度与可信性等角度,对未来遥感大模型的发展趋势与潜在研究方向进行了前瞻性探讨。本文旨在为遥感智能解译与大模型研究提供系统综述与理论参考。
目的图表作为直观高效的信息呈现方式,在科研与商业分析中扮演着重要角色。然而,当无法直接访问其底层原始数据时,基于图表进行深入分析便面临显著挑战。图表数据抽取技术旨在克服这一障碍,通过从视觉化的图表中精确提取数据,为后续的复杂指标计算、图表类型转换等下游任务提供关键的数据基础。本研究构建了一个大规模中文条形图数据集,并分别实现基于规则与大模型微调的图表数据抽取方法,以提升中文图表数据逆向提取的准确性与鲁棒性。方法本研究构建了包含58 712幅多种类型中文条形图及其对应数据表格的数据集,含垂直/水平/堆叠条形图、多角度文本旋转等复杂场景,并衍生出图表文本识别、图例检测等专项数据集,为中文图表理解任务提供了高质量、多样化的基准数据支持。同时,提出了两种基准模型:基于规则的图表数据抽取方法和基于大模型微调的数据抽取方法。最后,本文设计并实现了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。结果基于规则的方法在中文条形图上取得了最佳的性能(69.97%);而基于大模型微调的方法在DVQA(understanding data visualization via question answering)数据集上的性能显著超越了先进方法UniChart(a universal vision-language pretrained model for chart comprehension and reasoning)(24.53%)和DePlot(one-shot visual language reasoning by plot-to-table translation)(41.29%),分别高出36.75%和19.99%,表明了该方法在跨语言场景下的卓越泛化能力。 实验表明,基于规则的方法展现出处理特定图表类型的最佳性能,尤其在处理复杂图表结构方面具有明显优势;而基于大模型微调的方法虽然在单一图表类型上表现略逊,但具备更强的泛化能力和鲁棒性。结论本文创建的中文条形图表数据集为中文图表理解任务提供了高质量、多样化的基准数据支持,并设计了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。数据集开源地址https://doi.org/10.57760/sciencedb.j00240.00052,相关代码开源地址https://github.com/maqiuping59/ChineseChartExtract。