摘要:随着训练数据体量和深度学习模型规模的不断提升,视觉基础模型(vision foundation model,VFM)和大语言模型(large language model,LLM)在多种类型下游任务中表现出优异的泛化能力,引发广大学者关注。在遥感(remote sensing,RS)领域,数据来源多样、模态复杂、地物类型丰富且分布异质,传统方法难以全面建模其中蕴含的语义与空间关系。围绕遥感多源数据特性和复杂地物关系设计预训练基础模型,对于提取通用、鲁棒的特征表示以及实现遥感影像智能解译具有重要意义。本文系统回顾了遥感预训练基础模型(remote sensing foundation model,RSFM)的研究进展,重点聚焦于单模态与多模态预训练策略的发展脉络和关键方法,梳理了当前主流遥感预训练数据集及其构建特性。在单模态方面,总结了典型的自监督对比学习(self-supervised contrastive learning,SSCL)与掩码生成预训练(masked generative pre-training)框架,并分析其在不同分辨率和多光谱影像中的应用效果;在多模态方面,重点回顾了图像—文本、图像—位置、图像—音频等多模态预训练策略及其特征对齐机制。进一步地,本文对遥感基础模型在跨场景适应、特征表征能力、预训练范式、数据质量与获取成本等方面所面临的主要挑战进行了分析,并从多模态融合、轻量化建模、跨域与跨时间泛化、模型透明度与可信性等角度,对未来遥感大模型的发展趋势与潜在研究方向进行了前瞻性探讨。本文旨在为遥感智能解译与大模型研究提供系统综述与理论参考。
摘要:目的图表作为直观高效的信息呈现方式,在科研与商业分析中扮演着重要角色。然而,当无法直接访问其底层原始数据时,基于图表进行深入分析便面临显著挑战。图表数据抽取技术旨在克服这一障碍,通过从视觉化的图表中精确提取数据,为后续的复杂指标计算、图表类型转换等下游任务提供关键的数据基础。本研究构建了一个大规模中文条形图数据集,并分别实现基于规则与大模型微调的图表数据抽取方法,以提升中文图表数据逆向提取的准确性与鲁棒性。方法本研究构建了包含58 712幅多种类型中文条形图及其对应数据表格的数据集,含垂直/水平/堆叠条形图、多角度文本旋转等复杂场景,并衍生出图表文本识别、图例检测等专项数据集,为中文图表理解任务提供了高质量、多样化的基准数据支持。同时,提出了两种基准模型:基于规则的图表数据抽取方法和基于大模型微调的数据抽取方法。最后,本文设计并实现了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。结果基于规则的方法在中文条形图上取得了最佳的性能(69.97%);而基于大模型微调的方法在DVQA(understanding data visualization via question answering)数据集上的性能显著超越了先进方法UniChart(a universal vision-language pretrained model for chart comprehension and reasoning)(24.53%)和DePlot(one-shot visual language reasoning by plot-to-table translation)(41.29%),分别高出36.75%和19.99%,表明了该方法在跨语言场景下的卓越泛化能力。 实验表明,基于规则的方法展现出处理特定图表类型的最佳性能,尤其在处理复杂图表结构方面具有明显优势;而基于大模型微调的方法虽然在单一图表类型上表现略逊,但具备更强的泛化能力和鲁棒性。结论本文创建的中文条形图表数据集为中文图表理解任务提供了高质量、多样化的基准数据支持,并设计了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。数据集开源地址https://doi.org/10.57760/sciencedb.j00240.00052,相关代码开源地址https://github.com/maqiuping59/ChineseChartExtract。
摘要:目的域自适应目标检测旨在解决检测模型在不同域数据间迁移应用时面临的性能下降问题。目前流行的基于平均教师框架的域自适应目标检测方法多采用基于类别置信度的单向评估机制。当伪标签存在噪声时,学生模型会沿错误方向更新参数,导致教师模型累积误差,最终制约模型的性能。为此,提出融合负教学和负学习策略的域自适应目标检测方法(negative teaching and negative learning,NTNL)。方法不同于已有的平均教师框架方法,本文方法NTNL采用双向评估机制。一方面引入负学习方法,指导学生模型判别伪标签的互补标签,使学生模型在噪声伪标签的影响下仍能构建鲁棒的决策边界;另一方面添加负教学策略,降低教师模型对困难样本做出错误分类的概率,提升伪标签的可靠程度与质量。此外,提出一种自适应加权机制,通过动态调节负教学权重,平衡不同学习任务中的负教学尺度,增强模型的泛化能力。结果在3个公开基准跨域目标检测任务上验证本文方法的有效性,与其他先进方法相比,平均精度均值(mean average precision,mAP)分别提升了8.0%、4.7%和1.7%。消融实验以及特征可视化等进一步验证了本文方法的有效性。结论提出的NTNL通过引入负向思维,减轻了噪声伪标签的影响,在天气条件适应、城市道路跨风格适应和真实至插画风格适应3类典型场景中都取得了优越的性能。
摘要:目的无人机拍摄图像存在小目标数量多、易受恶劣天气等噪声污染的特点,针对无人机拍摄图像的小目标检测技术在军用领域和商用领域都发挥着重要作用。然而,现有的目标检测方法在定位小目标方面仍然存在检测精度低的问题。针对这些问题,提出基于YOLOv8(you only look once)的融合小波卷积与频域注意力的改进模型(an enhanced YOLO model integrating wavelet convolution and frequency-domain attention, YOLO-WF)。方法首先,在骨干网络中构建了基于傅里叶频域增强的自注意力机制与门控机制模块(Fourier-based self-attention convolution module,CFSA)增强图像的特征,提升模型对关键信息的提取能力;其次,在特征提取模块设计了基于二级分解低频增强小波变换卷积(low-frequency enhanced wavelet transform convolution,LOWTC)模块,利用小波变换的多尺度特性扩展感受野,有效缓解传统卷积长距离依赖性不足的问题;最后,在提取浅层特征后增加针对小目标的检测头,提升模型对小目标的检测能力。结果在VisDrone2019-DET(vision-based drone detection and tracking 2019—detection)、UAVDT(unmanned aerial vehicle benchmark object detection and tracking)和CARPK(car parking lot dataset)数据集上实验,结果表明提出的YOLO-WF模型比基线模型的APs(average precision of small objects)指标分别提高5.5%、3.08%和6.8%,达到19.9%、38.54%和33.3%。AP50(AP at IoU threshold 0.50)和APm(AP of medium objects)指标也均有提升,以VisDrone2019-DET为例,AP50和APm分别达到47.1%和40.3%,相比基线模型分别提高3.5%和3.0%,且参数量下降0.4%。结论YOLO-WF通过频域—小波融合策略,显著提升了中小目标的检测精度,且未引入额外存储负担,可直接迁移至其他航拍检测任务。
摘要:目的染色体分类是核型分析的关键步骤。然而,由于显带技术、采集设备等不同,染色体显微图像呈现特征分布差异,导致不同数据集间的知识迁移受限,其中以显带数目不同导致的核型分辨率差异影响最为显著。方法提出双重置信度伪标签引导的渐进式差异核型分辨率染色体无源域适应分类方法(bi-confidence pseudo label guided source-free domain adaptation for chromosome classification with karyotype resolution discrepancy, BCPL-SFDA),重点解决差异核型分辨率染色体的知识迁移和因染色体固有的类内差异大、类间差异小典型特点带来的分类挑战。具体地,该方法采用双分支设计框架,保留源域深层语义先验和浅层纹理、形态表征的同时,实现源域与目标域特征空间的渐进式对齐,可有效缓解核型分辨率差异导致的知识迁移难题;同时,提出双重置信度类中心伪标签策略,结合高、低置信度样本,增强模型对易混淆样本的区分能力。结果在不同核型分辨率的公开数据集CIR-Net(chromosome based on inception-ResNet)和私有数据集Private上开展跨域分类实验,与10种先进的域适应方法相比取得了显著的性能提升。其中,在CIR-Net→Private跨域任务上准确率较次优算法DANN(domain adversarial training of neural network)提升了9.97%,在Private→CIR-Net任务上较次优算法H-SRDC(a hybrid model of structurally regularized deep clustering)提升了1.17%。同时通过消融实验验证了双分支设计框架和伪标签策略的有效性。结论BCPL-SFDA方法不仅能有效提高不同核型分辨率染色体图像之间的迁移识别能力,还能优化染色体类内类间特征的提取,进而提升其无源域适应分类的性能。
摘要:目的针对单视图着装人体生成中不可见区域纹理缺失、局部细节模糊以及宽松服装几何生成困难等关键问题,提出一种融合姿态扩散先验与多视图一致性的生成方法。方法首先,采用人体姿态估计算法提取25个关键点并将其编码为高斯热图,结合人体掩码与UV映射构建姿态特征向量,指导潜在扩散模型生成不可见视角的二维扩散图像;其次,将SMPLX(skinned multi-person linear model expressive)模板的法线信息与输入图像和生成的扩散图像进行对应视角的特征融合,并输入跨视角法线一致性网络,通过多视图一致性约束机制提取跨视角的三维空间特征;最后,融合SMPLX人体模板的体素化特征,输入分布预测网络进行空间占用概率估计,并在学习的概率分布中采样,将三维特征、体素化特征与采样结果输入占用预测网络,实现三维着装人体生成。结果在THuman2.0(Tsinghua human 2.0 dataset)与CAPE(clothed auto-person encoding)公开基准数据集上的定量评估表明,所提方法的倒角距离(chamfer distance)和点到面距离(point-to-surface distance)在THuman2.0数据集上较最优对比方法分别降低6.27%和5.74%,在CAPE数据集上平均降低8.67%和2.38%。结论本文提出的融合姿态扩散先验与多视图一致性的单视图三维着装人体生成方法,能够有效恢复局部纹理,并准确生成褶皱细节丰富和宽松服装等复杂拓扑结构的着装人体模型。