最新刊期

    王云柯, 陶林伟, 林雨恬, 杜博, 徐畅

    DOI:10.11834/jig.260149
    img
    摘要:目的视觉模仿学习旨在从高维图像观测中学习智能体控制策略,但相比基于低维本体状态的方法,其性能仍存在明显差距。主要原因在于,像素观测中的关键行为差异较为细微,视觉编码器难以学习具有充分判别性的状态表征。已有视觉对抗模仿学习方法主要关注专家样本与智能体样本之间的区分,未充分利用智能体回放样本的内部结构信息,也未显式建模智能体策略在训练过程中逐步接近专家策略的动态演化特征。为提升高维视觉观测下的表征判别能力与训练稳定性,本文提出一种基于校准对比学习的视觉对抗模仿学习方法。方法本文在生成对抗模仿学习框架中引入校准对比表示学习机制,通过“拉近相似状态、分离差异状态”的方式增强视觉编码器的判别能力。不同于已有方法主要关注专家样本与智能体样本之间的静态区分,本文进一步挖掘回放缓冲区的内部样本结构,并建模智能体样本质量随训练过程逐步提升的动态特征。具体而言,本文将智能体样本视为高质量样本与低质量样本的混合分布,并利用校准监督对比损失自适应调整其与专家样本之间的对比关系,从而提升视觉表征质量和对抗训练稳定性。结果在DMControl Suite的9个连续控制任务上进行了实验验证。实验结果表明,所提出方法CAIL(contrastive adversarial imitation learning)在多个任务上取得了更高的累计回报,并在训练早期表现出更好的样本效率。与代表性方法PCIL(policy contrastive imitation learning)相比,CAIL在1M时间步的平均性能提升了22.6%。消融实验进一步验证了智能体无监督对比损失和校准监督对比损失的有效性,可视化结果表明CAIL能够更加准确地关注智能体关节等行为相关区域。结论本文提出的校准对比视觉对抗模仿学习方法能够更充分地利用智能体回放样本,并动态刻画智能体样本质量随训练过程变化的特征,从而提升视觉状态表征的判别能力和对抗训练稳定性。该方法为高维视觉观测条件下的模仿学习提供了一种有效的表征学习思路。  
    关键词:强化学习;模仿学习;对抗模仿学习;对比学习;表征学习   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160306234 false
    更新时间:2026-07-02

    李哲, 罗靖, 柳宇, 高彬智, 石伟伟, 王晓帆, 黑新宏

    DOI:10.11834/jig.260209
    img
    摘要:目的针对实际视频监控场景中,无人机目标像素占比小、外观特征微弱,易被复杂动态背景掩盖,传统单帧目标检测算法无法有效利用帧间时序运动信息,导致微小目标漏检、误检频发的核心问题,开展视频微小无人机目标检测方法研究,为低空安防系统提供可靠的视觉检测方案。方法提出时序运动感知双分支网络(Temporal Motion-Aware Dual-Branch Network, TMAD-Net)。具体地,空间语义提取分支提取多帧堆叠图像的空间语义特征,显式运动先验分支通过去噪帧差图像捕捉目标高频运动特征,并使用运动-空间自适应融合模块融合双分支特征,从运动与空间维度自适应增强目标信号、抑制背景噪声,后输入主干网络完成微小无人机目标检测。结果在公开的ARD-MAV数据集以及真实场景采集的Phone与DJI两个无人机数据集上开展对比实验,结果表明,在ARD-MAV数据集中,mAP50从基线的0.264提升至0.588,mAP50-95从0.155提升至0.334;在Phone数据集中,mAP50从基线的0.802提升至0.887,mAP50-95从0.590提升至0.638;在DJI数据集中,mAP50从0.316提升至0.822,mAP50-95从0.083提升至0.266;推理速度达122FPS,满足实时检测需求。结论所提时序运动感知双分支网络模型通过显式分离并深度融合多帧空间与运动特征,结合运动-空间自适应融合模块精准校准,有效弥补了传统单帧算法对微小目标特征表征能力不足的缺陷,突破了复杂背景下视频微小目标检测的性能瓶颈,显著提升了微小无人机目标检测的准确率与鲁棒性。  
    关键词:视频目标检测;无人机;微小目标;运动解耦;时序运动感知;空间语义提取   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160306154 false
    更新时间:2026-07-02

    刘石佳, 闫晓金, 任浩杰, 苏兆品

    DOI:10.11834/jig.260150
    img
    摘要:目的语音深度伪造归因是指通过捕捉不同语音合成模型生成语音时留下的独特模型特征,精准识别并确认伪造语音来源的技术,不仅能为人工智能治理提供可解释性证据,也能推动AI语音行业的规范发展,倒逼平台落实内容溯源与监管义务,已成为人工智能安全的研究热点之一。然而,已有方法存在特征提取能力不足、泛化性能有限的问题,难以满足实际应用需求。方法为此,本文提出一种少样本数据下的语音深度伪造归因方法(Low-resource Audio Deepfake Attribution,LADAR),利用多层特征融合的特征提取策略与多原型学习机制,实现少样本数据下的语音深度伪造精准归因。具体来说,首先构建基于多层特征融合的特征提取方法,通过可学习注意力权重聚合预训练Wav2Vec2-BERT 2.0模型的各层隐藏状态,并引入浅层偏置因子,将全局特征动态融合,生成强判别性的模型嵌入表示;其次,设计多原型学习模块,为每类伪造方法生成多个原型向量以丰富类内多样性,提高识别准确率;最后,分别在已知和未知语音伪造场景下验证LADAR方法的归因性能。结果与已有方法相比,针对已知语音伪造方法场景,LADAR方法的准确率分别提升35.25%、26.26%、9.22%和5.65%,F1分数分别提升38.82%、27.42%、7.23%和5.74%;针对未知语音伪造方法场景,LADAR方法的准确率分别提升了15.80%、37.51%、10.73%和10.42%,F1分数分别提升了20.29%、34.17%、11.40%和12.33%;结论对比实验结果表明,LADAR方法可有效解决语音深度伪造归因问题,具有较强的准确性和泛化性,可为司法取证、溯源追踪等实际场景提供了有效的技术支撑。  
    关键词:语音深度伪造归因;少样本学习;特征融合;多原型网络;音频鉴伪   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160306036 false
    更新时间:2026-07-02

    陈勇奇, 冯收, 任春颖, 唐英杰, 任慧鑫, 赵春晖

    DOI:10.11834/jig.260051
    img
    摘要:目的多光谱遥感图像林地变化检测是生态监测领域的重要研究方向之一。针对双时相图像中成像条件差异引起的伪变化,以及复杂地物变化在尺度与形态上的多样性问题,设计了一种频域增强分层交互网络,以提升复杂场景下林地变化检测的准确性与鲁棒性。方法首先,构建频域特征增强模块,在频域对双时相特征进行增强,以抑制由成像条件不一致引起的风格差异等伪变化干扰。其次,设计跨时相相关引导交互模块,通过对双时相特征的充分交互与相关性引导,增强网络对局部细微变化区域的识别能力。最后,通过空-谱耦合交互模块,对不同网络深度的变化特征进行整合,融合浅层细粒度结构信息与深层语义信息,实现对多尺度、多形态林地变化对象的联合感知。结果实验在3个林地变化检测数据集上与Spectral-Former、CSANet(cross-temporal interaction symmetric attention network)、TriTF(triplet Transformer framework)、DIEFEN(differential information-enhanced feature exchange network)、FrFTML(fractional Fourier transform domain decoupling-based adaptive weighted metric learning network)和AIWSEN(Adaptive information weighting and synchronized enhancement network)等先进方法进行了对比分析。在R1数据集中,所提出方法的Kappa系数达到0.8102,相比性能次优方法提升1.09%;在R2数据集中,Kappa系数提升2.62%;在R3数据集中,Kappa系数提升1.74%。同时,在三个数据集上的消融实验进一步验证了所提模块的有效性。结论本文所提方法能有效缓解双时相风格差异引起的伪变化干扰,并提升对细微变化与多尺度变化对象的检测能力,从而获得更为准确、稳定的林地变化检测结果。  
    关键词:多光谱遥感图像;林地变化检测;频域特征;特征交互;多尺度变化感知   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160305928 false
    更新时间:2026-07-02

    岳书同, 刘春晓

    DOI:10.11834/jig.260178
    img
    摘要:目的随着人脸伪造技术的快速发展与广泛传播,由其引发的虚假信息泛滥与身份冒用诈骗等社会问题日益严峻。现有的基于人脸图像重建的伪造检测方法仅进行真实或伪造人脸的单视角重建,未显式放大二者重建前后的差异,导致网络模型的检测准确率和泛化性能提升有限。针对上述问题,提出一种差异化重建驱动的残差引导人脸伪造检测方法,扩大真伪人脸重建前后的差异,显著提升了模型检测性能。方法首先,为了显式放大真伪人脸重建前后的差异,提出一种对比差异化重建网络(Contrastive Differential Reconstruction Network,CDRNet),分别为真实与伪造人脸构建清晰与模糊图像的重建目标,提升整体网络模型对真伪人脸的辨别能力。其次,考虑到现有检测方法对残差图的引导信息利用不充分等问题,设计了残差双域引导模块(Residual Dual-Domain Guidance Module,RDDGM),深度融合图像的空间域与高频域特征,并利用重建残差信息引导融合后的双域特征,增强了网络模型捕捉细微伪造痕迹的能力。此外,为了促使模型学习不同伪造方法之间的通用伪造特征,设计了文本感知损失模块(Text-Aware Loss Module,TALM),通过引入文本模态信息的引导,进一步优化对比差异化重建结果,大幅提升了网络模型对未知伪造方式的泛化性能。结果在域内实验中,与性能最好的对比方法相比,该方法的准确率(accuracy,ACC)与曲线下面积(area under the curve,AUC)指标分别提升2.83%和1.75%。在跨域实验中,该方法在5个公开测试集上与13种典型方法进行性能测试与比较,平均AUC指标提高1.75%。结论本文在人脸伪造检测中创新性结合对比学习与图像差异化重建,显著提升了模型对未知伪造方式的检测准确率,在多个基准测试中性能优于已有方法。  
    关键词:深度伪造检测;人脸伪造检测;多任务学习;对比差异化重建;残差双域引导   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160305869 false
    更新时间:2026-07-02

    王进, 杜欣豫, 丁新

    DOI:10.11834/jig.260186
    img
    摘要:目的小样本图像分类旨在利用极少量标注样本完成新类别识别。现有图文语义增强方法多依赖类别名称或简短提示,语义粒度较粗,难以充分刻画类别局部属性、外观细节及类间细微差异;同时,文本语义与视觉特征之间存在模态鸿沟,简单融合方式难以实现充分对齐。为此,提出一种面向多粒度语义对齐的图文语义多分支对齐网络(text-visual semantic multi-branch alignment network,TSMA-Net)。方法设计语义信息挖掘模块,以类别名称为语义锚点,引导大语言模型离线生成包含外观特征、局部属性和差异线索的细粒度语义描述,并通过语义精炼压缩冗余信息与歧义表达。进一步通过语义适配模块,将类别名称语义与多角度细粒度语义表示进行加权融合,得到更加稳健且具有判别性的类别文本表示。在此基础上,提出多分支对齐模块,将融合语义投影到多个独立子空间,与视觉特征进行深度对齐和交互,并结合残差重校准结构抑制跨模态噪声,提升语义特征的表达能力。最终通过视觉原型与语义增强原型双路径协同完成查询样本分类。结果在miniImageNet、tieredImageNet、CIFAR-FS和FC100上,TSMA-Net均取得稳定提升。与相同Visformer-Tiny骨干的SimpleFSL相比,在1-shot/5-shot任务上分别提升2.11%/0.47%、2.35%/0.49%、1.21%/0.28%和0.54%/0.10%。消融实验验证了各模块的有效性。结论所提出的TSMA-Net能够在小样本场景下有效挖掘更丰富、更具判别性的类别语义信息,并实现语义与视觉特征的深度对齐,从而提升类别原型的表征能力与分类性能。该方法在多个标准基准数据集上表现出良好的有效性与泛化能力,尤其在1-shot任务中优势更为明显。  
    关键词:小样本学习;小样本图像分类;原型学习;多模态学习;跨模态语义对齐;大语言模型   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160305823 false
    更新时间:2026-07-02

    刘煜, 冯瑛超, 张伊丹, 李宁, 刁文辉, 胡岩峰

    DOI:10.11834/jig.260248
    img
    摘要:无人机凭借全天候、全天时探测优势,在边境监控及灾害救援等领域发挥重要作用。然而,现有的红外-可见光(IR-VIS)多模态目标检测研究过度依赖理想化的“像素级对齐”假设,且数据集普遍存在目标尺度分布极化、类别同质化等问题,导致现有算法在处理具有真实视差及动态尺度演变的无人机航拍数据时,极易出现特征失配、定位漂移及漏检误识。基于以上问题,文中构建了一个面向真实弱配准场景的多模态、多尺度、多类别无人机目标检测基准数据集DIV(drone-based IR-VIS object detection)。该数据集保留了红外与可见光图像之间因无人机传感器安装差异、视角变化及飞行抖动等因素在实际应用中产生的非线性空间偏移。数据集内容涵盖从像素占比极低的微小型目标到显著区域的大型目标,并引入了行人、非机动车、各类车辆等多样化类别。拍摄环境覆盖城市、山区及乡村,并细分为日间、傍晚和弱光三种典型光照场景。同时,通过独立模态的人工高精度标注及多轮交叉验证机制,确保了弱对齐约束下的语义一致性。选取了9种主流多模态目标检测算法在所提数据集上进行基准测试。实验结果表明,在理想对齐数据集中表现优异的方法,在本数据集的弱配准场景下性能出现不同程度的下滑。一些模型方法在特定维度上表现出色,但在应对极端复杂环境时的综合感知能力仍显不足。面对真实环境中的复合挑战,构建一套多维协同优化体系以强化对多模态信息的提取与整合能力,是提升无人机平台感知鲁棒性的关键。提出的数据集有效弥合了多模态探测算法的“理想假设”与无人机数据“现实分布”之间的鸿沟,为构建多维协同优化体系提供了真实的验证平台,在数据层面为弱对齐约束下的跨模态特征融合与鲁棒检测研究提供了关键支撑。DIV数据集发布地址为:https://www.scidb.cn/preview?dataSetId=d1e8909592e04cc2a1095e62f579ead1&version=V1。  
    关键词:航空遥感影像;多模态图像融合;跨模态对齐;红外与可见光;目标检测   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 160305759 false
    更新时间:2026-07-02

    赵子璐, 王峰, 焦念刚, 尤红建

    DOI:10.11834/jig.260140
    img
    摘要:遥感图像配准作为遥感图像处理中的基础性与关键性任务,始终是国内外学者的研究热点,具有重要的理论意义与应用价值。然而,遥感图像常面临显著几何畸变、非线性辐射差异、复杂地物遮挡及噪声干扰等挑战,制约了其高精度鲁棒配准的实现。本文系统梳理了遥感图像配准算法:首先,概述配准的基本概念与技术框架;其次,将现有方法划分为两类进行归纳梳理——基于知识驱动专家设计的方法与基于数据驱动深度学习的方法。前者依托手工设计特征及变换模型,通过显式特征提取与迭代优化实现传统场景下的可解释性配准,典型代表为尺度不变特征变换及其改进算法;后者利用深度学习网络自动学习图像对间的特征或映射关系,提取高级特征用于配准或端到端预测变换模型,有效应对显著几何畸变、非线性辐射差异等复杂场景,典型方法包括基于卷积神经网络的特征匹配网络及其改进网络。最后,总结现有方法的局限性,并展望遥感图像配准领域的未来发展趋势与面临的关键挑战。  
    关键词:遥感图像配准;知识驱动;数据驱动;特征匹配;深度学习   
    51
    |
    72
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158900536 false
    更新时间:2026-06-22

    邢怡楠, 刘博, 张云峰, 任玥赫

    DOI:10.11834/jig.260188
    img
    摘要:目的合成孔径雷达(Synthetic Aperture Radar,SAR)至光学图像(SAR-to-Optical,S2O)翻译是实现全天候对地观测的关键技术。现有方法面临两大瓶颈:一是未能有效解耦SAR乘性相干斑噪声与地物信号,导致跨模态特征融合与表达能力不足;二是主流扩散生成模型计算代价高昂,难以满足在资源受限遥感平台下的实时处理需求。针对上述问题,本文提出一种空频强稀疏引导的扩散模型(Spatial-Frequency Strongly-Sparse Guided Diffusion Model,SFSG-Diff),旨在实现更稳健高效的S2O转换。方法设计多尺度空频去噪编码(Multi-scale Spatial-Frequency Denoising Encoder,MDE),利用空频域特征互补性显式分离噪声与有效信号,抑制噪声并增强地物结构表达;提出轻量化的强稀疏语义融合(Strong-Sparse Semantic Fusion,SIF),仅对部分特征流高效融合,以低计算代价实现多尺度特征精准引导;采用两阶段训练策略,融合感知、聚焦频率与对抗损失联合优化。结果在SEN1-2,QXS-SAROPT和WHU-OPT-SAR三个数据集上的实验表明,本方法在峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似度(Structural Similarity Index,SSIM)、学习感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)和弗雷歇初始距离(Fréchet Inception Distance,FID)上均取得最优的结果,其中在SEN1-2数据集上与次优结果相比PSNR与SSIM分别提升0.77dB与17.8%,LPIPS与FID分别降低8.0%和17.6%。模型参数量少、计算复杂度低,单次推理仅需0.21秒,较同类扩散模型最优结果提速约69.1%,效率接近传统生成对抗网络。结论SFSG-Diff可有效抑制SAR斑点噪声,实现跨模态高质量图像生成,兼顾性能与计算效率,适用于计算资源受限的遥感平台,为实时SAR图像处理提供可行方案。  
    关键词:SAR至光学图像翻译;扩散模型;特征融合;遥感图像;多尺度编码;强稀疏引导   
    50
    |
    99
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158467211 false
    更新时间:2026-06-22

    纪嘉歆, 郭星歌, 杨发展, 王江, 赵培培, 肖涛

    DOI:10.11834/jig.260189
    img
    摘要:目的针对视觉显著性预测中长程建模开销较大、复杂背景响应易随全局传播扩散以及解码上采样导致注视热点不够集中的问题,提出一种不确定性门控Mamba建模增强与动态频域调制相结合的显著性预测网络(Spatio-Spectral Uncertainty-Gated Mamba Network ,S²UG-Mamba)。方法在编码端,设计不确定性感知状态空间增强模块(Uncertainty-Aware State Space Enhancement Module,UA-SSM),通过双向蛇形交叉扫描Mamba建模捕获长程上下文信息,并结合空间与通道方差统计进行不确定性估计,生成置信度门控,以抑制不可靠区域响应。在解码端,针对连续上采样引起的预测响应扩散问题,提出语义引导的动态频域调制模块(Semantic-Guided Dynamic Frequency Modulation Module,SDFM),利用深层语义先验对频域调制过程进行动态引导,从而提升注视热点区域的响应集中性。结果在SALICON、MIT300等5个公开数据集上的实验结果表明,所提S²UG-Mamba在多个主流评价指标上均优于现有先进方法。与GSGNet相比,S²UG-Mamba在LSUN'17竞赛上将KL由0.190降低至0.176,降低7.4%,IG达到0.943,提升4.0%;在MIT300盲测中,CC相对提升2.2%,KL降低9.8%;在MIT1003零样本测试中,NSS、CC和SIM分别提升2.2%、2.0%和5.6%,KL降低5.1%。结论所提方法实现了长程上下文建模、背景噪声抑制和显著结构恢复的协同优化,在保持较高计算效率的同时提升了复杂自然场景下显著性预测的分布一致性、跨域泛化能力和鲁棒性。  
    关键词:显著性预测;状态空间模型;Mamba;不确定性感知;频域增强   
    72
    |
    90
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158467161 false
    更新时间:2026-06-22

    赵明华, 王楠, 吕佳豪, 胡静, 都双丽, 石程, 王琳, 尤珍臻

    DOI:10.11834/jig.260199
    img
    摘要:目的视频异常检测作为视频监控系统的核心任务之一,在公共安全与智能监控等领域具有重要应用价值。同时在无人机航拍场景下,由于视角变化剧烈、目标尺度不稳定以及背景复杂多变,使得异常检测任务更加具有挑战性。现有方法大多仅侧重于静态外观特征建模,忽视了动态运动信息所蕴含的关键时序特征,同时普遍依赖生成模型进行重建或预测,容易出现“过度泛化”问题,从而削弱对异常事件的判别能力。针对上述问题,提出一种融合双流网络和记忆增强的空地视频异常检测方法。方法首先,通过双编码器架构分别提取视频序列的外观特征和运动特征,将同一尺度的两类特征进行融合。其次,将高维融合特征送入具有更新策略的记忆增强模块中,学习多样化的正常特征。最后,采用跳跃连接机制把多尺度融合特征和记忆增强后的特征送入具有注意力的解码器中预测未来帧。结果在UCSD Ped2、CUHK Avenue和ShanghaiTech三个地面基准数据集上,所提方法的AUC分别达到98.8%、89.1%和74.7%;同时,在Drone-Anomaly无人机航拍数据集的多个子场景中均取得优异性能,尤其在Railway Inspection和Farmland Inspection场景中分别达到94.76%和91.41%,优于多种对比方法。结论本文方法通过协同建模外观与运动信息,并结合记忆增强机制,有效缓解了过度泛化问题,提升了模型对复杂动态场景中异常事件的判别能力,在地面监控与无人机航拍场景下均表现出良好的鲁棒性与泛化性能。  
    关键词:异常检测;卷积神经网络;记忆网络;融合算法;注意力机制   
    72
    |
    64
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158902770 false
    更新时间:2026-06-22

    陈布衣, 郭宸瑞, 单淳, 张磊, 魏巍

    DOI:10.11834/jig.260206
    img
    摘要:航空遥感目标检测在国土资源调查、灾害监测、交通监管和军事侦察等领域具有重要应用价值。然而,真实航空遥感场景中常同时存在目标域标注样本稀缺和源域与目标域分布差异显著的问题,导致传统依赖大规模同分布标注数据的检测方法难以获得稳定性能。跨域少样本目标检测(cross-domain few-shot object detection,CD-FSOD)期望在目标域仅有少量标注样本且存在明显域偏移的条件下实现对目标域目标的有效分类与定位,已成为航空遥感智能解译中的重要研究方向。本文围绕航空遥感场景下的CD-FSOD问题,梳理其基本定义、任务边界及其与少样本目标检测、跨域目标检测和遥感目标检测等相关任务的区别,并分析航空遥感场景中由成像平台、传感器类型、空间分辨率、地理区域、环境条件及目标分布差异所引起的复杂域偏移表现。在此基础上,本文对现有代表性方法进行分类综述,重点总结基于迁移与域对齐、基于元学习与度量学习、基于生成式数据增强与扩充、基于视觉语言对齐以及基于大模型的方法特点与研究进展。同时,本文归纳相关数据集、任务设置、常用评测指标及航空遥感目标检测的特殊性,并进一步讨论复杂域偏移统一建模、少样本条件下检测稳定性、数据集与真实应用脱节、多源异构数据适配以及大模型迁移等方面的主要问题与发展趋势。本文同步汇总代表性算法在航空遥感跨域少样本情境下的性能表现,并给出所涉及数据集、算法的开放资源访问链接:https://github.com/Farenweh/CD-FSOD-Links(Github)或https://gitee.com/cby1241385936/cd-fsod-links(Gitee)。总体来看,CD-FSOD正由单一迁移或少样本学习策略,逐步发展为融合域适应、特征增强、语义建模和基础模型迁移的综合性研究方向。随着遥感专用数据资源的丰富和多模态基础模型的发展,该方向有望为航空遥感智能感知提供更高效、更稳健的技术支撑。  
    关键词:航空遥感;目标检测;跨域少样本目标检测;视觉语言对齐;大模型   
    30
    |
    68
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158902731 false
    更新时间:2026-06-22

    赵兴兵, 郭宸瑞, 李羽珊, 张磊, 魏巍

    DOI:10.11834/jig.260210
    img
    摘要:随着无人机与机载遥感技术的快速发展,航空光谱成像在农业、环境监测及军事侦察等领域发挥着越来越重要的作用。相比卫星遥感,航空平台具有更高空间分辨率、更强机动性和更短重访周期,使其成为精细化观测的重要手段。然而,航空光谱数据具有高维、强相关、噪声复杂等特点,传统处理方法难以充分挖掘其潜在信息。本文系统梳理了航空光谱图像智能处理技术的发展脉络,重点分析深度学习与机器学习方法,涵盖光谱-空间特征提取、分类、分割、目标检测、变化检测及光谱解混等关键技术;总结多光谱与高光谱协同处理在精准农业、环境灾害监测、军事侦察、地质勘探等场景的应用进展;深入剖析当前面临的数据稀缺与标注困难、模型泛化能力不足、实时处理约束、鲁棒性欠缺及空天地协同困难等核心挑战;围绕遥感基础模型、自监督学习、边缘智能、物理信息驱动模型、空天地一体化协同等方向展望未来趋势。本文可为航空光谱图像智能处理领域的研究与工程应用提供系统性的参考与理论指导。本文提及的数据集已汇总至https://github.com/zhaoxb2025/Airb-spe-Img。  
    关键词:航空光谱图像;高光谱图像;多光谱图像;智能处理;目标检测;变化检测;分类   
    32
    |
    77
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158902690 false
    更新时间:2026-06-22

    刘艳艳, 陈欣, 刘文瑜, 易代豪

    DOI:10.11834/jig.250641
    img
    摘要:目的现有的步态识别方法在理想环境下表现出色,但现实监控场景中物体遮挡常导致人体轮廓结构缺失以及传统生成式修复方法存在的盲目修复问题。为了解决这一挑战,提出一种可见性感知时空扩散的遮挡步态修复与识别方法(visibility-aware spatio-temporal diffusion recovery network, VAST-DRNet)旨在准确修复步态序列中被遮挡的区域,并提升其在复杂遮挡场景下的识别性能。方法使用基于可见性感知和3D扩散模型的VAST-DRNet来修复步态序列,在修复每一帧步态图像的空间信息的同时保持帧与帧之间的时空连贯性。VAST-DRNet通过引入区域评分估计器(region scoring estimator, RSE)来检测步态图像的局部遮挡区域,并将其生成的可见性评分作为先验知识注入3D扩散修复模块(visibility-aware diffusion module, VADM)为遮挡区域分配更高的关注度,实现定向时空修复。同时,在识别阶段引入基于可见性空间注意力机制(visibility-driven spatial attention mechanism, V-SAM)的信心引导双分支融合机制,利用评分自适应融合原始遮挡特征与修复后的步态特征,从而优化识别网络的判别能力。结果在CASIA-B数据集基础上构建的混合遮挡数据集OccCASIA-B上的实验表明,该方法在静态物体和人群干扰等复杂场景下Rank-1识别率分别达到83.1%和78.1%,相较于基准GaitGL方法提升了11.2%和7.6%。在混合遮挡强度评估中,在30%-50%的中度遮挡下识别率达到76.5%,在遮挡面积超过50%的极重度遮挡条件下,识别率达到50.6%,体现出在大面积信息丢失时较小的性能退化和更强的鲁棒性。结论该方法能够有效感知遮挡区域并实现高质量的时空一致性修复,通过信心引导的特征融合机制,有效解决了生成模型存在的盲目修复问题,显著提升了模型在复杂现实遮挡环境下的鲁棒性与识别性能。  
    关键词:步态识别;时空扩散模型;可见性感知;步态轮廓修复;三维卷积神经网络   
    21
    |
    43
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158902626 false
    更新时间:2026-06-22

    郑萌萌, 郭宸瑞, 张磊, 魏巍

    DOI:10.11834/jig.260208
    img
    摘要:航空图像复原作为低层视觉任务的重要研究方向,对于提升遥感监测与空天信息处理的精度具有重要意义。针对航空图像中普遍存在的噪声、模糊、低光及多退化耦合等问题,本文系统综述了近年来图像复原技术的发展进展。首先,从传统方法与深度学习方法两个层面,梳理了典型单一退化复原技术的发展脉络;进一步,围绕统一建模思想,总结了多退化联合建模方法,包括基于多退化建模、提示学习以及动态路由与专家模型的复原框架。在此基础上,重点分析了大模型驱动的图像复原方法,从视觉基础模型、多模态大模型以及基于智能体的复原方法三个方面展开讨论。视觉基础模型通过大规模预训练提供统一特征表示,多模态大模型通过跨模态语义建模提升复杂场景理解能力,而智能体方法则通过引入决策机制实现复原过程的动态优化。同时,本文进一步归纳了现有方法在多退化耦合建模、语义信息利用以及动态自适应机制等方面面临的关键挑战。最后,结合航空图像的应用特点,对未来发展方向进行了展望,包括多源数据构建、统一表征学习、多模态协同建模及智能化复原系统设计等。本文系统梳理了大模型驱动下航空图像复原的方法体系,并归纳出多退化耦合、语义—视觉协同、物理先验融合与动态决策优化等核心问题,可为后续航空图像智能复原研究提供系统性参考与发展思路。本文提及的数据集已汇总至https://github.com/MengmengZheng/Aerial-Image-Restoration-Datasets。  
    关键词:航空图像复原;计算机视觉;提示学习;统一建模;多源协同;智能体   
    29
    |
    53
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158902588 false
    更新时间:2026-06-22

    张旺, 陈涛, 裴根生, 李宝晨, 韦明韬, 姚亚洲

    DOI:10.11834/jig.260202
    img
    摘要:目的针对多时相、多模态遥感影像在显著光谱差异、复杂季节变化及重复纹理条件下匹配稳定性不足的问题,构建统一评测基准并提升跨模态遥感影像匹配精度。方法本文基于 SeCo 数据集构建了包含15,000对可见光与近红外跨时相样本的遥感影像匹配基准,其中训练集12,000对、测试集3,000对。通过组织多时相多模态影像对并引入随机单应变换,形成统一数据划分与评价协议;基于此,提出一种基于视觉大模型语义增强的跨模态特征匹配方法,以 XoFTR 为基础匹配主干,在粗匹配阶段引入冻结的 DINOv3 提取高层稠密语义特征,并设计语义提升模块,实现语义先验与几何特征的协同建模,从而增强模型对跨时相、多模态稳定区域的感知与表征能力。结果实验结果表明,所提方法在严格阈值 MHA@3 和中等阈值 MHA@5 下分别达到 33.03% 和 37.03%,优于各对比方法;在较宽松阈值 MHA@7 下达到 39.17%,略低于 SP+SG 的 42.34%,但仍明显优于原始 XoFTR 和直接域内微调模型;定性实验结果表明,本文方法能够有效抑制跨区域误匹配,并获得更密集、更稳定的正确对应关系。结论视觉大模型提供的高层语义先验能够有效缓解多时相多模态遥感影像间的表征差异,为大模型赋能航空遥感高精度匹配提供了一种轻量、可复现的语义注入路径。本文公开代码地址:https://github.com/heng-shan/Dino_ft。  
    关键词:遥感多时相;多模态图像匹配;视觉基础模型;语义增强;XoFTR;DINO   
    25
    |
    56
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158901925 false
    更新时间:2026-06-22

    郑周一, 郭宸瑞, 单淳, 张磊, 魏巍

    DOI:10.11834/jig.260203
    img
    摘要:无人机视觉语言导航(aerial vision-language navigation, AVLN)是融合计算机视觉、自然语言处理与无人机控制的空中具身智能前沿方向,旨在使无人机依据自然语言指令在非结构化三维环境中实现自主导航。针对传统导航难以理解高层语义、无法适应复杂空间约束的局限,本文系统梳理无人机视觉语言导航的研究脉络与技术体系。首先归纳通用仿真、真实场景重建、虚拟场景建模三类仿真平台的特点,对比主流数据集在场景复杂度、指令语义与动作表征上的差异;其次从感知表征、推理范式、记忆存储、具身控制四个核心模块,剖析跨模态对齐、大模型推理、长程记忆与连续控制的关键技术;最后总结该技术在城市巡检、灾害救援、智能物流与精准农业中的落地应用,指出仿真到现实迁移、多机协同、长程鲁棒性等挑战。本文全面呈现领域研究现状,为空中具身智能的进一步发展提供参考。  
    关键词:无人机;视觉语言导航;具身智能;跨模态对齐;大模型   
    46
    |
    61
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158901857 false
    更新时间:2026-06-22

    郎晋伟, 李娅星, 刘帅, 康晓东, 程俊强

    DOI:10.11834/jig.260217
    img
    摘要:随着航空遥感多源传感器的发展及多模态数据融合与智能解译技术的推进,航空遥感技术正经历从单一模态到多模态的深刻变革。这一进展为精准农业、城市环境监测、生态保护及自然灾害评估等领域的智能化监测与决策提供了重要的应用前景。传统的遥感影像解译方法主要依赖单源传感器数据和单任务学习模型,难以应对地表地物目标尺度多变、语义层次丰富、时空异质性强的复杂场景。近年来,多模态大模型的快速发展推动了遥感技术的显著进步,尤其在视觉—语言融合、跨模态推理,以及基于任务指令的跨模态分析与生成等方面取得了重要成果。然而,如何有效处理多源异构数据、提升模型的可解释性,同时保证实时推理能力,仍是当前面临的核心挑战。针对上述问题,对近年来航空遥感领域多模态数据融合及大模型技术的研究进展进行了系统评述,并深入分析了关键技术瓶颈与未来发展方向。研究重点包括跨传感器、多源及多尺度数据融合、空间语义推理、模型的可信推理与可解释性评估,以及在边缘计算环境下的高效部署与数据隐私保护策略。这些问题不仅是推动航空遥感智能解译技术从理论研究向实际应用转化的关键所在,也是实现技术落地并确保可持续发展的现实挑战。  
    关键词:航空遥感;多模态融合;视觉-语言模型;大模型;语义理解   
    52
    |
    69
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158467733 false
    更新时间:2026-06-16

    胡玉梅, 王晓华, 邓豹, 赵洋洋, 赵艺阳

    DOI:10.11834/jig.260236
    img
    摘要:随着传感器网络、信息感知方式及大数据处理技术的飞速发展,面对来自于不同类型、不同特性、不同方式感知信息,及其呈现出的多域、多模态、模糊化、数据关联不完备特点,多模态信息融合技术以其类人式自动感知与强大的综合推理能力的优势收到越来越多的关注。论文首先介绍了多模态信息融合的意义和必要性,进而,在融合架构层面梳理了从早期融合、晚期融合到混合融合的演进脉络,揭示了各架构在信息保留与计算效率间的权衡关系。同时,详细阐述了基于注意力的交互建模、基于对比学习的语义对齐、以及以大语言模型为载体的生成式融合三种前沿多模态融合方式。继而,介绍了COCO数据集、LAION-400M数据集、Visual Genome数据集、MS COCO Captions数据集、Conceptual Captions数据集、Flickr30k数据集和航空相关数据集等典型多模态数据集及相应应用领域。并且,进一步探讨了多模态融合在包括战场态势感知、多源情报分析与无人系统协同的典型军事领域应用。此外,指出随着对比学习和多模态预训练的成熟,高质量的单模态表示已不再是瓶颈,研究焦点由早期如何将异质模态映射到统一空间,转向于如何在表示对齐的基础上设计能够捕捉模态间复杂、动态、甚至矛盾关系的交互机制,并基于融合架构、融合模型和计算成本给出多模态信息融合的三个发展方向。  
    关键词:多模态信息融合;多模态大语言模型;注意力机制;对比学习;生成式融合   
    47
    |
    68
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158467709 false
    更新时间:2026-06-16

    张真, 李佳悦, 王晓华, 陈晓禾④

    DOI:10.11834/jig.260147
    img
    摘要:目的新辅助治疗(Neoadjuvant Therapy, NAT)已成为局部晚期乳腺癌术前治疗的标准策略,旨在缩小肿瘤体积、提高手术切除率并改善患者预后。目前NAT后的疗效评估主要依据病理完全缓解(pathological Complete Response, pCR)与非病理完全缓解(npCR)两种分类。然而,病理评估的固有滞后性以及乳腺肿瘤在磁共振成像(Magnetic Resonance Imaging, MRI)中呈现的复杂形态学表现与异质性增强模式,使得术前精准预测NAT疗效仍面临重大挑战。方法该文提出基于传统U-Net架构的影像组学引导语义分割框架。该框架融合离散小波变换(Discrete Wavelet Transform, DWT)池化模块,显著增强了肿瘤边界等高频细节的刻画精度;创新性的引入组学增强Transformer模块,通过通道筛选与空间调制机制实现低层结构特征与高层纹理组学特征的有效融合,显著增强了模型对病理相关判别性特征的表征能力;并引入空间交叉注意力机制以优化肿瘤轮廓重建与瘤内异质性建模。结果在三个公开乳腺MRI基准数据集上的广泛实验表明,所提模型在BreastDM和ISPY1数据集上均达到最优分割性能(Dice分别为88.68%和92.87%,HD95分别提升了19.7%和7.2%)。消融实验进一步验证了各关键模块的有效性,其中RAT模块单独引入即可使HD95指标相对降低3.4%,充分证明了影像组学先验知识在精细化边界建模中的关键作用。基于分割模型提取的深度特征可有效提升NAT疗效预测精度,且支持基于单次随机时间点DCE-MRI的稳健预测,展现出显著的临床转化潜力。结论综上所述,该文所提模型为局部晚期乳腺癌患者提供了一种高效、精准的术前疗效评估工具,有望推动个体化治疗决策优化,提升乳腺癌诊疗的精准性与临床效率。  
    关键词:乳腺癌肿瘤分割;磁共振成像;影像组学;新辅助治疗;U-Net;Transformer   
    21
    |
    64
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 158467670 false
    更新时间:2026-06-16
0