最新刊期

    2025 30 8

      连续学习及图像处理应用

    • 《中国图象图形学报》连续学习及图像处理应用专栏简介 AI导读

      在人工智能领域,专家建立了深度学习体系,为解决复杂问题提供解决方案。
      胡伏原, 周涛, 王亮, 李玺, 洪晓鹏, 郑伟诗, 王瑞平, 张彰, 吕凡, 韩向娣
      2025, 30(8): 2597-2598. DOI: 10.11834/jig.2500008
        
      0
      |
      1
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 119442058 false
      更新时间:2025-08-01
    • 持续学习研究进展 AI导读

      持续学习领域最新研究进展综述,探讨了新旧知识学习的“可塑性—稳定性”平衡,为应对复杂现实任务需求提供新思路。
      吕凡, 王亮, 李玺, 郑伟诗, 张彰, 周涛, 胡伏原
      2025, 30(8): 2599-2632. DOI: 10.11834/jig.240661
      持续学习研究进展
      摘要:持续学习(continual learning, CL)是机器学习领域的一个关键问题,旨在使模型在不断学习新任务的同时,避免灾难性遗忘,保持对先前任务的记忆。持续学习已在多个实际应用中扮演重要角色,如自动驾驶、机器人控制和医疗诊断系统等。本文旨在为学界提供持续学习领域的最新研究进展综述,并对未来可能的研究方向进行展望。为实现持续学习中新旧知识学习的“可塑性—稳定性”平衡,国内外研究者们提出多种方法,根据方法的发展路径可以分为传统持续训练方法和基于预训练模型的方法。首先,本文介绍了传统持续训练的关键技术和方法,包括记忆重放法、正则化法和动态结构法。记忆重放法通过将先前任务的样本存储并重放,以帮助模型回忆过去的知识。正则化法则通过对模型参数的更新进行约束,防止新任务对旧任务的干扰。动态结构法通过调整模型结构或引入新的模型模块以应对新任务的挑战,避免灾难性遗忘的发生。接着,本文进一步探讨了基于预训练模型的持续学习方法的进展。随着大规模预训练模型的广泛应用,这类预训练模型展示了强大的泛化能力和知识迁移能力。基于预训练模型的持续学习方法可以分为基于微调和基于提示的方法。微调方法可以通过冻结部分预训练模型参数,仅对特定层进行更新,或采用学习率调节等技术,避免对预训练模型的过度修改。基于提示的方法通过设计和输入提示来引导模型处理新任务,而无需大规模调整模型参数。本文提供的实验结果建议,当前持续学习任务应优先考虑采用基于预训练模型的方法。最后,本文对当前持续学习领域的挑战与未来发展方向进行了展望,重点讨论了各种实际约束条件下,如何结合预训练模型和经典持续学习方法,构建新的架构设计和优化策略,以应对日益复杂的现实任务需求。  
      关键词:持续学习(CL);灾难性遗忘 (CF);记忆重放;正则化;动态结构;预训练模型(PTM);综述   
      503
      |
      516
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 84437594 false
      更新时间:2025-08-01
    • 类激活图回放和最小熵采样的多标签类增量学习 AI导读

      在多标签类增量学习领域,研究者提出了类激活图回放和最小熵采样方法,有效缓解了标签缺失问题,提升了模型性能。
      周怡凡, 杜凯乐, 吕凡, 胡伏原, 刘光灿
      2025, 30(8): 2633-2644. DOI: 10.11834/jig.240643
      类激活图回放和最小熵采样的多标签类增量学习
      摘要:目的多标签类增量学习旨在学习多标签分类任务时,能够持续学习新任务中的新标签信息,同时保持对之前学习任务的良好性能。不同于单标签连续学习中的标签互斥性假设,多标签连续学习中的跨任务标签无法被补全。因此,样本的大量标签缺失使得跨任务之间的关联被完全阻断,模型无法区别新类与旧类,导致相似类别的混淆。方法为了解决类别混淆问题,提出一种类激活图回放和最小熵采样的多标签类增量学习,以实现跨任务的监督信息传递。具体地,首先在传统经验回放策略的基础上,开辟一块新的存储区用于存储样本正类的类激活图。其次,基于交叉熵的数值对当前任务样本进行采样,以挑选那些拥有精确类激活图的样本放入存储区作为回放样本。最后,在后续任务中回放样本,对当前模型的正类激活图输出进行正向监督,并将存储的正类的激活图作为其他类别激活图的反向监督,使其显著区域不重合。结果在PASCAL VOC(pattern analysis,statistical modeling and computational learning visual object classes)数据集上进行广泛实验,验证了所提出方法的有效性和鲁棒性。对比实验结果表明,类激活图监督回放方法显著提升了模型在多标签连续学习中的性能。结论本文所提出的类激活图监督回放法为跨任务类别补充了监督信息,缓解了多标签类增量学习中的标签缺失问题。  
      关键词:类增量学习(CIL);多标签分类;多标签类增量学习(MLCIL);类激活图;最小化熵   
      63
      |
      142
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 90087136 false
      更新时间:2025-08-01
    • 连续测试场景中退化图像的动态自适应超分辨率 AI导读

      在图像超分辨率领域,专家提出了CTDA-SR新框架,为解决动态域条件下的域漂移问题提供新方向。
      刘烨, 鲍娜, 曹克让, 陈吉, 王星
      2025, 30(8): 2645-2659. DOI: 10.11834/jig.240764
      连续测试场景中退化图像的动态自适应超分辨率
      摘要:目的图像超分辨率任务旨在从低分辨率图像中恢复出高分辨率图像。传统方法通常将研究范畴限定于实验室封闭环境下采集的、内容与退化类型均较为单一的静态域图像,并且假设训练环境与测试环境的数据分布相近。因此,当处于开放环境,面对诸如噪声、模糊以及光照变化等域漂移问题时,传统方法的性能会急剧下降。为提升超分辨率模型在持续变化的开放环境中的适应性和鲁棒性,提出持续测试动态自适应图像超分辨率新框架——CTDA-SR(continuous testing with dynamic adaptive super-resolution)。方法该框架通过动态域自适应策略应对复杂场景中的域漂移问题。具体而言,通过自监督双学生网络的设计,在测试阶段深度挖掘并有效利用图像的局部特征和全局结构特征,使其能够更好地学习不同尺度下的共性模式。此外,为了保持图像在不同分辨率下的一致性,提出多层次转换的循环一致性损失,提高模型对不同分辨率图像的适应性和知识转移的有效性和稳定性,以及学生网络的模型泛化能力。结果实验结果表明,所提方法在多个动态域超分辨任务(如持续退化场景)中优于对比算法,能够提高重建图像的PSNR(peak signal to noise ratio)和SSIM(structural similarity index measure),并表现出稳定性和鲁棒性。实验在8个数据集上与10种方法进行比较,相比于性能第2的模型,在U-Test1数据集中,PSNR提升0.22 dB,SSIM提升0.03;在U-Test3数据集中,PSNR提升0.23 dB,SSIM降低0.01;在B-Test1数据集PSNR提升0.11 dB,SSIM提升0.01。同时,在Urban100(urban scene 100)数据集上的实验结果表明,所提算法在持续退化环境中改善了退化图像的超分辨率的效果。结论本文提出的框架为连续变化环境下的图像超分辨任务提供了一种创新解决方案。通过高效的自适应能力、自监督双学生网络和损失函数的设计,CTDA-SR显著改善了超分任务在动态域条件下的表现,为解决域漂移问题提供了新的研究方向。  
      关键词:超分辨率(SR);退化图像;域自适应;教师学生模型;损失函数;持续变化   
      38
      |
      79
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 98368001 false
      更新时间:2025-08-01
    • 持续测试时域自适应图像分类方法 AI导读

      在计算机视觉领域,专家提出了一种面向域间差异的持续测试时适应方法,有效提升了模型对新域的适应能力,为解决模型泛化性和稳定性问题提供新方案。
      陆霆洋, 吕凡, 周涛, 姚睿, 胡伏原
      2025, 30(8): 2660-2674. DOI: 10.11834/jig.240739
      持续测试时域自适应图像分类方法
      摘要:目的持续测试时适应(continual test-time adaption, CTTA)旨在不使用任何源数据情况下,使源预训练模型适应持续变化的目标域。目前持续测试时适应主要依赖于自训练方法,在基于平均教师模型框架下将数据增强后样本的预测值作为伪标签,构建一致性损失函数实现模型的自训练。然而,现有方法中使用随机数据增强策略忽视了域间差异的重要性,导致模型稳定性和泛化性失衡等问题,使得在某些域间进行知识转移变得更具挑战性。为此,提出一种面向域间差异的持续测试时适应方法,聚焦于计算机视觉领域中的图像分类任务,探讨如何通过持续测试时适应技术提升模型对新域的适应能力。方法首先,提出一种基于域间差异的弹性数据增强策略。通过构建表示域间特征风格的Gram矩阵,计算相邻域间的差异,选取合适的弹性因子控制数据增强的强度,在数据预处理层面考虑域间差异性,使模型能更好地适应域复杂多变的情况。其次,提出一种全局弹性对称交叉熵损失函数。将基于域间差异计算取得的弹性因子应用于伪标签生成以及一致性损失函数的构建中,在模型优化层面考虑域间差异性,增强模型对不同域变化下的理解和适应能力。最后,提出一种基于置信度的伪标签自纠错策略。在弹性数据增强下,强数据增强通过对原始数据进行较大程度的变换来实现,模型在预测过程中可能面临预测偏差的问题,而弱数据增强涉及较小程度的变换,不会显著改变基本特征,模型对其预测的置信度较高。该策略利用高置信度的弱数据增强预测值对强数据增强的预测值进行自纠错,减少误差积累现象。结果在CIFAR10-C、CIFAR100-C和ImageNet-C 3个数据集上与多种先进算法进行比较,相较于基线方法CoTTA,错误率分别降低了约2.3%、2.7%和3.6%。在CIFAR10-C数据集中进行了消融实验,进一步验证了各个模块的有效性。为了符合更实际的域变化场景,在CIFAR100-C设计了域随机输入实验,结果显示本文方法在域随机输入的情况下错误率低于现有方法,对比基线平均错误率降低了3.9%,证明了本文方法可以有效地评估域间关系,并部署灵活策略以提升模型对持续变化目标域的适应能力。结论本文算法平衡了模型在持续测试时适应场景中的泛化性和稳定性,有效减少了误差积累现象。  
      关键词:持续测试时适应(CTTA);Gram矩阵;域间差异;全局对称交叉熵;弹性数据增强;伪标签自纠错;持续学习   
      121
      |
      166
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 84437894 false
      更新时间:2025-08-01
    • 结合适配器增强的双阶段连续缺陷判别 AI导读

      在工业产品缺陷判别领域,AETS方法通过适配器增强模块和双阶段训练策略,显著提升了模型的适应性和泛化性。
      封筠, 孟旭静, 尚玉全, 牛超凡
      2025, 30(8): 2675-2689. DOI: 10.11834/jig.240663
      结合适配器增强的双阶段连续缺陷判别
      摘要:目的传统异常检测方法在工业产品缺陷判别中仅关注当前任务,从而导致在接受新任务训练时会灾难性地遗忘以前学过的知识。鉴于现实工业场景中对异常检测模型的灵活性和持续适应性的需求,结合连续学习方法提出一种适配器增强的双阶段连续缺陷判别方法(adapter-enhanced two-stage continual defect detection,AETS)以实现连续异常检测任务。方法1)在AdaptFormer基础上引入外部注意力机制,增强模型对顺序任务中的全局依赖关系的捕捉能力,以提升对新任务的泛化性能。2)在视觉转换器(vision Transformer,ViT)预训练模型的基础上结合高效微调技术,采用双阶段训练策略,即在适应阶段,通过全量微调缓解自然图像与工业图像之间的域差异;在高效微调阶段,通过适配器增强模块提升模型对新任务的适应性,同时冻结大部分参数以保留对旧任务的记忆,从而缓解灾难性遗忘问题。3)提出遗忘波动率(forgetting fluctuation rate,FFR)这一新的连续学习评价指标,用于量化模型在整个学习过程中遗忘波动情况,以检验模型在工业场景中的适用性和稳定性。结果在MVTec-MCIL、MVTec-SCIL和MVTec+MTD数据集上进行实验,AETS的ACC(average accuracy)值分别达到84.21%、89.16%和78.49%,相较于5种连续学习方法,AETS具有最佳的ACC、FM(forgetting measure)值和最小的训练参数量,相较于6种先进高效微调方法,其FFR值达到最佳。消融实验选取缩放因子及确定适配器增强模块结构,以实现模型可塑性与稳定性的最佳平衡。结论所提出的AETS方法通过构建适配器增强模块,充分利用预训练模型的特征表达能力,双阶段训练策略能够捕捉与任务相关的特征,显著增强模型在连续工业缺陷判别任务中的适应性和泛化性。  
      关键词:连续学习(CL);工业产品缺陷判别;异常检测;适配器增强;双阶段训练;参数高效调整(PET);遗忘波动率(FFR)   
      98
      |
      254
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 84437819 false
      更新时间:2025-08-01

      综述

    • 三维模型视觉显著性检测研究综述 AI导读

      三维模型视觉显著性检测技术,模拟人类视觉系统,定位模型中重要视觉信息区域,为模型简化、分割及压缩等任务提供解决方案。
      丁晓颖, 张新峰, Lin Weisi, 陈震中
      2025, 30(8): 2690-2710. DOI: 10.11834/jig.240614
      三维模型视觉显著性检测研究综述
      摘要:三维模型视觉显著性检测通过模拟人类视觉系统,定位模型中蕴含重要视觉信息的区域,广泛应用于模型简化、分割以及压缩等相关任务,是计算机视觉领域的研究热点。区别于图像和视频数据,三维模型体量庞大、数据分布不均匀,同时噪声数据较多,使得现有图像和视频视觉显著性检测方法难以被拓展应用,为三维模型视觉显著性检测任务带来了巨大的挑战。针对这一现状,首先对近年来国内外公开发表的三维模型视觉显著性检测方法进行概述,根据使用特征的不同将三维模型视觉显著性检测方法分为基于手工特征的方法和基于深度学习的方法,并根据不同三维模型表示形式分别介绍面向点云模型的方法和面向网格模型的方法。对基于手工特征的方法,根据特征尺度的不同将其细分为基于单尺度特征的方法和基于多尺度特征的方法,重点介绍特征提取策略;对基于深度学习的方法,重点介绍设计思路。同时,对现有三维模型视觉显著性检测数据集进行汇总,介绍三维模型视觉显著性检测常用的性能评价指标,并对部分方法进行性能对比。此外,本文详细介绍视觉显著性检测结果在三维模型缩放、简化、降噪以及质量评价等相关领域的应用。最后,基于国内外研究现状,讨论三维模型视觉显著性检测领域亟需解决的问题,并指出未来可能的发展方向。  
      关键词:三维模型视觉显著性检测(3D-VSD);三维模型处理;视觉注意机制;眼动追踪;特征提取;深度学习   
      57
      |
      153
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 82620153 false
      更新时间:2025-08-01
    • 基于深度学习的图像反射消除方法综述 AI导读

      智能手机摄影普及,图像数据采集便捷,但透明介质拍摄时玻璃反射影响图像质量。本文深入探讨基于深度学习的反射消除研究进展,为解决反射消除问题提供解决方案。
      洪雨辰, 吕游伟, 万人杰, 李思, 施柏鑫
      2025, 30(8): 2711-2728. DOI: 10.11834/jig.240537
      基于深度学习的图像反射消除方法综述
      摘要:随着智能手机摄影的普及,图像数据采集变得极为便捷,但在透过透明介质例如玻璃窗进行拍摄时,玻璃反射的存在严重影响了图像质量,进而干扰下游计算机视觉任务的性能。反射消除作为计算摄像学与计算机视觉领域的重要研究问题,旨在从带反射图像中消除反射干扰以恢复清晰的背景图像。随着深度学习在计算摄像问题中的广泛应用,反射消除领域经历了快速发展,鉴于此,本文旨在围绕近年来基于深度学习的反射消除研究进展进行深入探讨。首先,从混合图像成像模型入手,分析玻璃材质特性以及相机特性对反射图像和背景图像性质的影响。其次,从输入图像的角度,详细汇总了现有的反射消除真实数据集,并对其应用场景、具体用途、数据规模和分辨率等属性进行了统计分析。接着,从深度学习模型的视角,系统性对比了反射消除网络的设计范式、损失函数和评估指标。此外,根据反射消除方法所依赖的分层依据和辅助信息,将现有方法归纳为基于图像特征、文本特征、几何特性和光照特性四大类,并进行了简明的描述和分析。最后,通过讨论反射消除领域内尚未解决的关键挑战,对该领域进行总结与展望。本文旨在提供一个关于反射消除问题的系统研究视角,帮助研究者建立对反射消除技术的深刻认识,为未来研究提供有价值的参考。  
      关键词:计算摄像学;图像复原;反射消除;卷积神经网络(CNN);扩散模型;感知质量   
      594
      |
      170
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 79601498 false
      更新时间:2025-08-01

      数据集

    • 基于中文对话的多模态谎言检测数据集 AI导读

      在谎言检测领域,东南大学专家构建了首个公开的中文多模态测谎数据集SEUMLD,为研究中文语境下的多模态测谎提供重要数据来源。
      徐啸林, 郑文明, 连海伦, 李溯南, 刘佳腾, 刘安邦, 路成, 宗源, 梁宗保
      2025, 30(8): 2729-2742. DOI: 10.11834/jig.240571
      基于中文对话的多模态谎言检测数据集
      摘要:目的谎言检测通过分析个体的生理行为特征来识别其是否说谎,在刑侦和安全审查等领域具有重要应用。然而,目前缺乏公开的中文测谎数据集,考虑到语言和文化方面的差异,基于英文数据集研发的算法可能难以适用于中文语境。此外,现有数据集样本规模有限,在激发被试说谎动机方面存在不足。针对这些问题,构建了首个公开的中文多模态测谎数据集(Southeast University multimodal lie detection dataset,SEUMLD)。方法实验基于犯罪知识测试范式,设计了模拟犯罪和模拟审讯等流程以激发被试的说谎动机。通过记录被试在模拟审讯过程中的多模态信号,SEUMLD包含了长期生活在中文语境下的76位被试的视频、音频以及心电3种模态数据,共计3 224段对话。该数据集不仅提供了用于判断被试是否说谎的长会话标注(粗粒度标注),还提供了每段长会话细化分割的精准标注(细粒度标注)。基于SEUMLD,设计了跨语种实验以验证语言文化差异对说谎行为的影响;通过迁移学习实验评估其在提升模型泛化能力上的性能;最后基于经典谎言检测方法对SEUMLD进行了基准实验。结果跨语种测谎实验在中英文语境下表现出了显著差异。迁移学习实验验证了SEUMLD在提升模型泛化能力上的优异表现。基准实验结果显示,基于单模态的粗粒度和细粒度测谎的最佳未加权平均召回率(unweighted average recall,UAR)识别结果分别为0.757 6和0.709 6;融合了多模态信息后的测谎性能达到最佳,粗粒度检测和细粒度测谎的识别结果分别为0.808 3和0.737 9。结论SEUMLD为研究中文语境下的多模态测谎提供了重要的数据来源,对未来研究中文母语者的说谎模式具有重要意义。数据集开源地址:https://aip.seu.edu.cn/2024/1219/c54084a515309/page.htm或https://doi.org/10.57760/sciencedb.22548。  
      关键词:谎言检测;中文谎言检测;多模态;数据集;基准   
      194
      |
      427
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 79600222 false
      更新时间:2025-08-01

      图像处理和编码

    • 融合颜色查询与特征增强的图像上色方法 AI导读

      在图像上色领域,专家提出了一种新模型,通过编码器—解码器结构和颜色预测网络,有效提升了上色质量,为老照片修复和黑白电影增强提供了新方案。
      于冰, 相雪, 范正辉, 黄东晋, 丁友东
      2025, 30(8): 2743-2757. DOI: 10.11834/jig.240506
      融合颜色查询与特征增强的图像上色方法
      摘要:目的图像上色在老照片修复和黑白电影增强等方面具有重要应用。现有方法在颜色预测过程中由于无法保证色彩的一致性,缺乏对局部细节的精细处理,导致某些色彩区域的上色效果不佳。方法采用编码器—解码器结构,编码器用于提取灰度图像特征,解码器用于恢复空间分辨率。颜色预测网络通过丰富的视觉特征来细化颜色查询,并通过像素增强模块学习空间上的关注度来增强特定区域的像素。进一步,所提方法通过特征增强模块优化原图和生成图之间的颜色匹配关系,全面地捕捉图像的特征,实现细节保持的图像上色,减少颜色溢出。结果实验在数据集ImageNet(val5k)、ImageNet(val50k)、COCO-Stuff、ADE20K和CelebA-HQ上与5种灰度图像自动上色方法进行比较,在上色结果的客观质量对比中,与性能第2的模型相比,所提方法在评价指标Frechet初始距离(Frechet inception distance, FID)上降低0.2,峰值信噪比(peak signal-to-noise ratio, PSNR)提升0.13 dB;在色彩指标的对比中,所提方法在色彩丰富度方面取得最高分;在主观评价和用户调查中,所提方法的上色效果与人类的审美感受较为一致,得到了最为优异的评价。此外,消融实验结果进一步证明了所提方法采用的模型结构在提升上色性能方面的有效性。结论所提出的上色模型,更能捕捉并再现图像中的细节与色彩关系,实现了高质量的上色效果。  
      关键词:图像上色;灰度图像;空间注意力;颜色查询;特征增强   
      69
      |
      176
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 82627340 false
      更新时间:2025-08-01

      图像分析和识别

    • 畸变自适应与位置感知的360°全景图像显著目标检测网络 AI导读

      在360°全景图像显著目标检测领域,DPNet模型有效解决了几何畸变和背景干扰问题,为显著目标检测提供新方案。
      陈晓雷, 杜泽龙, 张学功, 王兴
      2025, 30(8): 2758-2774. DOI: 10.11834/jig.240592
      畸变自适应与位置感知的360°全景图像显著目标检测网络
      摘要:目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,提出一种畸变自适应与位置感知网络(distortion-adaptive and position-aware network,DPNet)。方法提出两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像决定应该关注图像的哪些区域。在此基础上,进一步提出一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与13种新颖方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于13种对比方法。本文还设置了泛化性实验,采用交叉验证的方式表明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。  
      关键词:360°全景图像;显著目标检测(SOD);畸变自适应;位置感知;抗背景干扰   
      90
      |
      185
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 79601568 false
      更新时间:2025-08-01
    • 长短程依赖特征金字塔的YOLOv7-tiny改进 AI导读

      YOLOv7-tiny在实时目标检测领域表现出色,但存在特征融合问题。研究者提出长短程依赖特征金字塔网络,有效提升检测性能,优于YOLOv5-s和YOLOv8-n。
      孙中彬, 胡帅, 张帆, 周勇
      2025, 30(8): 2775-2789. DOI: 10.11834/jig.240490
      长短程依赖特征金字塔的YOLOv7-tiny改进
      摘要:目的YOLOv7-tiny(you only look once version 7-tiny)成为实时目标检测领域的常用方法,由于其轻量化网络架构设计和较少的参数量,整个训练过程在单个网络中进行,检测速度快且不需要使用滑动窗口或候选区域,在资源受限、实时性要求高的任务中表现优异。然而,YOLOv7-tiny在特征融合阶段存在相邻层特征融合时信息丢失和非相邻层特征信息差异两个问题。为了解决上述问题,提出一种长短程依赖特征金字塔网络LSRD-FPN(long short range dependency feature pyramid network),并基于该网络对YOLOv7-tiny方法进行改进。方法LSRD-FPN包括两个关键组成部分:局部短程依赖机制SRD(short range dependency)和全局长程依赖机制LRD(long range dependency)。局部短程依赖机制通过改进上采样方式和引入注意力机制,有效缓解了特征融合过程中信息丢失的问题;全局长程依赖机制通过引入跨层连接模块,将主干网络的多尺度特征缩放、融合并分配到检测阶段的不同层级特征。LSRD-FPN不仅增强了模型的特征表达能力,而且提升了其在多尺度目标检测任务的性能表现。结果选用两个不同场景和规模的数据集进行实验。实验结果表明,相较于YOLOv7-tiny,本文方法的mAP分别取得1.3%和0.5% 的性能提升。与参数量相当的YOLOv5-s和YOLOv8-n相比,mAP指标在TDD(traffic detection dataset)数据集上分别提升2.6%和0.2%,在Cmudsodd(coal mine underground drilling site object detection dataset)数据集上分别提升2.1%和4.4%。结论本文提出的长短程依赖特征金字塔网络解决了YOLOv7-tiny在特征融合阶段存在的相邻层特征融合时信息丢失问题和非相邻层特征信息差异问题,提升了YOLOv7-tiny方法的检测性能,并优于两种参数量相当的方法YOLOv5-s和YOLOv8-n。  
      关键词:目标检测;特征融合;特征金字塔;YOLOv7-tiny;多尺度特征   
      0
      |
      0
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 119441946 false
      更新时间:2025-08-01
    • 随机空洞卷积的图像分类网络 AI导读

      RDCNet网络在图像分类领域取得突破,有效提取细粒度特征,提升分类准确率,为图像识别研究提供新方向。
      姜文涛, 由卓丞, 袁姮
      2025, 30(8): 2790-2807. DOI: 10.11834/jig.240746
      随机空洞卷积的图像分类网络
      摘要:目的针对图像分类任务中对于细粒度特征提取困难,同时背景噪声和不相关区域影响网络对目标特征学习的问题,本文提出随机空洞卷积的图像分类网络(image classification network with random dilated convolution,RDCNet)。方法RDCNet网络以ResNet-34(residual network-34)为基线网络。首先,提出多分支随机空洞卷积(multi-branch random dilated convolution,MRDC)模块,通过多个分支的卷积操作和随机膨胀卷积核的设计,实现了从不同尺度和感受野上对细粒度特征的有效捕捉。通过引入细粒度特征增强(fine-grained feature enhancement,FGFE)模块,实现对全局信息的学习和局部特征的增强,提升了网络局部特征提取和全局上下文理解能力。同时引入随机掩码机制动态地遮蔽部分输入特征和卷积核权重,不仅可以通过多样化的特征组合学习更加健壮和鲁棒性的表示,还能够有效减少过拟合,提升对噪声和不相关区域的适应能力。最后,提出上下文激励(context excitation,CE)模块,通过引入上下文信息并动态调整特征通道的权重,增强网络对关键特征的关注能力,抑制背景噪声的干扰,提升了特征的表达能力。结果本文方法在CIFAR-10(Canadian institute for advanced research 10)、CIFAR-100、SVHN(street view house number)、Imagenette和Imagewoof数据集上均有良好的分类准确率,相比于性能第2的模型,分类准确率分别提高了0.02%、1.12%、0.18%、4.73%和3.56%。实验结果表明,RDCNet具有较高的分类性能。结论随机空洞卷积的图像分类网络具有更强的细粒度特征敏感度,能够在多尺度和上下文中提取丰富的特征信息,较好地关注关键特征,对复杂背景下目标具有更优秀的辨识能力,从而在分类任务中表现出优秀的分类性能。  
      关键词:图像分类;残差网络;空洞卷积;随机空洞卷积;细粒度特征;随机掩码机制   
      100
      |
      161
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 81601203 false
      更新时间:2025-08-01
    • 在雾天船舶识别领域,专家提出了一种新的网络模型FSRNet,通过增强图像特征和跨层融合技术,显著提高了船舶匹配准确率,为雾天船舶重识别提供了高效解决方案。
      孙伟, 管菲, 张小瑞, 沈欣怡
      2025, 30(8): 2808-2821. DOI: 10.11834/jig.240646
      多元特征级联增强和跨层自适应融合的雾天船舶重识别网络
      摘要:目的雾天环境下,船舶图像往往面临特征模糊和细节丢失,给船舶的准确识别带来了巨大挑战。针对此问题,提出多元特征级联增强和跨层自适应融合的雾天船舶重识别网络。方法针对雾天图像船舶特征模糊、难以识别的挑战,设计了多元特征级联增强模块,通过提取船舶全局和局部的多元特征,并融入密集连接进一步级联增强这些特征的清晰度,有效减轻雾对图像质量的影响,进而增强船舶的整体轮廓和细节结构的呈现,为后续重识别任务提供更为丰富且可辨识的特征信息。然后,进一步设计了跨层自适应融合模块,通过自适应权重来预测ResNet50(residual network 50)网络浅层和深层特征的重要性,并将这些特征进行跨层融合,不仅有效利用特征增强后的船舶信息,还全面捕捉从浅层细节到深层语义的船舶特征信息,增强雾天船舶重识别的鲁棒性和准确性。此外,新构建了一个专门用于雾天船舶重识别的数据集Warships-Foggy,通过调整大气散射模型中的参数合成多种雾况的船舶图像,以模拟真实的雾天场景,有效解决雾天船舶重识别模型难以训练和评估的挑战。结果在数据集Warships-Foggy上将本文方法和已有的方法进行了对比实验和消融实验,以评估所提出的FSRNet(foggy ship re-identification network)网络模型的性能。实验结果显示,本文方法的平均精度均值(mean average precision, mAP)为92.39%,累计匹配曲线(cumulative matching characteristic,CMC)在排名前1、5、10的结果分别为94.35%、97.58%和98.39%,表明所提出的网络模型提高了船舶匹配的准确率,表现出优异性能。结论本文提出的网络模型,首次将图像特征增强和船舶重识别两个任务相结合,实现了高精度的船舶重识别。  
      关键词:雾天船舶重识别;特征增强;自适应权值;特征融合;ResNet50   
      120
      |
      172
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 81601291 false
      更新时间:2025-08-01
    • 基于动态多粒度图卷积网络的人体骨架行为识别 AI导读

      在人体骨架行为识别领域,专家提出了基于动态多粒度图卷积网络的新方法,通过扩大图卷积网络感受野并减少特征冗余,提高了模型捕捉复杂人体动作的能力和准确性。
      吴志泽, 陈鑫, 徐童, 年福东, 王晓峰, 李腾
      2025, 30(8): 2822-2834. DOI: 10.11834/jig.240352
      基于动态多粒度图卷积网络的人体骨架行为识别
      摘要:目的基于图卷积网络的方法在人体骨架行为识别任务中越来越受欢迎,并取得了显著进展。传统图卷积在远距离节点信息交互方面的局限,导致在捕获骨架中非自然连接节点信息时表现不佳,同时现有致力于复杂空间建模的方法,也面临着特征冗余和参数量显著增加的问题。为此,提出一种基于动态多粒度图卷积网络的人体骨架行为识别方法。方法本文根据人体关节点的不同组合方式重构骨架图,设计3种不同粒度的图结构,从而更好地捕获骨架图中的非自然连接节点信息。为了应对特征冗余和参数量增大的难题,引入了空间重组卷积模块,该模块通过分离—重建操作将信息丰富与匮乏的特征进行交叉重构,有效减少了空间维度特征的冗余。在特征融合阶段,根据3种粒度的图结构引出了全新的六流融合方式,利用它们的互补信息以提高模型的整体性能。结果与基线方法CTR-GCN(channel-wise topology refinement graph convolution network)相比,所提方法在基准数据集NTU-RGB+D、NTU-RGB+D 120和Northwestern-UCLA上分别得到了0.6%、0.7%和0.7%的提升。结论动态多粒度图卷积网络结合多粒度图结构和空间—通道重组卷积,是一种新的时空建模方法,通过扩大图卷积网络的感受野并显著减少时空建模过程中的特征冗余,提高了模型捕捉复杂人体动作的能力和准确性。  
      关键词:图卷积;骨架行为识别;多粒度;特征冗余;重组卷积   
      2
      |
      1
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 119441948 false
      更新时间:2025-08-01
    • 面向步态识别的局部时空卷积网络 AI导读

      最新研究突破步态识别技术,通过局部时空卷积网络提升识别准确率。
      丁欣楠, 叶楠, 段鑫, 王科俊
      2025, 30(8): 2835-2850. DOI: 10.11834/jig.240710
      面向步态识别的局部时空卷积网络
      摘要:目的作为一种生物特征,步态通过行走习惯来区分目标身份。但由于视频数据的复杂性,隐藏在连续帧中的不受外部协变量干扰的运动状态很难被直接捕获。针对该问题,提出一种基于局部时空卷积的步态识别方法自主地学习步态运动模式。方法受分块思想的启发,提出全局双向空间池化方法使步态张量降维,以局部条带为基本单位表示步态特征空间上的细节。并且设计了局部时空卷积层,使时域和空间域上的信息共同参与卷积运算,从而让二维卷积层能够自适应地学习基于条带的步态运动。并且通过非对称卷积分别关注时域、空间域和时空域,从而更好地提取步态时空特征。另外,提出基于局部的时空池化方法,能够融合多帧中最有区分性的局部步态时空表征,以生成更具身份判别性的步态特征。结果所提出的方法在两个基准公共数据集上的实验均取得最高识别精度。在CASIA-B数据集上,3种行走条件下的平均识别正确率分别达到97.3%、93.7%和83.8%,在OU-MVLP数据集上取得85.8%的平均识别结果,表明了所提方法的优越性。结论本文提出的局部时空卷积网络方法,具有较好的时空域特征学习能力,能够提升步态识别准确率。  
      关键词:步态识别;时空特征;卷积神经网络(CNN);局部特征;深度学习   
      75
      |
      154
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 81602241 false
      更新时间:2025-08-01

      医学图像处理

    • 融合局部与全局特征的单椎体2D/3D配准网络 AI导读

      在医学图像配准领域,专家提出了融合局部细节特征和全局位置特征的单椎体2D/3D刚性配准网络,有效提高了配准精度和鲁棒性。
      杨小龙, 张战成, 徐少康, 张宝成, 罗晓清, 胡伏原
      2025, 30(8): 2851-2865. DOI: 10.11834/jig.240502
      融合局部与全局特征的单椎体2D/3D配准网络
      摘要:目的由于患者姿态的变换,术中完整脊柱图像无法与术前CT(computed tomography)形成刚体位置对应,现有的医学图像配准算法在处理脊柱的复杂结构时,常面临配准精度低和鲁棒性不足的问题。针对该问题,提出融合脊柱局部细节特征和全局位置特征的单椎体2D/3D刚性配准网络。方法卷积神经网络通过多组可学习的卷积核增强模型学习椎体的形状和边界等局部结构的能力,Transformer通过自注意力机制能够有效捕捉图像间全局依赖关系并分离出椎体的关键特征,结合两种网络特点,提出双分支网络有效地提取单椎体图像的局部、全局特征。然后设计基于通道、空间注意力的特征融合模块,使网络更好地捕捉椎体信息,并通过多尺度特征逐层优化特征表示,提高网络在不同层次上的感知能力。最后,设计了辅助配准头,利用多层次的空间特征预测姿态参数,使网络在训练过程中逐层优化姿态的预测,从而提高最终的配准精度。结果在Verse数据集上与几种主流的基于迭代优化和基于深度学习的配准方法进行对比实验,本文模型在单椎体配准任务上表现出更高的精度,平均目标配准误差(mean target registration error,mTRE)为1.40 mm,6自由度姿态参数的平均绝对误差(mean absolute error,MAE)为0.008。结论本文提出的配准方法能够获取脊柱局部细节信息以及全局位置信息,从而提高配准精度;且基于多层次特征实现的辅助配准头能够增强监督信息,提高配准模型的稳定性,适用于单椎体的2D/3D医学图像配准任务。源代码可在https://github.com/xlyang2001/Registration获取。  
      关键词:医学图像;2D/3D配准;单椎体;深度学习;特征融合   
      56
      |
      11
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 81601326 false
      更新时间:2025-08-01

      遥感图像处理

    • 引入全局感知与细节增强的非对称遥感建筑物分割网络 AI导读

      在遥感图像分割领域,专家提出了基于全局感知与细节增强的非对称遥感建筑物分割网络GPDEA-UNet,有效提高了建筑物分割精度。
      徐胜军, 刘雨芮, 刘二虎, 刘俊, 史亚, 李小晗
      2025, 30(8): 2866-2883. DOI: 10.11834/jig.240629
      引入全局感知与细节增强的非对称遥感建筑物分割网络
      摘要:目的针对遥感图像分割的区域连续性差、边界消失和尺度变化大等导致建筑物分割精度低的问题,提出一种基于全局感知与细节增强的非对称遥感建筑物分割网络(global perception and detail enhancement asymmetric-UNet,GPDEA-UNet)。方法在U-Net网络基础上,首先构建了一个基于选择性状态空间的特征编码器模块,以视觉状态空间(visual state space,VSS)作为基础单元,结合动态卷积分解(dynamic convolution decomposition,DCD)捕捉遥感图像中的复杂特征和上下文信息;其次通过引入多尺度双交叉融合注意力模块(multi-scale dual cross-attention,MDCA)解决多尺度编码器特征间的通道与空间依赖性问题,并缩小编解码器特征之间的语义差距;最后设计了一个细节增强解码器模块,使用DCD与级联上采样(cascade upsampling,CU)模块恢复更丰富的语义信息,保留特征细节与语义完整,最终确保分割结果的精确性与细腻度。结果实验在WHU Aerial Imagery Dataset和Massachusetts Building Dataset数据集上与多种方法进行了比较,实验结果表明,所提出的GPDEA-UNet的交并比、精确度、召回率和F1分数在WHU Aerial Imagery Dataset数据集上分别为91.60%、95.36%、95.89%和95.62%,在Massachusetts Building Dataset数据集上分别为72.51%、79.44%、86.81%和82.53%。结论所提出的基于全局感知与细节增强的非对称遥感建筑物分割网络,可以有效提高遥感影像建筑物的分割精度。  
      关键词:遥感图像;建筑物分割;视觉状态空间;动态卷积分解(DCD);交叉注意力;细节增强   
      141
      |
      63
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 81602162 false
      更新时间:2025-08-01
    • 微调SAM的遥感图像高效语义分割模型DP-SAM AI导读

      在遥感图像语义分割领域,专家提出了一种高效方法,通过微调大模型SAM,实现了遥感图像的高效语义分割,性能优于其他深度学习方法。
      刘思涌, 赵毅力
      2025, 30(8): 2884-2896. DOI: 10.11834/jig.240540
      微调SAM的遥感图像高效语义分割模型DP-SAM
      摘要:目的SAM(segment anything model)已经成为自然图像零样本分割的一个大模型基准。由于遥感图像的复杂性和场景多变性,且SAM是一个需要提示信息的分割模型,直接将这个“基础宏观模型”应用于遥感图像会导致过分割以及需要大量手动输入提示的问题。针对上述问题,提出一种通过微调将SAM用于遥感图像语义分割的高效方法。方法首先,保留原生SAM的图像编码器模块但对其训练参数进行微调,并且引入一条新的卷积神经网络(convolutional neural network,CNN)编码器路径。其次,在解码器中采用一种经过微调的无提示方法,消除了将SAM应用于图像分割需要输入提示的问题。通过CNN和Transformer两条路径分别输出两个独立的预测掩码,并根据这两个掩码获得分割的结果。这种具有两条路径且经过精细微调的模型名为DP-SAM(dual path segment anything model)。结果使用两个经过标注的遥感图像数据集Potsdam和Vaihingen对DP-SAM进行评估,并通过消融性实验对如何根据两条解码器路径的输出生成预测掩码的方法进行讨论。实验结果表明,DP-SAM能对遥感图像进行高效语义分割,平均交并比mIoU和F1分数在Potsdam数据集上达到86.2%和92.7%,在Vaihingen数据集上达到85.9%和92.4%。结论所提方法具有良好的性能,实现了将大模型应用于遥感领域语义分割场景,该方法性能优于所对比的其他基于深度学习和微调SAM的方法。本工作的源代码可在https://github.com/Jacky-Android/DP-SAM获取。  
      关键词:分割一切模型(SAM);零样本;遥感图像语义分割;图像编码器;无提示;掩膜解码器   
      304
      |
      120
      |
      0
      <HTML>
      <WORD><Meta-XML>
      <引用本文> <批量引用> 82620117 false
      更新时间:2025-08-01
    0