最新刊期

    2026 31 4

      综述

    • 面向遥感图像的预训练基础模型发展现状与展望 AI导读

      支元杰, 姜艺伟, 杨知, 陈奕州, 郝文魁, 马明阳, 魏江, 梅少辉
      2026, 31(4): 973-986. DOI: 10.11834/jig.250424
      面向遥感图像的预训练基础模型发展现状与展望
      摘要:随着训练数据体量和深度学习模型规模的不断提升,视觉基础模型(vision foundation model,VFM)和大语言模型(large language model,LLM)在多种类型下游任务中表现出优异的泛化能力,引发广大学者关注。在遥感(remote sensing,RS)领域,数据来源多样、模态复杂、地物类型丰富且分布异质,传统方法难以全面建模其中蕴含的语义与空间关系。围绕遥感多源数据特性和复杂地物关系设计预训练基础模型,对于提取通用、鲁棒的特征表示以及实现遥感影像智能解译具有重要意义。本文系统回顾了遥感预训练基础模型(remote sensing foundation model,RSFM)的研究进展,重点聚焦于单模态与多模态预训练策略的发展脉络和关键方法,梳理了当前主流遥感预训练数据集及其构建特性。在单模态方面,总结了典型的自监督对比学习(self-supervised contrastive learning,SSCL)与掩码生成预训练(masked generative pre-training)框架,并分析其在不同分辨率和多光谱影像中的应用效果;在多模态方面,重点回顾了图像—文本、图像—位置、图像—音频等多模态预训练策略及其特征对齐机制。进一步地,本文对遥感基础模型在跨场景适应、特征表征能力、预训练范式、数据质量与获取成本等方面所面临的主要挑战进行了分析,并从多模态融合、轻量化建模、跨域与跨时间泛化、模型透明度与可信性等角度,对未来遥感大模型的发展趋势与潜在研究方向进行了前瞻性探讨。本文旨在为遥感智能解译与大模型研究提供系统综述与理论参考。  
      关键词:遥感图像;遥感智能解译;预训练基础模型;多模态基础模型;通用预测;多任务   
      246
      |
      380
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133634895 false
      更新时间:2026-04-16

      数据集

    • 中文条形图表数据集构建及数据抽取方法 AI导读

      马秋平, 毕航烁, 张琪, 赵晓凡
      2026, 31(4): 987-1003. DOI: 10.11834/jig.250299
      中文条形图表数据集构建及数据抽取方法
      摘要:目的图表作为直观高效的信息呈现方式,在科研与商业分析中扮演着重要角色。然而,当无法直接访问其底层原始数据时,基于图表进行深入分析便面临显著挑战。图表数据抽取技术旨在克服这一障碍,通过从视觉化的图表中精确提取数据,为后续的复杂指标计算、图表类型转换等下游任务提供关键的数据基础。本研究构建了一个大规模中文条形图数据集,并分别实现基于规则与大模型微调的图表数据抽取方法,以提升中文图表数据逆向提取的准确性与鲁棒性。方法本研究构建了包含58 712幅多种类型中文条形图及其对应数据表格的数据集,含垂直/水平/堆叠条形图、多角度文本旋转等复杂场景,并衍生出图表文本识别、图例检测等专项数据集,为中文图表理解任务提供了高质量、多样化的基准数据支持。同时,提出了两种基准模型:基于规则的图表数据抽取方法和基于大模型微调的数据抽取方法。最后,本文设计并实现了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。结果基于规则的方法在中文条形图上取得了最佳的性能(69.97%);而基于大模型微调的方法在DVQA(understanding data visualization via question answering)数据集上的性能显著超越了先进方法UniChart(a universal vision-language pretrained model for chart comprehension and reasoning)(24.53%)和DePlot(one-shot visual language reasoning by plot-to-table translation)(41.29%),分别高出36.75%和19.99%,表明了该方法在跨语言场景下的卓越泛化能力。 实验表明,基于规则的方法展现出处理特定图表类型的最佳性能,尤其在处理复杂图表结构方面具有明显优势;而基于大模型微调的方法虽然在单一图表类型上表现略逊,但具备更强的泛化能力和鲁棒性。结论本文创建的中文条形图表数据集为中文图表理解任务提供了高质量、多样化的基准数据支持,并设计了一个集成多模型的图表数据抽取与类型转换系统,以验证方法的实际应用潜力。数据集开源地址https://doi.org/10.57760/sciencedb.j00240.00052,相关代码开源地址https://github.com/maqiuping59/ChineseChartExtract。  
      关键词:大语言模型微调;多模态数据抽取;中文图表数据集;视觉—语言联合学习;数据可视化逆向工程   
      159
      |
      341
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139327953 false
      更新时间:2026-04-16

      图像处理和编码

    • Transformer和多尺度特征融合的运动图像去模糊 AI导读

      张冀, 朱晓昀, 曹锦纲, 翟清剑
      2026, 31(4): 1004-1017. DOI: 10.11834/jig.250351
      Transformer和多尺度特征融合的运动图像去模糊
      摘要:目的运动图像去模糊是图像复原领域中一个具有挑战性的问题,在涉及复杂、非均匀模糊以及高频细节显著丢失的情况下,现有方法通常难以有效处理这些复杂性,导致图像复原结果不理想,表现出明显的模糊和细节缺失。提出了一种基于Transformer和多尺度特征融合的运动图像去模糊方法。方法采用编码器—解码器结构,在编码器部分,设计了结合卷积神经网络(convolutional neural network,CNN)和双重注意力机制的模块,以更好地提取图像特征;在特征融合部分,设计了多尺度特征融合模块,通过门控深度卷积前馈网络和特征增强模块,增强特征表达能力;在解码器部分,引入改进的Transformer模块,在前馈网络层将傅里叶变换融入特征提取过程,增强特征。结果在GoPro数据集和HIDE(human-centric indoor deblurring)数据集上与现有主流方法进行了对比实验,所提方法均取得了最优的去模糊效果。在GoPro数据集上,PSNR(peak signal-to-noise ratio)达到32.70 dB,SSIM(structural similarity index)达到0.954;在HIDE数据集上,PSNR达到30.53 dB,SSIM达到0.922。消融实验进一步验证了本文所提出的各个创新点在运动图像去模糊过程中的积极影响。结论本文提出的基于Transformer和多尺度特征融合的运动去模糊方法,在GoPro数据集和HIDE数据集的实验中,均显著优于现有主流方法,为运动图像去模糊任务提供了一种新的解决方案,展示了其在实际应用中的潜力。代码和模型获取网址:https://doi.org/10.57760/sciencedb.j00240.00170和https://github.com/zh7546/project.git。  
      关键词:Transformer;多尺度特征融合;运动去模糊;注意力机制;傅里叶变换   
      263
      |
      272
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139330207 false
      更新时间:2026-04-16
    • 融合事件相机与3DGS的鲁棒场景去模糊重建 AI导读

      樊越, 陆韬宇, 王逸群
      2026, 31(4): 1018-1028. DOI: 10.11834/jig.250290
      融合事件相机与3DGS的鲁棒场景去模糊重建
      摘要:目的针对现有基于神经渲染的去模糊场景重建方法在图像清晰度、新视角泛化能力以及计算效率等方面的局限性,提出一种融合事件相机数据与3D高斯泼溅(3D Gaussian splatting,3DGS)框架的新方法。方法一方面利用事件相机高时间分辨率优势,捕捉动态场景运动轨迹与亮度变化,弥补传统帧图像在动态场景下的信息缺失,为去模糊重建提供更丰富的时空约束;另一方面通过引入高斯形状属性变换网络,预测高斯体缩放、旋转等变换属性,动态调整其空间分布,显著缓解了原视角过拟合问题,同时避免新视角下因几何不匹配导致的模糊现象。结果实验结果表明,在合成数据集上,本文方法在PSNR(peak signal-to-noise ratio)、SSIM(structural similarity index)和LPIPS(learned perceptual image patch similarity)指标上优于对比方法,在真实数据集上,BRISQUE(blind/referenceless image spatial quality evaluator)值显著降低。与基于神经辐射场的方法相比,训练时间从48 h缩减至不足1 h,且实现了140 帧/s的实时渲染速度。结论实验结果验证了提出的方法在复杂场景下的去模糊能力和改善新视角渲染效果方面的有效性。  
      关键词:事件相机;3D高斯泼溅(3DGS);去模糊;三维重建;新视角合成   
      182
      |
      473
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 132131269 false
      更新时间:2026-04-16
    • 半监督学习下基于语义校正的图像修复 AI导读

      叶学义, 睢明聪, 谭瑞洁, 蒋德琦, 陈华华
      2026, 31(4): 1029-1043. DOI: 10.11834/jig.250305
      半监督学习下基于语义校正的图像修复
      摘要:目的针对现有语义引导图像修复方法因其单向性而存在的潜在错误累积问题,提出交互式图像修复框架,通过在图像修复与语义分割模型之间构建双向反馈与校正机制,提升修复质量。方法构建“初始修复—半监督语义重校正—精细修复”三阶段框架,核心为“半监督语义重校正”模块:利用初始修复结果向语义分割模型反馈信息,结合跨图像语义一致性来校正语义分割结果;引入半监督学习机制,融合有标签和无标签数据进行语义分割模型的训练,减少对真实标签的依赖。结果在公开的CelebA-HQ(CelebA-high quality)数据集和Cityscapes数据集上进行实验,并与现有先进方法进行比较。实验结果表明,该方法在学习感知图像块相似度(learned perceptual image patch similarity, LPIPS)、峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity index measure, SSIM)指标上综合表现更优:在CelebA-HQ数据集上,相较于MDTG(mutual dual-task generator)算法,本文方法的LPIPS降低5.88%、PSNR提升0.52%、SSIM提升0.22%;在Cityscapes数据集上,相较于MDTG算法,本文方法的LPIPS 降低 6.15%、SSIM 提升 1.58%、PSNR 提升 0.70%。消融实验的结果进一步验证了校正机制的有效性。结论该项工作成功地在修复和语义分割模型之间建立了交互式反馈机制,显著提高了图像修复的质量;尤其在处理复杂纹理和语义偏差时,表现出较好的修复效果;同时半监督学习策略的引入有效减少了对人工标注语义图的依赖。  
      关键词:图像修复;语义分割;半监督学习;跨图像语义一致性;生成对抗网络(GAN)   
      102
      |
      399
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 132131161 false
      更新时间:2026-04-16
    • 自适应特征融合的超分辨率重建循环网络 AI导读

      刘紫阳, 杨勇, 黄淑英, 王书昭
      2026, 31(4): 1044-1060. DOI: 10.11834/jig.250332
      自适应特征融合的超分辨率重建循环网络
      摘要:目的深度卷积神经网络在单幅图像超分辨率(single image super-resolution,SISR)领域取得显著进展。但过度依赖加深网络结构易造成特征冗余与利用不足,限制细节重建。为此,提出一种基于自适应特征融合的循环网络(recursive network based on adaptive feature fusion,AFFRN),有效提取并融合不同深度的图像特征,实现更丰富的纹理重建。方法网络中,通过构建一个自适应特征融合模块(adaptive feature fusion module,AFFM)实现不同深度特征的有效融合。在AFFM中,设计了3个不同结构的分支:1)细节注意力分支(detail attention branch,DAB),用于捕捉显著细节特征;2)细节探索分支(detail exploration branch,DEB),负责挖掘深层特征信息;3)权重分配分支(weight assignment branch,WAB),自适应地为DAB和DEB提取的特征分配动态权重,从而实现更加精细的特征融合。同时,引入循环机制,将AFFM在每次迭代中提取的特征反馈用于下一次的迭代中,逐步提升特征表达能力。结果在5个公开测试数据集上的评估结果表明,所提出的方法在不同放大倍数下取得了不同程度的提升。当放大倍数分别为2、3和4时,在Urban100数据集上相比先进的自适应特征选择调制网络(adaptive feature selection modulation network,AFSMNet),峰值信噪比(peak signal-to-noise ratio,PSNR)分别提升0.75 dB、0.53 dB和0.54 dB,重建图像在视觉上具有明显优势。结论所提出的AFFRN网络通过结合循环机制与基于动态权重分配的多分支特征融合,实现了更丰富的细节重建,获得更高质量的超分辨率重建结果。  
      关键词:图像超分辨率重建;循环网络;自适应特征融合;细节注意力;权重分配   
      162
      |
      307
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133635926 false
      更新时间:2026-04-16
    • 面向尺度自适应纹理滤波的动态侧窗口滤波核预测网络 AI导读

      刘春晓, 高铭志, 楼菊青, 王勋
      2026, 31(4): 1061-1077. DOI: 10.11834/jig.240441
      面向尺度自适应纹理滤波的动态侧窗口滤波核预测网络
      摘要:目的现有纹理滤波算法难以在保持小尺度或弱梯度结构的同时平滑大尺度或强梯度纹理,而且用于算法训练的合成图像和真实场景图像存在领域偏移。为实现尺度自适应的纹理滤波,提出了一种动态侧窗口滤波核预测网络。为提高算法在真实场景图像上的泛化性能,制作了一个混合合成纹理滤波数据集。方法本文算法分为两个阶段,首先基于Transformer和卷积设计编码—解码模块,生成结构区域分割图和过平滑图,然后基于引导滤波和侧窗口滤波设计了滤波核预测模块,在结构和纹理信息的引导下,预测8组动态侧窗口滤波核的采样点和权重值,分别对过平滑图采样和滤波,最后线性融合,获得了最终滤波结果。本文数据集混合了在分割区域填充多种纹理的填充子数据集和将结构背景融合单种纹理的融合子数据集两部分。结果实验在6个数据集上与18种算法进行比较。相比于性能第2的算法,本文算法在峰值信噪比和结构相似性上均有提升,在视觉效果中增强了细窄结构并减少了纹理残留和颜色不均现象。本文数据集降低了算法混淆真实结构和纹理的概率。结论本文算法综合Transformer的全局依赖捕捉和卷积的低级特征提取优势,借助侧窗口滤波核增强结构保持能力,引入动态采样点和权重值机制实现尺度自适应感知,利用引导信息平衡了对大尺度纹理的平滑和对小尺度结构的重建。本文数据集模拟真实场景图像中的结构和纹理模式,提升了算法对真实结构和纹理的识别以及滤波效果。数据集已开源至https://www.kaggle.com/datasets/klase01/hstfdataset。  
      关键词:纹理滤波;尺度自适应;数据集生成;动态侧窗口;引导滤波;Transformer   
      5
      |
      1
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 154627937 false
      更新时间:2026-04-16
    • 毛可权, 姚杰, 余国生, 丁丹丹
      2026, 31(4): 1078-1089. DOI: 10.11834/jig.250324
      内存—速度—质量协同优化的移动端实时神经网络环路滤波方法
      摘要:目的基于神经网络的方法在视频编码中展现出显著优势,极大提升了压缩效率。随着神经网络加速器成为移动设备标配,如何实现面向移动端的高效、轻量化部署成为亟待解决的问题。本文旨在提出一种既能提升编码效率,又具备高部署友好性的轻量级神经网络环路滤波方法,以解决现有模型在移动端部署中面临的高内存占用、推理速度低以及算子兼容性差等关键问题,从而推动神经网络编码技术在移动端的落地应用。方法本文提出了一种基于结构重参数化与特征压缩融合模块的轻量级环路滤波方法。采用U-Net架构并结合重参数化卷积模块,在保证模型性能的同时大幅降低模型复杂度。此外,针对U-Net跳跃连接造成的内存瓶颈,设计了特征压缩融合模块,通过多尺度特征的空间对齐与通道压缩,生成更紧凑的特征表示,在降低内存占用的同时,增强滤波质量。结果通过特征压缩融合模块,将模型峰值内存阶段的特征图内存占用降低93.75%,显著减少内存消耗。将所设计的滤波模型嵌入AV1(AOMedia Video 1)编码器中,实验结果表明,相比传统的AV1基准环路滤波方法,所提出的模型在帧内编码和帧间编码模式下分别获得了-5.09%和-4.32%的平均BD-Rate增益。进一步地,将所设计的模型部署在骁龙8 Gen1的神经网络处理器上,针对尺寸为1 920 × 1 080像素的高清视频,推理速度可达77帧/s,峰值内存仅55 MB。结论通过降低模型复杂度和所设计的特征压缩融合模块,显著降低了内存占用,实现了推理速度以及重建质量的协同优化,能够满足移动端实时处理需求。  
      关键词:环路滤波;特征压缩;移动端部署;AV1;结构重参数化;神经网络模型优化;低内存占用;低延迟   
      93
      |
      221
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 132130947 false
      更新时间:2026-04-16
    • 多视角视觉—语言交互的多模态媒体内容篡改检测与定位 AI导读

      刘凤阳, 张玉金, 吴飞
      2026, 31(4): 1090-1107. DOI: 10.11834/jig.250414
      多视角视觉—语言交互的多模态媒体内容篡改检测与定位
      摘要:目的错误信息的传播已成为数字时代亟待解决的重大挑战。随着多媒体技术的快速发展,网络空间中视觉与文本模态相结合的虚假内容呈现泛滥态势。尽管现有研究在多模态媒体篡改检测与定位方面取得了一定进展,但普遍存在跨模态层次化信息交互不足、篡改区域定位精度有限等关键问题。针对上述挑战,提出了一种基于多视角视觉—语言信息交互的篡改检测框架。方法首先,通过全局与局部双视角特征嵌入,构建层次化篡改对比学习机制,实现跨模态细粒度语义对齐,有效捕捉篡改区域的语义不一致性;其次,创新性地设计了伪造感知交互模块,集成多尺度特征提取与频域特征融合策略,显著提升了对不同粒度篡改特征的定位能力;此外,引入跨模态门控融合模块,采用动态权重分配策略优化模态间信息交互,从而增强模型在多模态深度伪造检测及细粒度分类任务中的判别能力。结果实验结果表明,在相同实验环境下,本模型相较基于分层推理的HAMMER(hierarchical multi-modal manipulation reasoning Transformer)框架,在图像深度伪造定位任务中IoU75(intersection over union)指标提升6.41%,文本篡改定位任务的召回率与F1分别提高5.63%和2.01%。与VLP-GF(visual-language pre-training with gate fusion)框架相比,本模型在多模态多任务学习的综合评估中展现出全面性能优势。结论本文提出的多视角视觉—语言信息交互模型相较于其他模型,在多模态深度伪造检测与定位任务中表现出显著优越性,为多媒体内容安全领域提供了新的技术解决方案。  
      关键词:多模态深度伪造检测;视觉—语言交互;特征融合;篡改定位;跨模态交互   
      149
      |
      295
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133635023 false
      更新时间:2026-04-16

      图像分析和识别

    • 融合负教学和负学习的域自适应目标检测 AI导读

      杨立然, 王佳琪, 翟永杰, 苏攀
      2026, 31(4): 1108-1124. DOI: 10.11834/jig.250264
      融合负教学和负学习的域自适应目标检测
      摘要:目的域自适应目标检测旨在解决检测模型在不同域数据间迁移应用时面临的性能下降问题。目前流行的基于平均教师框架的域自适应目标检测方法多采用基于类别置信度的单向评估机制。当伪标签存在噪声时,学生模型会沿错误方向更新参数,导致教师模型累积误差,最终制约模型的性能。为此,提出融合负教学和负学习策略的域自适应目标检测方法(negative teaching and negative learning,NTNL)。方法不同于已有的平均教师框架方法,本文方法NTNL采用双向评估机制。一方面引入负学习方法,指导学生模型判别伪标签的互补标签,使学生模型在噪声伪标签的影响下仍能构建鲁棒的决策边界;另一方面添加负教学策略,降低教师模型对困难样本做出错误分类的概率,提升伪标签的可靠程度与质量。此外,提出一种自适应加权机制,通过动态调节负教学权重,平衡不同学习任务中的负教学尺度,增强模型的泛化能力。结果在3个公开基准跨域目标检测任务上验证本文方法的有效性,与其他先进方法相比,平均精度均值(mean average precision,mAP)分别提升了8.0%、4.7%和1.7%。消融实验以及特征可视化等进一步验证了本文方法的有效性。结论提出的NTNL通过引入负向思维,减轻了噪声伪标签的影响,在天气条件适应、城市道路跨风格适应和真实至插画风格适应3类典型场景中都取得了优越的性能。  
      关键词:域自适应;目标检测;负教学;负学习;自适应加权机制   
      169
      |
      392
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133635601 false
      更新时间:2026-04-16
    • 融合小波卷积与频域注意力的小目标检测 AI导读

      刘旭, 宋佩博, 包芳勋, 杜宏伟
      2026, 31(4): 1125-1141. DOI: 10.11834/jig.250293
      融合小波卷积与频域注意力的小目标检测
      摘要:目的无人机拍摄图像存在小目标数量多、易受恶劣天气等噪声污染的特点,针对无人机拍摄图像的小目标检测技术在军用领域和商用领域都发挥着重要作用。然而,现有的目标检测方法在定位小目标方面仍然存在检测精度低的问题。针对这些问题,提出基于YOLOv8(you only look once)的融合小波卷积与频域注意力的改进模型(an enhanced YOLO model integrating wavelet convolution and frequency-domain attention, YOLO-WF)。方法首先,在骨干网络中构建了基于傅里叶频域增强的自注意力机制与门控机制模块(Fourier-based self-attention convolution module,CFSA)增强图像的特征,提升模型对关键信息的提取能力;其次,在特征提取模块设计了基于二级分解低频增强小波变换卷积(low-frequency enhanced wavelet transform convolution,LOWTC)模块,利用小波变换的多尺度特性扩展感受野,有效缓解传统卷积长距离依赖性不足的问题;最后,在提取浅层特征后增加针对小目标的检测头,提升模型对小目标的检测能力。结果在VisDrone2019-DET(vision-based drone detection and tracking 2019—detection)、UAVDT(unmanned aerial vehicle benchmark object detection and tracking)和CARPK(car parking lot dataset)数据集上实验,结果表明提出的YOLO-WF模型比基线模型的APs(average precision of small objects)指标分别提高5.5%、3.08%和6.8%,达到19.9%、38.54%和33.3%。AP50(AP at IoU threshold 0.50)和APm(AP of medium objects)指标也均有提升,以VisDrone2019-DET为例,AP50和APm分别达到47.1%和40.3%,相比基线模型分别提高3.5%和3.0%,且参数量下降0.4%。结论YOLO-WF通过频域—小波融合策略,显著提升了中小目标的检测精度,且未引入额外存储负担,可直接迁移至其他航拍检测任务。  
      关键词:深度学习;小目标检测;基于傅里叶频域增强的自注意力机制与门控机制模块 (CFSA);低频增强小波变换卷积(LOWTC);YOLOv8   
      257
      |
      403
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139327765 false
      更新时间:2026-04-16
    • 面向RGB-T目标跟踪的三分支多阶段融合网络 AI导读

      王炫, 张大伟, 阳诚砖, 王志刚, 陈灏, 郑忠龙
      2026, 31(4): 1142-1155. DOI: 10.11834/jig.250256
      面向RGB-T目标跟踪的三分支多阶段融合网络
      摘要:目的目标跟踪是指在一段视频序列中持续跟踪某个目标,单一模态来源限制了跟踪性能的提升,RGB-T (RGB-thermal)目标跟踪通过对可见光与热红外信息的融合来提升精度。但现有的算法往往侧重于模态间融合而忽略了局部与全局特征的融合,导致跟踪性能下降。本文提出一种基于多阶段融合的三分支RGB-T目标跟踪网络,在不同阶段对局部特征与全局特征分别建模,以促进多模态特征的融合与广泛传播。方法设计了一种包含纯卷积分支的三分支多阶段融合网络结构,通过在网络的不同阶段采用不同的融合策略实现特征融合与增强。卷积分支通过卷积融合模块(convolutional fusion module,CFM)来提取和融合局部信息,并利用跨层连接的方式将其传播至深层网络以避免局部特征丢失。同时使用部分参数共享的注意力融合增强模块(attention fusion enhancement module,AFEM)来融合全局特征,从而缓解不同模态数据分布差异造成的影响。通过多阶段的全局和局部特征融合,本文方法能够提取更有效的多模态特征表示,以确保鲁棒的目标跟踪。结果在3个常用跟踪数据集上的对比实验表明,所提方法在LasHeR数据集上的PR、NPR和SR相比于基线算法分别提升了2.4%、1.8%和1.5%,在大部分挑战属性上均有明显的性能提升,同时在RGBT210与RGBT234数据集上依然取得先进的跟踪结果。消融实验表明CFM、AFEM以及三分支结构的有效性。结论本文提出的多阶段融合三分支网络能够对跨模态特征以及局部和全局特征进行更加充分的融合,在单一模态缺陷时能够更好地利用可靠模态的细节信息辅助决策,显著提升了RGB-T目标跟踪性能。  
      关键词:目标跟踪;注意力;卷积;多模态融合;三分支网络   
      257
      |
      338
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 132131061 false
      更新时间:2026-04-16
    • 赵珞君, 刘小同, 吴庆波, 孟凡满
      2026, 31(4): 1156-1171. DOI: 10.11834/jig.250327
      从联想到凝练:可伸缩思维链引导的少样本连续教学行为识别
      摘要:目的教学行为识别在智慧课堂领域有着广泛的应用,但在实际教学场景中,随着各种教学改革的推进,新型的教学行为会不断衍生出来。同时由于标注的成本问题,新型教学行为的标注样本量相当有限。在这样的情况下,如何保证模型具有少样本学习能力,成为该任务的主要挑战。现有的少样本连续学习算法大多基于预训练的视觉语言模型(如CLIP(contrastive language-image pre-training)),通过微调主干网络进行图像与文本特征的匹配。然而,这些研究往往忽略了如“听讲”、“写字”等行为标签本身就含有丰富的语义信息。为此,提出了一种可伸缩思维链引导(scalable chain-of-thought-guided,SCOTG)的少样本连续教学行为识别算法。方法具体而言,首先通过思维链生成有关行为标签的详细描述性文本,对行为标签的语义进行扩展挖掘,之后提取(主,谓,宾)结构的三元组知识表示,凝练结构化知识,从而更精准地反映出行为中的关键实体和关系,帮助模型更好地理解识别行为动作。SCOTG算法设计了多层次跨模态匹配机制,将不同层次的三元组文本特征与图像的多层视觉特征进行相似度匹配计算。与传统方法相比,SCOTG算法冻结了预训练视觉语言模型的主干网络,只对行为标签进行伸缩处理,通过提示学习训练视觉语言模型,降低了计算复杂度。结果实验在具有32个行为类别的教室场景图像数据集ARIC(activity recognition in classroom)上与7种方法进行了比较,在3-way 5-shot任务设置下,相比于性能第2的模型,在所有任务中平均准确率提升了1.98%,最后任务中的平均准确率提升了1.36%。结论提出的SCOTG算法有效提高了模型对于教学行为的理解,增强了模型在少样本场景下对新型教学行为的识别能力。代码已开源至https://github.com/2002zlj/scotg。  
      关键词:教学行为识别;少样本连续学习;思维链;大语言模型(LLM);视觉语言模型(VLM);多层次跨模态匹配   
      141
      |
      426
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 134759078 false
      更新时间:2026-04-16
    • 差异核型分辨率染色体无源域适应分类 AI导读

      刘辉, 熊链, 范心宇, 张林, 齐洪钢
      2026, 31(4): 1172-1183. DOI: 10.11834/jig.250271
      差异核型分辨率染色体无源域适应分类
      摘要:目的染色体分类是核型分析的关键步骤。然而,由于显带技术、采集设备等不同,染色体显微图像呈现特征分布差异,导致不同数据集间的知识迁移受限,其中以显带数目不同导致的核型分辨率差异影响最为显著。方法提出双重置信度伪标签引导的渐进式差异核型分辨率染色体无源域适应分类方法(bi-confidence pseudo label guided source-free domain adaptation for chromosome classification with karyotype resolution discrepancy, BCPL-SFDA),重点解决差异核型分辨率染色体的知识迁移和因染色体固有的类内差异大、类间差异小典型特点带来的分类挑战。具体地,该方法采用双分支设计框架,保留源域深层语义先验和浅层纹理、形态表征的同时,实现源域与目标域特征空间的渐进式对齐,可有效缓解核型分辨率差异导致的知识迁移难题;同时,提出双重置信度类中心伪标签策略,结合高、低置信度样本,增强模型对易混淆样本的区分能力。结果在不同核型分辨率的公开数据集CIR-Net(chromosome based on inception-ResNet)和私有数据集Private上开展跨域分类实验,与10种先进的域适应方法相比取得了显著的性能提升。其中,在CIR-Net→Private跨域任务上准确率较次优算法DANN(domain adversarial training of neural network)提升了9.97%,在Private→CIR-Net任务上较次优算法H-SRDC(a hybrid model of structurally regularized deep clustering)提升了1.17%。同时通过消融实验验证了双分支设计框架和伪标签策略的有效性。结论BCPL-SFDA方法不仅能有效提高不同核型分辨率染色体图像之间的迁移识别能力,还能优化染色体类内类间特征的提取,进而提升其无源域适应分类的性能。  
      关键词:染色体分类;无源域适应;差异核型分辨率;显微图像;隐私保护   
      94
      |
      364
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 132131103 false
      更新时间:2026-04-16

      图像理解和计算机视觉

    • 用于红外与可见光图像融合的多层级Mamba网络 AI导读

      杨天宇, 霍宏涛, 郭宝峰, 郑博文, 刘晓文
      2026, 31(4): 1184-1200. DOI: 10.11834/jig.250243
      用于红外与可见光图像融合的多层级Mamba网络
      摘要:目的现有融合方法普遍存在多层级语义信息的表征退化问题,且缺乏有效的跨层级特征交互机制,导致浅层细节与深层语义信息在融合过程中难以完全耦合。此外,基于Transformer的融合方法在全局特征建模的过程中需要消耗大量计算资源。针对上述问题,提出了一种用于红外与可见光图像融合的多层级Mamba网络。方法融合网络通过构建多层级特征框架,对多分辨率源图像进行全局特征建模与跨层级特征交互,实现了跨模态图像细粒度语义信息的有效保留。同时,特征编码阶段设计F-Mamba模块,在维持线性复杂度的同时,实现了全局特征提取。此外,模型通过设计跨层级特征聚合模块,实现了不同层级间视觉特征与语义信息的深度对齐。结果实验在MSRS(multispectral road scenarios)、LLVIP(visible-infrared paired dataset for low-light vision)和RoadScene数据集上与13种传统以及深度学习融合方法进行比较。主观评价方面,融合结果在目标细节特征恢复以及视觉质量方面具有显著优势;客观指标方面,在MSRS数据集上本文算法在信息熵、空间频率、视觉保真度、峰值信噪比、平均梯度和边缘强度6项指标上取得最优值,相比于对比方法最优值分别提升了3.03%、1.56%、15.89%、7.26%、2.61%和1.62%。在LLVIP数据集上本文算法在空间频率、峰值信噪比、平均梯度和边缘强度4项指标上取得最优值,相比于对比方法最优值分别提升了6.42%、0.45%、6.47%和7.23%。在RoadScene数据集上本文算法在平均梯度和边缘强度2项指标上仍取得最优值。消融实验验证了本文融合网络各组件的有效性。此外,运行效率对比实验和语义分割实验,进一步验证了本文算法在计算效率和深层语义信息保留方面的优势。结论提出了基于Mamba的多层级红外与可见光图像融合网络,在源图像多层级语义特征保留、目标细节特征恢复以及计算效率等方面均具有优越性。  
      关键词:图像融合;多层级;Mamba;特征聚合;深度学习   
      147
      |
      384
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139327834 false
      更新时间:2026-04-16
    • 融合核心集优化与原型增强扩散的数据集蒸馏 AI导读

      吴钦浩, 徐明, 包先雨, 郑文丽, 喻泓浩, 邹海涛, 丘嘉荣
      2026, 31(4): 1201-1215. DOI: 10.11834/jig.250387
      融合核心集优化与原型增强扩散的数据集蒸馏
      摘要:目的数据集蒸馏通过合成紧凑且高效的训练数据,降低了模型训练的计算与存储开销。然而,当前主流方法通常基于双层优化框架,过度追求性能指标而忽视了实际应用中的计算成本、跨场景泛化能力以及真实数据中普遍存在的规模差异与分布不平衡等问题,限制了其在实际任务中的适用性。为此,提出一种融合核心集优化与原型增强扩散的数据集蒸馏方法,在解耦蒸馏架构的基础上进行原始数据集的预处理和蒸馏数据的合成。方法解耦蒸馏架构将传统的双层优化流程解耦为可管理的数据处理和合成阶段,降低计算开销,实现对大规模高分辨率数据集的蒸馏;提出改进的原型增强潜在扩散模型PA-LDM(prototype-augmented latent diffusion model)进行蒸馏数据的合成,在潜在空间扩散中引入原型学习技术,提升蒸馏效果与数据泛用性;设计一个自适应核心集优化模块ACOM(adaptive coreset optimization module)对原始数据集进行预处理,结合核心集选择与数据增强技术,自适应地对数据集的规模与分布进行优化。结果将本文方法与MTT(trajectory-matching based methods)等8种蒸馏方法进行了比较,并在3个小规模数据集和4个大规模数据集上进行了评估,本文方法在各个数据集的不同IPC(image per class)蒸馏场景中基本优于其他蒸馏方法。在小规模数据集蒸馏上,本文方法在IPC为10和50条件下的蒸馏数据Top-1指标最高能达到56.4%和73.5%,对比常用的如DSA(differentiable siamese augmentation)和SRe2L(squeeze, recover and relabel)经典蒸馏方法,平均性能分别提升8.3%和27.5%;在大规模数据集蒸馏上,本文方法在IPC为10、50和100条件下的蒸馏数据中最高能达到57.6%、84.9%和90.6%,相较于先进的解耦蒸馏方法,平均性能也有0.4%~3.0%的提升。在取得良好蒸馏性能的同时,本文方法对蒸馏数据的合成效率也有2.16倍以上的提升。结论本文方法在不同规模的数据集蒸馏任务中,都能达到接近或优于现有蒸馏方法的性能,在保持数据高泛用性的同时,蒸馏效率也基本优于现有方法,实现将数据集知识压缩进模型所需的时间减少49%的同时,对性能的影响在0.5%以下。  
      关键词:数据集蒸馏;潜在扩散模型;原型学习;核心集选择;数据增强   
      163
      |
      367
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129916821 false
      更新时间:2026-04-16
    • 面向工地风险隐患识别的大模型检索增强框架 AI导读

      李嘉威, 杨成业, 张尧臣, 孙玮琳, 孟雷, 孟祥旭
      2026, 31(4): 1216-1226. DOI: 10.11834/jig.250333
      面向工地风险隐患识别的大模型检索增强框架
      摘要:目的工地风险隐患识别旨在通过自动化技术提升施工现场安全管理水平。现有基于大语言模型的研究分为两类:一是利用图文匹配进行协同推理,但对复杂隐患特征捕捉不足;二是通过专业数据集进行指令微调或多轮对话引导,但存在训练成本高、泛化能力差的问题。方法提出一种基于相似案例检索增强的隐患识别方法,通过提示微调技术动态融合外部知识库与检索案例上下文,设计有效的图像检索策略,解决了大模型因领域知识缺失与特征关联弱化导致的误判问题。该方法包括检索库、图像相似度检索和大模型检索增强3个模块,实现了无训练优化下的高效识别。结果实验基于真实施工数据,在多种大模型上测试该方法并进行系统性评估,其中 GLM-4V(general language modelvision-4) 的识别正确率提升至 50%,较基线方法提高 35.49%,且在多数隐患类别上均表现出性能增益;进一步通过消融实验验证关键模块的有效性,引入学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)算法与图像检索模块中的对比语言—图像预训练(contrastive language-image pretraining,CLIP)算法进行对比。结果表明,所构建的图像计算检索策略具备优越性。结论本文提出的基于相似案例检索增强方法显著提升了大模型对工地风险隐患识别的准确率与上下文理解能力,在多类别隐患场景下均表现出良好的泛化性能,为施工现场安全风险智能检测提供了新的理论支撑与技术路径。  
      关键词:大语言模型(LLM);风险隐患检测;多模态识别;检索增强生成;提示微调   
      137
      |
      314
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133634930 false
      更新时间:2026-04-16
    • 跨层级响应融合与联合损失优化的高保真线稿提取模型 AI导读

      鲁方博, 罗万闯, 乔永源, 葛贤钰, 贺鹏, 王美丽
      2026, 31(4): 1227-1240. DOI: 10.11834/jig.250223
      跨层级响应融合与联合损失优化的高保真线稿提取模型
      摘要:目的线稿提取是指利用边缘检测技术从原始图像中提取出具有语义连续性的轮廓和边缘信息,为动漫上色、风格迁移等下游任务提供结构化输入。针对现有线稿提取模型在复杂纹理场景下,提取结果仍存在线条不纯净、背景伪影等问题,提出基于跨层级响应融合与联合损失优化的高保真线稿提取模型 CLEAR-Net(cross-level edge aggregation response network)。方法引入反卷积改进 U2-Net 提取图像不同层级的响应;提出动态侧边聚合模块实现跨层级响应优化整合;针对复杂纹理场景下所产生的背景伪影问题,提出了一种新的监督机制——背景抑制损失,对背景伪影进行像素级动态惩罚;设计联合损失函数,联合背景抑制损失与改进的交叉熵损失,在抑制背景伪影的同时优化生成线条的质量。为构建可靠的评估基准,联合专业艺术团队构建首个高精度手绘线稿数据集 ArtLine-2K,包含 2 000 组渲染图—线稿对,并经数据增强扩充到 10 000 对,解决了当前线稿提取任务中高质量标注数据缺乏的问题。实验在 ArtLine-2K 数据集上与先进方法进行了比较。结果实验结果表明,CLEAR-Net 生成结果与真实标注的差异肉眼难以区分,其核心精度指标:均方误差(mean squared error,MSE)和平均绝对误差(mean absolute error,MAE)分别为0.000 247和0.004 810,与真实标注的误差达到亚像素精度(MAE < 0.005),在 ArtLine-2K 上取得了突破性能。生成结果经专业画师评估,可以直接进行二次创作,同时也在 ArtLine-2K 上进行了消融实验以验证提出方法的有效性。结论CLEAR-Net 模型不仅优化整合了原始图像各层级的响应,而且提出了新的监督机制,解决了线稿提取任务中线条不纯净、背景伪影等问题。  
      关键词:边缘检测;线稿提取;背景伪影抑制;层级响应融合;动态特征聚合   
      136
      |
      240
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139327870 false
      更新时间:2026-04-16
    • 求解参数曲面上测地线初值问题的几何方法 AI导读

      朱子建, 傅孝明
      2026, 31(4): 1241-1255. DOI: 10.11834/jig.250426
      求解参数曲面上测地线初值问题的几何方法
      摘要:目的曲面上测地线的初值问题不仅是微分几何中的基础性课题,也在几何建模、图形处理及科学计算等多个领域中发挥着关键作用。现有几何方法通过结合测地线的切向量与曲率向量,并借助泰勒展开式逐步构造测地路径。虽然在一定程度上简化了计算,但在计算精度与计算效率方面仍存在不足。为提升几何方法的性能,本文进行了一些改善与提升。方法基于测地线在曲面上一点处的曲率向量与曲面在该点的法向量平行的几何性质,结合以弧长为参数的曲线具有单位切向量的约束,推导出一种新的曲率向量计算方法,该方法在简化计算流程的同时提高了计算精度,从而增强了整个几何算法的精度与效率;给出了改进后几何方法的相关误差估计。结果实验结果表明,与一种较先进的几何方法相比,所提方法在计算时间上缩短约25%,而计算精度提升了1~3个数量级。这意味着若要达到相同精度,对比方法所需时间至少为本文方法的13倍。与一种经典数值方法相比,所提方法在时间上节省约75%,在精度上各有优劣,但对比方法的计算精度在不同情况下波动较大,而本文方法的计算精度则更加稳定。结论所提方法在保持原有几何方法计算稳定性的基础上,进一步提升了计算精度与计算效率,实现了精度、效率与稳定性的兼顾,从而展现出更高的实际应用价值。  
      关键词:测地线;曲率向量;几何;参数曲面;初值问题   
      129
      |
      285
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133636003 false
      更新时间:2026-04-16
    • 融合姿态扩散先验与多视图一致性的着装人体生成 AI导读

      张渊杭, 刘骊, 付晓东, 刘利军, 彭玮
      2026, 31(4): 1256-1271. DOI: 10.11834/jig.250367
      融合姿态扩散先验与多视图一致性的着装人体生成
      摘要:目的针对单视图着装人体生成中不可见区域纹理缺失、局部细节模糊以及宽松服装几何生成困难等关键问题,提出一种融合姿态扩散先验与多视图一致性的生成方法。方法首先,采用人体姿态估计算法提取25个关键点并将其编码为高斯热图,结合人体掩码与UV映射构建姿态特征向量,指导潜在扩散模型生成不可见视角的二维扩散图像;其次,将SMPLX(skinned multi-person linear model expressive)模板的法线信息与输入图像和生成的扩散图像进行对应视角的特征融合,并输入跨视角法线一致性网络,通过多视图一致性约束机制提取跨视角的三维空间特征;最后,融合SMPLX人体模板的体素化特征,输入分布预测网络进行空间占用概率估计,并在学习的概率分布中采样,将三维特征、体素化特征与采样结果输入占用预测网络,实现三维着装人体生成。结果在THuman2.0(Tsinghua human 2.0 dataset)与CAPE(clothed auto-person encoding)公开基准数据集上的定量评估表明,所提方法的倒角距离(chamfer distance)和点到面距离(point-to-surface distance)在THuman2.0数据集上较最优对比方法分别降低6.27%和5.74%,在CAPE数据集上平均降低8.67%和2.38%。结论本文提出的融合姿态扩散先验与多视图一致性的单视图三维着装人体生成方法,能够有效恢复局部纹理,并准确生成褶皱细节丰富和宽松服装等复杂拓扑结构的着装人体模型。  
      关键词:单视图着装人体生成;姿态扩散先验;多视图一致性约束;分布预测网络;概率分布   
      119
      |
      331
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129893253 false
      更新时间:2026-04-16

      遥感图像处理

    • 选择注意力与方向特征增强的遥感图像语义分割 AI导读

      潘子哲, 高峰, 宫传政, 甘言海, 董军宇
      2026, 31(4): 1272-1284. DOI: 10.11834/jig.250317
      选择注意力与方向特征增强的遥感图像语义分割
      摘要:目的遥感图像语义分割是遥感解译的核心任务,但现有模型普遍面临两大挑战:一是不同尺度特征融合时存在信息不平衡,高层语义与低层细节的有效融合不足;二是传统卷积难以有效提取道路、河流等具有强方向性的线性地物特征,导致分割结果边缘模糊、结构不连续。为解决上述问题,提出一种基于选择注意力与方向特征增强的遥感图像语义分割模型。方法首先,构建了一种新颖的选择性交叉注意力机制,该机制采用跨层级查询与Top-k选择策略,使高层语义特征能够主动地从低层特征中高效筛选并融合最相关的细节信息,有效缓解了多尺度信息不平衡问题并提升了计算效率;其次,设计了一个精巧的方向性特征增强模块,该模块采用两级并行架构,在多个并行的多尺度分支内部,进一步通过并行的水平与垂直一维卷积独立地提取并自适应融合方向性特征,显著增强了模型对线性地物结构的感知能力。结果在公开的ISPRS Vaihingen和Potsdam基准数据集上进行了实验。在Vaihingen数据集上,所提模型的平均交并比达到84.68%,相比于性能第2的CMTFNet(CNN and multiscale Transformer fusion network)模型提升了0.94%;在Potsdam数据集上,平均交并比达到86.84%。特别是在线性地物(如汽车、建筑)和细粒度类别(如低矮植被)的分割上,精度和边界完整性均显著优于现有主流方法。消融实验也验证了所提出的选择性注意力和方向性增强两个核心模块的有效性,二者协同作用使模型性能相较于基线提升了3.43%。结论所提出的模型通过创新的选择性注意力和方向性特征增强设计,协同解决了遥感图像分割中的多尺度信息融合不平衡和方向性特征提取不足的核心难题,在提升分割精度的同时,改善了线性地物的连续性和小目标的辨识度,为复杂场景下的遥感图像精细化解译提供了一种鲁棒且高效的解决方案。  
      关键词:遥感图像处理;图像语义分割;选择性注意力;方向性特征增强;注意力机制;多尺度特征融合;卷积神经网络(CNN);编码器—解码器   
      145
      |
      421
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133634854 false
      更新时间:2026-04-16
    0