最新刊期

    针对多光谱遥感应用中数据获取与标注难题,以及基础生成模型适配困境,专家提出参数高效适配扩散模型,引入遥感光谱物理约束与文本感知编码机制,实现RGB到四波段低成本迁移,提升光谱保真度与语义对齐度,为遥感解译数据稀缺问题提供数据增强方案。

    纪璎芮, 王晨昊, 陈静波, 岳安志, 席智浩, 陈建胜

    DOI:10.11834/jig.260089
    img
    摘要:针对深度学习在多光谱遥感应用中面临的数据获取困难与标注成本高昂问题,以及现有基础生成模型难以直接适配多光谱数据且从零训练计算开销巨大的现状,提出了一种面向多光谱遥感图像生成的参数高效适配扩散模型。该方法采用参数高效微调策略,通过在冻结的预训练扩散模型中嵌入各种低参数微调模块,不同于通用可控生成方法仅以数据驱动方式建模图像,本文在适配训练中显式引入遥感光谱物理约束,并针对地物语义-空间映射设计了文本感知编码机制。实现了从RGB图像域向四波段(RGB+NIR)图像域的低成本迁移,不同微调模块综合了光谱与空间纹理适配。在此基础上,引入基于归一化植被指数(Normalized Difference Vegetation Index, NDVI)和归一化水体指数(Normalized Difference Water Index, NDWI)的物理一致性损失,强制约束红光与近红外波段间的光谱相关性。此外,提出文本感知空间语义编码机制,利用语义分割掩膜实现对地物空间布局的精确控制。在FLAIR、Five-Billion-Pixels及IRSAMap等数据集上的实验表明,与ControlNet、T2I-Adapter等主流方法相比,本文方法在光谱保真度与语义对齐度上均有所提升,生成的近红外波段具备明确的物理意义。此外,利用生成数据辅助训练在下游开放词汇分割任务上取得了一定的精度提升,验证了该方法作为数据增强手段的可行性。本框架有效解决了RGB基础模型向多光谱遥感领域迁移时的通道不匹配与物理特征丢失问题,实现了低资源消耗下的高质量、可控多光谱数据生成,为缓解遥感解译任务中的数据稀缺问题提供了有效的数据增强方案。  
    关键词:图像生成;扩散模型;多光谱数据;近红外;低秩参数微调   
    4
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152719066 false
    更新时间:2026-03-16
    道路损伤检测领域迎来新突破,专家们构建了多阶段空间感知与细节增强模型,有效攻克了传统方法在环境干扰及复杂物理特性面前的不足,为道路基础设施智能养护提供了高效、鲁棒的技术方案。

    汪裕盛, 冯俊龙, 方明

    DOI:10.11834/jig.250422
    img
    摘要:目的道路损伤检测作为道路基础设施智能养护与交通管理的核心环节。传统检测方法易受环境干扰且泛化能力不足,而当前深度学习方法多聚焦于目标提取能力等单维度优化,忽视损伤目标存在细长拓扑结构、形态不规则性及低对比度等复杂物理特性,无法实现高效检测。为解决上述问题,本文提出了多阶段空间感知与细节增强道路损伤检测模型。方法设计空间感知与细节增强的混合注意力模块,通过全局方向感知与细节强化的协同机制,构建长程空间依赖关系,同时显著提升对弱纹理、边缘模糊损伤的细节表征能力。构建跨尺度特征交叉融合模块,优化网络颈部架构以实现跨尺度特征的异构级联融合,有效平衡局部空间细节与全局语义信息的协同表达。此外,改进的C3K2模块嵌入坐标感知卷积,通过空间信息增强有效优化高维特征的空间耦合建模效能。结果在RDD2022基准数据集上的系统实验表明,本文模型有效识别各类道路损伤,在保持142FPS实时推理速度的同时,mAP@0.5、mAP@0.5:0.95和F1-Score较现有最优方法分别提高了1.9%、4.9%和1.8%,其中mAP@0.5达到87.7%,消融实验验证了各模块的贡献度。跨数据集测试与泛化测试进一步证实该模型具备优异的检测鲁棒性与工程适用性。结论本研究构建的多级协同优化框架,通过空间感知强化与细节特征增强的机制耦合,为道路基础设施智能养护提供了具有显著工程价值的技术解决方案。论文代码将开源于https://www.scidb.cn/s/RZBnIz.  
    关键词:道路损伤检测;空间感知;跨尺度特征融合;YOLO;注意力机制;实时目标检测   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152718977 false
    更新时间:2026-03-16
    在动态交通场景的3D目标检测领域,研究人员提出了一种创新框架。该框架通过自适应体素特征采样策略和时序分组融合模块,有效解决了现有技术在多变场景适应性和遮挡目标感知方面的瓶颈问题,显著提升了检测精度和鲁棒性,为智能交通系统的发展提供了有力支持。

    张兴旺, 王俊帆, 缪其恒, 董哲康, 何志伟, 马国进

    DOI:10.11834/jig.250543
    img
    摘要:目的在动态交通场景下,现有纯视觉3D交通目标检测仍面临两大瓶颈:一是固定的体素采样策略难以适应多变场景;二是时序信息利用不足导致模型对遮挡目标感知受限。针对上述问题,提出了一种面向动态交通场景的3D目标检测框架。方法首先,设计了自适应体素特征采样策略,通过端到端的流程评估场景复杂度(包括特征裁剪和统计量提取等),从而动态选择采样方式,实现了不同场景采样的自适应优化。其次,提出了时序分组融合模块,通过将连续多帧鸟瞰图(bird's-eye-view,BEV)特征分组融合,实现了高效的时空信息建模,增强了对动态目标的鲁棒性。结果在权威公开数据集上的实验表明,所提方法在轻量化配置(ResNet50)下相较于基线模型提高了0.8%的平均精度均值(mean average precision,mAP)和0.8%的nuScenes综合检测指标(nuScenes detection score,NDS),优于Fast-BEV等主流方法;在高性能配置(ResNet101)下进一步提升了1.6%的mAP和2.3%的NDS。消融实验验证了自适应体素特征采样策略和时序分组融合模块各自的有效性,可视化结果也表明该方法在遮挡和动态场景下具有更完整、更精准的检测能力。结论本文通过自适应采样策略与时序分组融合模块,有效提升了纯视觉3D目标检测在动态交通场景下的性能与适应性。未来工作将聚焦于增强短时序建模能力和引入更细粒度的局部自适应机制。https://www.scidb.cn/s/rA7ZFf  
    关键词:3D目标检测;鸟瞰图;时序融合;自适应采样;动态交通场景   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152718825 false
    更新时间:2026-03-16
    相关研究在遥感图像融合领域取得新进展,专家提出PPFusion网络,通过“差分增强-Restormer重建-层次化融合-上采样约束”机制,解决传统全色锐化方法中空间细节恢复不足等问题,为高分辨率遥感图像融合与重建提供新思路。

    黄珊珊, 刘春晓

    DOI:10.11834/jig.250527
    img
    摘要:目的为了解决传统全色锐化方法中空间细节恢复不足、光谱保持不稳定及上采样退化等问题,本文提出一种基于棱镜金字塔融合(Prism Pyramid Fusion,PPFusion)的细节保持型全色锐化网络,以实现空间与光谱特征的协同优化。方法所提网络首先对低分辨率多光谱图像(Low-Resolution Multispectral Image,LRMS)进行上采样,使其与全色图像(Panchromatic Image,PAN)在空间尺度上对齐,并将二者堆叠作为网络输入。网络的主干部分由差分增强卷积模块(Differentially Enhanced Convolution Module,DEConv)与Restormer模块组成,两者并行提取高频纹理与长程光谱依赖特征,并通过多次特征交互实现逐级细节恢复。随后,融合阶段设计了层次化内容引导的注意力融合模块(Hierarchical Content-Guided Attention Fusion Module,HCGAF),将LRMS、PAN、初步融合结果及前一阶段融合特征进行多尺度内容引导融合,以获得光谱一致且纹理丰富的最终输出。此外,本文提出了双分支注意力引导的共享上采样模块(Dual-Branch Attention-Guided Shared Upsampling Module,DASU)作为正则化约束,上采样模块独立学习从低分辨率到高分辨率域的映射,并在损失函数中设计了主干输出与上采样输出之间的一致性约束,从而稳定训练并提升模型的泛化能力。结果在WorldView-3、GaoFen-2和QuickBird三个数据集上的实验结果表明,本文提出的PPFusion在PSNR、SAM、ERGAS及QNR等指标上优于现有代表性方法,并在复杂场景下生成纹理更清晰、边缘更自然的融合图像。消融实验进一步验证了DEConv模块在高频增强、Restormer模块在光谱建模、HCGAF模块在层次融合及DASU约束在稳定训练中的关键作用。结论本文提出的PPFusion网络通过“差分增强-Restormer重建-层次化融合-上采样约束”四者协同机制,在光谱-致性与空间锐度之间取得了良好平衡,为高分辨率遥感图像的融合与重建提供了一种高效、可扩展的新思路。  
    关键词:注意力机制;卷积神经网络;Restormer编码器;特征融合;差分卷积;全色锐化   
    5
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152718745 false
    更新时间:2026-03-16
    遥感变化检测领域迎来新突破,专家构建了覆盖中国五大典型区域的高分辨率、多时相遥感变化检测数据集HR-MTCD,为多类型地表变化研究及多时相变化检测算法提供数据支撑,推动遥感变化检测从离散双时相变化识别向多时相地表变化过程刻画迈进。

    周建泉, 陈静波, 邓毓弸, 孟瑜, 陈建胜, 隋晨红

    DOI:10.11834/jig.250563
    img
    摘要:遥感变化检测是获取地表变化信息的核心手段。现有研究多基于双时相影像进行变化识别,难以准确捕捉长期、阶段性及多尺度的地表演化特征。探索多时相变化检测以刻画地表演化过程的动态变化已成为重要发展方向。然而,高分辨率、高质量且涵盖多类型地表变化的多时相遥感变化检测数据集仍然匮乏。针对这一问题,本文构建了一个覆盖中国五大典型区域——长三角、珠三角、京津冀、成渝及西北地区的高分辨率、多时相遥感变化检测数据集HR-MTCD(high-resolution multi-temporal change detection),时间跨度五年,共1601组、8005张分辨率约0.5米的遥感影像及变化标签。数据集覆盖区域包含平原、丘陵、山地及高原等多样地理环境,重点聚焦建筑物新增与拆除、大面积植被变化等典型地表变化类型,兼顾城市扩张与生态环境演变,为多类型地表变化研究及多时相变化检测算法提供数据支撑。在多种主流变化检测模型上的实验表明,HR-MTCD数据集可用于验证不同模型在场景复杂性、变化类型多样性与时序跨度方面的性能。同时,在统一实验框架下构建的递进式跨时相扩展实验表明时间维度信息在变化检测中具有重要价值。该数据集的构建为遥感变化检测从离散双时相变化识别向多时相地表变化过程刻画提供重要数据基础。数据集可通过以下链接获取:https://doi.org/10.57760/sciencedb.j00240.00110。  
    关键词:遥感变化检测;多时相高分辨率数据集;城市扩张监测;生态演变分析;时序地表动态   
    28
    |
    29
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152644773 false
    更新时间:2026-03-13
    专家提出HMIF-SRNet算法,采用端到端架构,通过SRU和CRU模块优化光谱信息表达与模态融合,实验表明其在多个指标上表现优异,为高光谱与多光谱图像融合领域提供了高效解决方案。

    薛吉则, 俞凤梅, 刘颖

    DOI:10.11834/jig.250618
    img
    摘要:目的针对现有高光谱与多光谱图像融合算法在光谱重建策略不足和模态融合机制缺失的问题,本文提出了一种稀疏重建与交叉引导的高光谱多光谱图像融合算法(Hyperspectral and Multispectral Image Fusion via Sparse Reconstruction and Cross-Guidance, HMIF-SRNet)。方法该算法采用端到端的融合架构,通过预处理、特征提取、核心融合和特征重建四个模块实现高质量融合。为了光谱信息的高效利用和精确保真以及双模态信息的充分互补,我们设计了两个核心模块:光谱稀疏重建单元(Spectral Reconstruction Unit,SRU)和交叉引导单元(Cross-Reference Unit,CRU)。具体来说,SRU模块采用双重统计门控策略和动态稀疏重建机制,自适应优化光谱维度的信息表达,有效降低光谱冗余;CRU模块通过交叉引导机制实现高光谱和多光谱特征的互补融合,增强了跨模态信息的交互效果。两个核心模块通过串行级联实现递进式的特征优化。结果在CAVE和Harvard两个标准数据集上与10种主流融合方法的对比实验表明,HMIF-SRNet在峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、相对全局无量纲误差(Relative Dimensionless Global Error in Synthesis,ERGAS)、光谱角映射(Spectral Angle Mapper,SAM)和通用图像质量指数(Universal Image Quality Index, UIQI)四个指标上均取得了最优结果,其中在CAVE数据集上PSNR相比次优方法提升了4.41dB,SAM减少了32.0%,在真实场景下展现出卓越的鲁棒性。结论通过轻量化网络架构设计,该算法在保持优异融合性能的同时有效降低了计算复杂度,验证了动态稀疏重建策略与交叉引导融合机制的有效性。  
    关键词:高光谱图像;多光谱图像;图像融合;全局特征;稀疏注意力   
    45
    |
    80
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152517546 false
    更新时间:2026-03-09
    相关研究在夜间视觉跟踪领域取得新进展,专家们构建了ProDAPT夜间目标跟踪框架,通过全链路黑暗感知机制,有效增强了夜间特征鉴别力与更新可靠性,为解决夜间视觉跟踪任务中的感知与决策断层问题提供了新的有效途径。

    姜彦吉, 宗亚利, 董浩, 张海洋, 刘大千, 费博雯, 陈鹏达

    DOI:10.11834/jig.260034
    img
    摘要:目的针对夜间低光照环境下目标特征退化与背景噪声导致跟踪器特征匹配失效及模板更新漂移的问题。提出一种融合黑暗感知提示的夜间目标跟踪框架(ProDAPT),不同于现有方法仅在输入端进行简单的像素级叠加或浅层特征注入,ProDAPT创新性地以冻结的Transformer为基础,构建全链路黑暗感知提示机制。方法首先,提出跨层层级一致性提示生成器(CTCP),利用迭代反向投影与跨层语义约束,在深层特征空间中强制恢复被噪声稀释的目标结构;其次,设计提示语义校准注意力(PSCA),通过提示特征的结构先验作为显式偏置校正Transformer的注意力分布,有效抑制夜间相似干扰物导致的注意力弥散;最后,提出能量感知双重门控更新策略(EDGU),利用提示能量作为独立于分类分数的结构完整性的度量指标,实现更加可靠的动态模板更新。结果在NAT2021、LLOT和UAVDark135三个主流基准数据集及自采的4K分辨率自动驾驶跟车数据集上进行实验。该算法在三个公开数据集上的成功率分别达到0.557、0.585和0.608,其中在NAT2021上相比同类提示学习方法DCPT提升了3.1%;在NVIDIA A100硬件上的推理速度达到76.8FPS,参数量仅为全量微调的7.03%,并在自采数据集的真实夜间场景中也展示了良好跟踪效果。结论该方法通过全链路黑暗感知机制,有效增强了夜间特征鉴别力与更新可靠性,为解决夜间视觉跟踪任务中的感知与决策断层问题提供了新的有效途径。  
    关键词:视觉目标跟踪;夜间跟踪;视觉提示学习;Transformer;跨层一致性;注意力校准;自动驾驶   
    52
    |
    62
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152513358 false
    更新时间:2026-03-09
    随着多模态大模型与生成式人工智能技术的快速发展,图像与视频的获取、理解与生成方式正在发生深刻变革。以视觉—语言预训练模型和扩散生成模型为代表的新一代人工智能体系,在语义对齐、跨模态理解与高保真内容生成等方面展现出强大的能力,显著推动了智能安防、内容生产、工业检测和公共治理等应用场景的发展。然而,视觉智能能力的快速扩张也带来了日益突出的安全风险与治理挑战:在理解层面,模型在复杂环境、开放场景和弱监督条件下易产生误判、偏差与鲁棒性不足;在生成层面,高保真合成图像与视频被滥用于深度伪造、虚假信息传播和隐私侵犯,对社会信任与公共安全构成威胁。因此,围绕“大模型时代的视频与图像安全”开展系统性研究具有重要的理论价值与现实意义。

    桑农, 黄凯奇, 赵耀, 高常鑫, 考月英, 谭创创, 王翔, 武美奇, 尹文体

    DOI:10.11834/jig.250656
    img
    摘要:随着多模态大模型与生成式人工智能技术的快速发展,图像与视频的获取、理解与生成方式正在发生深刻变革。以视觉—语言预训练模型和扩散生成模型为代表的新一代人工智能体系,在语义对齐、跨模态理解与高保真内容生成等方面展现出强大的能力,显著推动了智能安防、内容生产、工业检测和公共治理等应用场景的发展。然而,视觉智能能力的快速扩张也带来了日益突出的安全风险与治理挑战:在理解层面,模型在复杂环境、开放场景和弱监督条件下易产生误判、偏差与鲁棒性不足;在生成层面,高保真合成图像与视频被滥用于深度伪造、虚假信息传播和隐私侵犯,对社会信任与公共安全构成威胁。因此,围绕“大模型时代的视频与图像安全”开展系统性研究具有重要的理论价值与现实意义。本文从图像与视频理解安全和图像与视频生成安全两条主线出发,系统综述了相关技术的研究进展。在理解安全方面,重点总结了全监督、半监督、弱监督和无监督异常检测方法的技术演进,并进一步归纳了基于视觉—语言大模型的零样本、开放词汇和可解释异常检测新范式;在生成安全方面,围绕生成对抗网络与扩散模型的发展脉络,系统分析了图像与视频生成技术的安全风险、深度伪造检测方法及其在政策监管与工程实践中的应用现状。最后,本文讨论了当前研究面临的关键挑战,并展望了大模型时代图像与视频安全研究的未来发展趋势,为相关领域的学术研究与工程应用提供参考。  
    关键词:多模态大模型;生成式人工智能;图像视频安全;异常检测;深度伪造检测   
    68
    |
    90
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152511142 false
    更新时间:2026-03-09
    亚洲山区道路提取难题迎来突破,相关专家构建了首个覆盖亚洲多国典型山区的高分辨率遥感影像山区道路数据集(AsiaMountain-Road),并提出多分辨率自适应双聚合网络(MR-AFDANet),为山区道路自动提取算法研究与应用提供有力支持。

    王怡琳, 孟瑜, 席智浩, 邓毓弸, 刘帝佑, 陈静波

    DOI:10.11834/jig.250521
    img
    摘要:目的针对高分辨率遥感影像中山区道路因地形复杂、形态多样及背景干扰严重而难以准确提取的问题,以及现有道路提取数据集对山区道路适应性不足的现状,构建了首个覆盖亚洲多国典型山区的高分辨率遥感影像山区道路数据集(AsiaMountain-Road),并提出多分辨率自适应双聚合网络(multi-resolution adaptive feature dual aggregation network,MR-AFDANet)以支持山区道路自动提取算法的研究与应用。方法数据集从亚洲多国典型山区选取了29个高分辨率遥感影像区域,总覆盖面积达1836km²。结合道路稀疏、弯曲、遮挡等复杂场景特征进行采样与标注,最终形成涵盖多种地貌和道路类型的山区道路影像与精细标注。基于该数据集,对多种主流遥感道路提取算法进行了系统基准评测,并验证了所提MR-AFDANet模型在复杂山区环境下的分割性能。结果实验表明,现有主流道路提取方法在AsiaMountain-Road数据集上表现出显著差异,其性能受到山区道路狭窄、弯曲、遮挡及多尺度特征的影响较大。该数据集有效揭示了现有算法在复杂山区环境中的局限性,并为算法鲁棒性提升与结构优化提供了基准支持。结论AsiaMountain-Road数据集填补了高分辨率遥感影像山区道路提取领域的基准数据空白,MR-AFDANet模型有效解决了复杂地形下的道路断裂与漏检问题。两者共同为山区遥感影像的智能化解译提供了高质量的数据基础与方法参考。论文相关数据集与代码下载地址:https://cstr.cn/31253.11.sciencedb.j00240.00109和https://github.com/wyl-ucas/AsianMountain-DataSet。  
    关键词:山区道路提取;高分辨率遥感;遥感基准数据集;复杂地形道路检测;深度学习语义分割   
    23
    |
    49
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152509316 false
    更新时间:2026-03-09
    相关研究在大视场监控视频小目标检测领域取得新进展,专家提出SOD-YOLO网络,通过虚实融合样本生成、特征增强及优化边界框回归精度等改进,显著提升小目标检测性能,为低分辨率监控视频小目标检测问题提供有效技术方案。

    吴军, 蔡广震, 楚和轩, 徐刚, 赵雪梅, 尹恒

    DOI:10.11834/jig.250491
    img
    摘要:目的针对大视场监控视频中小目标检测存在的样本稀缺、特征微弱与定位不准等难题,本文提出一种用于大视场监控视频的小目标检测网络SOD-YOLO(small object detection - you only look once)。方法该方法从三个层面系统性地进行改进:a)提出结合SAM2语义指导与UE虚拟仿真的虚实融合样本生成策略,以低成本获取大量高质量标注数据;b)设计包含视频差分预处理、多尺度特征融合及双层路由注意力的特征增强机制,以提升模型对微小特征的感知与分辨能力;c)采用解耦头结构并创新α-CIoU损失函数,以优化小目标边界框的回归精度。结果在建设工地、高速公路服务区及大学校园三个真实场景数据集上的实验结果表明,SOD-YOLO的综合性能显著优于当前主流模型,在建筑工地场景取得最高AP75(13.5%)与AP50s(53.9%);在高速公路服务区场景获得最优AP(42.6%)与AP75(29.5%);尤其在极具挑战的大学校园场景(小目标像素占比约0.0075%),其AP、AP75与AP50s相较基准模型YOLOv7分别提升了4.1%、2.5%与5.0%。结论本研究为解决低分辨率监控视频下的小目标检测问题提供了一套有效且可靠的技术方案。  
    关键词:视频监控;卷积神经网络;小目标特征提取;小目标边界框定位;样本增广   
    48
    |
    63
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152508896 false
    更新时间:2026-03-09
    随着VR技术迅速普及,VR全景图像/视频在多领域展现巨大潜力。专家综述了VR360°全景图像/视频下显著性检测的研究进展,从传统机器学习到深度学习方法进行了全面回顾,为解决全景内容复杂性问题提供理论支持和实践指南。

    周强强, 喻嘉聪, 徐佳伟, 陈勇, 黄欣, 石艳娇, 张晴

    DOI:10.11834/jig.250560
    img
    摘要:随着虚拟现实(Virtual Reality,VR)技术的迅速普及,VR360 o 全景图像(Omnidirectional Image,ODI)与全景视频(Omnidirectional Video, ODV)在娱乐、教育、医疗等领域展现出巨大的应用潜力。然而,由于全景内容具有球面畸变、视角分布不均以及实时交互等特有挑战,传统显著性检测方法难以有效应对VR全景场景的复杂性。本文综述了当前VR360o 全景图像/视频下显著性检测的研究进展,从传统机器学习方法到基于深度学习(如CNN、Transformer和LSTM架构)的方法进行了全面回顾。文章首先介绍了VR360 o 内容的成像原理与几何特性;随后,重点讨论了传统方法与深度学习技术在全景显著性检测中的应用与局限,特别是在全景环境中融合了多模态信息的相关研究;此外,综述还对现有数据集、评测指标及现有方法的性能进行了系统整理。本文还考察了全景显著性检测在图像质量评估和视频质量评估等领域中的实际应用案例,以揭示其在技术优化和用户体验提升方面的潜在价值。最后,文章展望了未来在VR360°全景显著性检测领域的前沿方向,旨在为后续研究和技术落地提供理论支持和实践指南。本文提及的算法、数据集已汇总至https://github.com/jiacongyu/PVSD。  
    关键词:虚拟现实;全景显著性预测;全景显著性目标检测;深度学习;视觉注意机制;沉浸式体验   
    32
    |
    50
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152506808 false
    更新时间:2026-03-09
    遮挡行人重识别领域迎来新突破,相关专家构建了融合通道注意力增强、显著性引导擦除与门控正则化的多视角学习框架,有效解决特征判别性不足、鲁棒性差等问题,为复杂监控场景下的行人检索提供高效解决方案。

    叶学义, 薛智权, 蒋德琦, 戴渝琛, 王佳欣

    DOI:10.11834/jig.250576
    img
    摘要:目的遮挡行人重识别因可见区域缺失和遮挡噪声干扰,导致特征判别性不足、鲁棒性差。现有方法多局限于单视图表征,存在通道判别性建模不充分、显著区域过拟合等问题。方法提出一种融合通道注意力增强、显著性引导擦除与门控正则化的多视角学习框架。该方法首先采用挤压激励残差网络(squeeze-and-excitation residual network,SE-ResNet)作为骨干网络,通过通道注意力机制自适应增强判别性特征。进而,设计Top-k显著性引导软擦除模块,利用类激活图定位关键区域并进行平滑抑制,迫使网络发掘多样化辅助特征,以缓解过拟合。此外,引入门控正则化机制,对特征通道选择概率施加熵约束,提升选择过程的稀疏性与稳定性。在训练阶段,通过加权融合多视图特征并借助特征对齐损失实现信息协同;推理阶段仅需单视图特征即可完成高效检索。结果在四个代表性数据集上的实验表明,本方法均取得领先性能。其中,在专门针对遮挡行人重识别的数据集Occluded-REID上,平均精度均值(mean average precision,mAP)与首位命中率(Rank-1 accuracy,Rank-1)分别达到83.4%与92.8%;在大型多场景复杂数据集MSMT17上,分别达到71.4%与89.6%,较先进方法MVIIP有显著提升。在基于DukeMTMC构建的合成遮挡数据集P-DukeMTMC和经典通用行人重识别基准数据集Market-1501上,本方法同样表现优异,验证了其针对合成与自然遮挡的普适性。结论本方法在遮挡与多场景任务中均表现出良好的适应性、鲁棒性和泛化能力,适用于复杂监控场景下的行人检索。  
    关键词:遮挡行人重识别;判别性特征挖掘;通道注意力增强;显著性引导擦除;门控正则化   
    28
    |
    30
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152502596 false
    更新时间:2026-03-09
    低剂量计算机断层扫描(LDCT)图像质量受噪声与伪影影响,现有深度学习方法存在不足。专家提出基于深度强化学习的高分辨率重建框架HRDRL-Net,将LDCT去噪任务建模为序列决策过程,采用异步优势动作评价算法训练智能体,构建双路径多分支协同架构与低剂量噪声抑制模块,设计复合奖励函数引导智能体学习自适应去噪策略。实验表明,HRDRL-Net在Mayo与Piglet数据集上重建图像的定量指标优于主流基线方法,为LDCT图像质量改善提供新方案。

    张胜楠, 孙正, 于寒, 高章硕, 丁港澳

    DOI:10.11834/jig.250502
    img
    摘要:目的低剂量计算机断层扫描(low-dose computed tomography,LDCT)在降低辐射剂量方面具有重要临床价值,但其图像质量常受噪声与伪影影响。现有改善LDCT图像质量的深度学习方法在模型泛化能力、计算效率及对噪声的自适应性方面仍存在不足。为此,本文提出一种基于深度强化学习的高分辨率重建框架(high resolution deep reinforcement learning network,HRDRL-Net),旨在实现噪声抑制与结构保留的有效平衡。方法将LDCT去噪任务建模为序列决策过程,采用异步优势动作评价算法作为智能体训练基础。通过构建双路径多分支协同架构与低剂量噪声抑制模块,并设计融合像素级误差、梯度相似性及局部方差约束的复合奖励函数,动态引导智能体在丰富动作空间中学习自适应去噪策略。结果在Mayo与Piglet公开数据集上的实验表明,HRDRL-Net重建图像的定量指标优于主流基线方法。在Mayo测试集上,与基线模型相比,HRDRL-Net的峰值信噪比平均提高约1.3%,结构相似性指数平均提高约0.7%,梯度幅度相似性偏差降低约6%。在Piglet数据集上,峰值信噪比与结构相似性指数较基线模型平均提高约1.5%和0.8%。消融实验证实了复合奖励、完整动作集、双路径架构及多分支模块对方法性能的有效性。结论HRDRL-Net能够有效抑制LDCT图像噪声并保留关键解剖结构与纹理细节,在重建质量、泛化能力与计算效率之间取得了良好平衡。  
    关键词:低剂量计算机断层扫描成像;图像重建;深度学习;深度强化学习;多尺度双重注意力   
    27
    |
    34
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152499322 false
    更新时间:2026-03-09

    李贳宸, 孙杰

    DOI:10.11834/jig.250529
    img
    摘要:多变量时间序列(MTS)分类是数据科学中的一项关键任务,旨在从具有复杂时空依赖性的多维数据流中识别模式.近年来,图神经网络(GNN)凭借其强大的结构化数据建模能力,为这一领域带来了范式转变.然而,现有研究呈现出方法多样化但缺乏统一理论指导的局面.本文不仅系统性地梳理了GNN在MTS分类中的应用进展,更重要的是,我们首次提出了一个从“时空依赖耦合范式”(Spatio-Temporal Dependency Coupling Paradigm)角度审视该领域的统一分析框架.该框架将现有模型批判性地划分为解耦式(Decoupled)、耦合式(Coupled)和演化式(Evolutionary)三大类别,深刻揭示了不同设计哲学背后在模型灵活性、计算效率和动态适应性之间的核心权衡.基于此框架,我们超越了对模型机制的简单描述,深入剖析了各类方法在处理现实世界数据中普遍存在的异质性(heterogeneity)、非平稳性(non-stationarity)和因果混淆(causal confounding)等根本性挑战时的内在假设与理论局限.此外,我们通过对交通、医疗、金融和工业等关键应用领域的跨领域综合分析,提炼出驱动模型选择和图构建策略的普适性原则.最后,本文不仅总结了现有挑战,更进一步勾勒出一份旨在构建更鲁棒、可解释和支持干预的下一代时空图智能模型的挑战性研究议程,强调了从关联建模向因果推理演进的必要性.研究表明,GNN在MTS分类中展现的巨大潜力,正推动该领域迈向一个更深刻、更具挑战性的新阶段.  
    关键词:多变量时间序列分类;图神经网络;时空数据挖掘;图表示学习;深度学习   
    38
    |
    43
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 152495468 false
    更新时间:2026-03-09
    在多媒体取证领域,专家提出VSI模型,通过多尺度特征融合与动态增强,精确识别语音来源设备个体,为司法实践和信息安全提供有力技术支持。

    苏兆品, 方振, 张国富, 王垚飞, 臧怀娟

    DOI:10.11834/jig.250570
    img
    摘要:目的在多媒体取证领域,语音证据的来源识别对于司法实践和信息安全至关重要。然而,现有方法大多仅能识别手机型号,而无法精确区分个体设备,导致语音证据多被视为辅助线索而非直接有效证据。方法本文提出一种多尺度特征融合与动态增强的语音来源识别模型(Multi-scale feature fusion and dynamic enhancement for voice source identification, VSI)。首先,通过残差-注意力协同网络,增强模型对不同设备相关特征的捕捉能力,提取语音信号的硬件指纹特征;其次,设计基于表达增强TDNN的整体特征提取模块,能够更好地捕捉丰富的设备特征信息;并设计基于多级残差SE-Res2Net的局部特征提取模块,有效捕捉手机设备个体之间的细微特征差异;然后,设计基于特征重校准与动态全局滤波的特征增强模块,滤除与任务无关的信息,增强与设备个体相关的特征表示;最后,构建细粒度分类模型,实现从型号到个体的跨层级设备识别。结果为了验证所提模型的有效性,论文构建了包含14个手机品牌、121个不同个体设备的语音数据集。所提VSI模型的等错误率(EER)、准确率(ACC)和最小检测代价函数(minDCF)指标分别为7.50%、89.97%和0.38,相较于文中对比的其他四种方法,EER分别降低了4.75%、4.71%、5.44%和3.46%,ACC分别提升了3.98%、2.20%、4.90%和2.52%,minDCF分别下降了0.04、0.04、0.30和0.03。而且,模型在改变语音时长、采样率、编码格式和幅值环境下具有一定的鲁棒性。结论这表明该模型能够将语音数据作为电子证据,为司法取证、智能终端设备身份认证等领域提供有力技术支持。  
    关键词:多媒体取证;语音来源识别;多尺度特征融合;动态增强;手机个体识别   
    29
    |
    56
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 151835755 false
    更新时间:2026-03-06
    水下计算机视觉作为海洋科学研究和海洋工程应用的重要技术手段,近年来受到广泛关注。然而,与陆地环境相比,水下成像受光线衰减、颜色偏移、散射效应及设备限制等因素影响,相关任务面临显著挑战。高质量数据集的构建是推动水下计算机视觉技术发展的关键资源,其质量与多样性直接影响模型的训练效果和性能表现。为全面了解水下数据集的发展脉络、优势与局限性,本文对当前主要数据集进行了系统综述,涵盖水下视觉增强、水下场景理解以及水下三维重建等多个关键任务。在水下视觉增强方面,分析了图像/视频增强、颜色校正与复原、超分辨率重建等数据集;在水下场景理解方面,系统梳理了目标分类、目标检测、语义分割、实例分割、显著性检测、伪装目标检测以及目标跟踪等任务的代表性数据集;在水下三维重建方面,探讨了同时定位与建图(simultaneous localization and mapping,SLAM)、神经辐射场(neural radiance fields,NeRF)和三维高斯散射(three-dimensional gaussian splatting,3D GS)等技术相关的数据集发展状况。基于对现有数据集的构建方法、规模特征及应用场景的综合分析,本文总结了当前面临的主要挑战,并探讨了未来可能的发展方向,为相关研究人员提供了全面的数据集资源参考,有助于推动水下计算机视觉技术的深入研究与广泛应用。

    李华, 李志远, 刘家伟, 丛润民

    DOI:10.11834/jig.250483
    img
    摘要:水下计算机视觉作为海洋科学研究和海洋工程应用的重要技术手段,近年来受到广泛关注。然而,与陆地环境相比,水下成像受光线衰减、颜色偏移、散射效应及设备限制等因素影响,相关任务面临显著挑战。高质量数据集的构建是推动水下计算机视觉技术发展的关键资源,其质量与多样性直接影响模型的训练效果和性能表现。为全面了解水下数据集的发展脉络、优势与局限性,本文对当前主要数据集进行了系统综述,涵盖水下视觉增强、水下场景理解以及水下三维重建等多个关键任务。在水下视觉增强方面,分析了图像/视频增强、颜色校正与复原、超分辨率重建等数据集;在水下场景理解方面,系统梳理了目标分类、目标检测、语义分割、实例分割、显著性检测、伪装目标检测以及目标跟踪等任务的代表性数据集;在水下三维重建方面,探讨了同时定位与建图(simultaneous localization and mapping,SLAM)、神经辐射场(neural radiance fields,NeRF)和三维高斯散射(three-dimensional gaussian splatting,3D GS)等技术相关的数据集发展状况。基于对现有数据集的构建方法、规模特征及应用场景的综合分析,本文总结了当前面临的主要挑战,并探讨了未来可能的发展方向,为相关研究人员提供了全面的数据集资源参考,有助于推动水下计算机视觉技术的深入研究与广泛应用。  
    关键词:水下数据集;水下场景理解;图像增强;目标识别;三维重构   
    62
    |
    64
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 151835718 false
    更新时间:2026-03-06
    医学图像异常检测领域迎来新突破,相关专家构建了跨域自监督表征学习框架,有效解决预训练模型在医学图像中的语义差异问题,显著提升异常检测的准确性与鲁棒性,为该领域发展提供可靠方案。

    赵映程, 朱凝, 宋宵罡, 黑新宏, 石争浩

    DOI:10.11834/jig.250599
    img
    摘要:目的医学图像异常检测旨在以无监督方式识别临床影像中的病变区域,但现有方法在迁移自然图像预训练模型至医学域时存在语义差异问题,导致模型对解剖结构差异敏感且对早期病变识别能力不足。现有方法若对预训练编码器进行微调,易因模式崩溃导致失败;而若保持冻结,则难以充分适配医学域。为此,本文提出一种跨域自监督表征学习(Cross-domain Self-supervised Representation Learning,CSRL)框架.,以提升医学图像异常检测的准确性与鲁棒性。方法提出的CSRL框架包含两个阶段:第一阶段通过域适应对比学习(Domain-Adaptive Contrastive Learning,DACL)网络,采用在线-目标网络双路径框架实现预训练编码器从自然图像域到医学图像域的稳健迁移;第二阶段构建特征重建网络,引入协同注意力增强模块(Synergistic Attention Enhancement,SAE)以增强病变特征表示,并结合多尺度异常融合模块(Multi-scale Anomaly Fusion,MAF)实现跨层级异常响应的动态融合。结果实验在APTOS、ISIC和BR35H三个公开医学数据集上与10种代表性方法进行了对比。实验表明,本文方法在图像级异常检测任务中取得最优性能。在BR35H数据集上,AUC达到99.90%;在ISIC数据集上,AUC为91.79%;在APTOS数据集上,AUC为97.71%。相较于当前最先进方法,本文方法的最佳AUC值在APTOS、ISIC和BR35H数据集上分别提升了0.35、3.52和0.02个百分点。 消融实验验证了各模块的有效性,可视化结果进一步表明本文方法在异常定位方面具有更优的空间一致性与临床可解释性。结论本文提出的CSRL框架通过跨域自监督表征学习、协同注意力增强与多尺度融合机制,有效缓解了预训练模型在医学图像中的语义差异问题,提升了异常检测的判别能力与定位精度,为医学图像无监督异常检测提供了可靠的解决方案。  
    关键词:医学图像分析;异常检测;自监督学习;跨域迁移;特征重建;注意力机制;多尺度融合   
    51
    |
    82
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 151835674 false
    更新时间:2026-03-06
    脑启发的人工智能领域迎来新进展,专家们从脑结构与功能角度出发,构建了多层级建模方法与算法创新路径,还研发出新型类脑计算系统,为突破传统人工智能瓶颈开辟了新方向。

    杨双鸣, 申江荣, 李尤君, 黄子罡, 陈霸东

    DOI:10.11834/jig.260022
    img
    摘要:脑启发的人工智能以人类大脑的结构与功能机制为灵感,旨在构建具备低功耗与强泛化能力的新型智能系统。当前以深度学习为核心的人工智能方法在计算资源开销、能耗、可解释性与适应性方面仍存在显著不足,难以在复杂多变或资源受限的环境中实现持续学习与灵活推理。相比之下,大脑展现出在并行处理、低功耗、快速泛化及自适应学习等方面的天然优势,这为突破传统人工智能范式提供了重要启示。本文系统综述了脑启发的人工智能领域的国内外研究进展。从脑结构启发的角度,分析了神经元模型、神经环路与神经调制机制的多层级建模方法;从脑功能启发的角度,探讨了感知、认知、学习、决策与控制等智能环节的算法创新路径;从硬件系统的角度,总结了具有近内存与存算一体架构的新型类脑计算系统的发展现状。报告进一步比较了国际与国内在理论研究、算法优化与硬件实现等方面的差异与互补优势。最后,展望了未来脑启发的人工智能在算法–硬件协同、跨学科融合及产业化应用方面的发展趋势,提出了推动我国在该领域实现跨越式突破的关键方向。  
    关键词:脑启发;类脑智能;脑结构;脑功能;类脑计算系统   
    42
    |
    140
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 151835627 false
    更新时间:2026-03-06
    相关研究在汽车高光去除领域取得新进展,专家构建了多光照条件下的汽车高光数据集,并提出掩码引导的高光去除网络(MG-TransUnet),显著提升高光去除效果,为视觉感知系统性能提升提供有力支持。

    王嘉成, 周树波, 潘峰, 蒋学芹, 黄荣, 谢颖华

    DOI:10.11834/jig.250353
    img
    摘要:目的镜面反射会干扰视觉感知系统,降低目标检测和三维重建等任务的性能。尽管现有高光去除方法已有进展,但大多依赖合成数据训练,难以有效处理真实场景中的反射。针对这一问题,本文构建了多光照条件下的汽车高光数据集,并提出掩码引导的高光去除网络(Mask Guided Transformer Unet,MG-TransUnet),显著提升高光去除效果。方法首先,本文构建了汽车高光数据集,覆盖多种光照条件及不同强度、分布的高光图像对,并提供高光掩码。并且提出协同优化的两阶段网络架构,第一阶段采用轻量级U形网络(U-shaped network,U-Net)实现高光检测,生成高光区域掩码;第二阶段将掩码作为空间先验,指导基于改进型窗口移位注意力(Shifted Window Attention Transformer,SWAT)的U-Net高光去除网络。通过端到端联合训练,实现检测与去除网络的参数协同优化。结果本文在自建数据集和三个公开数据集(PSD、SHIQ、SSHR)上进行了系统评估,与8种最先进方法进行对比。在PSD数据集上,本方法以26.37dB的峰值信噪比(pe-ak signal-to-noise ratio,PSNR)位列第二;在SHIQ数据集上以35.24dB的PSNR值优于第二名(34.13dB)1.11dB;在SSHR数据集上以36.54dB的PSNR值领先第二名(36.16dB)0.38dB;在自建数据集上以25.14dB的PSNR值优于第二名(25.03dB)0.11dB。此外,消融实验表明掩码引导网络和SWAT模块均能提升高光去除性能。结论本文构建了面向真实场景的汽车高光数据集,提出了基于窗口移位注意力机制的掩码引导网络(MG-TransUNet)。实验证明,本文方法在自建数据集上性能达到最优,并在多个公开数据集上取得了具有竞争力的表现。代码地址:https://github.com/chenWULUQI/MG-Trans_Unet  
    关键词:高光检测;高光去除;高光数据集;U-Net模型;窗口移位注意力机制   
    24
    |
    51
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 151835511 false
    更新时间:2026-03-06
    介绍了其在癌症病理分析领域的研究进展,相关专家构建了图边属性注意力的多尺度融合网络,为解决现有方法忽视图像块间关联性及尺度信息的问题提供了有效方案。

    滕晓菲, 刘慧, 毛宁, 高婧, 陈公冠

    DOI:10.11834/jig.260009
    img
    摘要:目的微卫星不稳定性(microsatellite instability,MSI)是癌症预后与治疗决策的重要指标,而组织病理图像作为诊断的重要依据,其数字化形式——全玻片图像(whole slide images,WSIs)已广泛应用于病理分析。受限于WSIs的尺寸,现有方法常采用多实例学习(multiple instance learning,MIL)框架,将WSIs划分为图像块后通过平均池化等方式获得整体预测结果,但其忽略了块间关联性,限制了模型的建模能力与检测性能。此外,单尺度建模难以同时兼顾组织的宏观结构与局部细节,而简单的多尺度融合策略缺乏对不同尺度语义差异的刻画,容易引入尺度偏置。方法为解决上述问题,提出了一种图边属性注意力的多尺度融合网络(graph edge-attribute attentional multi-scale fusion network, GEAMF)。该模型首先使用图构建模块(graph construct module,GC-M)将WSI图像块构建为图结构,然后基于Transformer的注意力机制设计了图边属性注意力模块(graph edge-attribute attention module,GEA-M)来显式编码图节点间的关系,以实现节点特征的动态加权聚合。此外,进一步设计了一种双流分支来学习不同尺度下的WSI特征,最终通过可学习的尺度感知门控残差模块(Scale-Aware Gated ResMLP Module,SGRes-M)实现多尺度特征的互补优化。结果实验表明,GEAMF在多种公开WSI数据集上均显著优于现有最优方法,验证了其在微卫星不稳定性分类任务中对多尺度组织表征和结构依赖关系建模的有效性。此外,在Camelyon16淋巴结转移检测这一不同病理任务上,所提出方法同样取得了稳定性能提升,验证了模型在跨病理任务场景下的泛化能力。结论本文提出的GEAMF模型通过显式建模图像块之间的结构依赖关系,并联合多尺度组织表征,有效弥补了传统弱监督方法忽视结构与尺度信息的不足。  
    关键词:全玻片图像;多实例学习;图神经网络;多尺度特征融合;残差多层感知机   
    36
    |
    61
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 151835464 false
    更新时间:2026-03-06
0