最新刊期

    丁晨, 张景博, 郝小锋, 郑思睿, 闫松

    DOI:10.11834/jig.260214
    img
    摘要:目的高光谱图像变化检测在环境监测、土地利用分析及灾害评估等领域具有重要应用价值。然而,现有深度学习方法多在高层或决策阶段进行特征比较,难以充分利用多层级时间差异信息,导致细微变化难以准确捕获,限制检测精度。方法针对上述问题,本文提出时间差引导网络(time-difference-guided network, TDG-Net)。该方法以Vision Mamba为主干构建孪生架构,设计时间存储器模块(time storage module,TSM),基于简化长短期记忆网络(simplified long short-term memory,sLSTM)对双时相高光谱图像多层特征进行时序建模,提取显式时间差特征;进一步通过时域差引导策略将时间差信息转化为空间注意力权重,并以残差方式反馈至多层特征提取网络,实现对变化区域的强化与未变化区域的抑制。同时引入Dice损失函数缓解类别不平衡问题。与近年Mamba-based方法相比,本文核心区别在于通过轻量LSTM在多层级显式建模并引导时间差,而非仅在高层隐式融合。结果在River、Farmland和Hermiston数据集上,所提方法在总体精度(OA)和Kappa系数均优于CVA及自监督高光谱空间–光谱特征方法。其中,River数据集OA为96.54%、Kappa为78.51%;Farmland为95.87%、90.11%;Hermiston为98.21%、91.79%。消融实验表明TSM与时域差引导策略均带来显著提升。结论本文通过显式多层级时间差建模与层次化引导,有效提升高光谱变化检测精度与鲁棒性,在复杂场景下具备良好泛化能力。  
    关键词:高光谱图像;变化检测;Vision Mamba;时间差建模;深度学习;遥感   
    26
    |
    5
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795219 false
    更新时间:2026-06-05

    余东, 张淳杰, 张晓宇, 郑晓龙

    DOI:10.11834/jig.260197
    img
    摘要:目的航空遥感可见光与红外(red-green-blue and infrared, RGB-IR)目标检测中,不同模态对检测任务的贡献会随成像条件动态变化。现有方法虽能在一定程度上利用条件信息调节模态融合,但对与模态可靠性直接相关的质量属性的显式建模仍然不足,难以根据成像条件变化自适应调节不同模态对检测任务的贡献。针对上述问题,本文提出一种基于模态可靠性建模的航空遥感RGB-IR目标检测方法,通过语义先验蒸馏引导检测网络学习检测导向的模态可靠性表征,并实现可见光与红外模态的自适应融合。方法首先,构建面向无人机场景的模态质量属性描述数据集,对影响检测性能的关键成像因素进行结构化表达。然后,利用视觉语言模型对属性描述文本进行编码,形成与模态可靠性相关的语义先验,并通过训练阶段的蒸馏监督与属性监督,引导检测网络学习检测导向的模态可靠性表征。最后,从场景级全局可靠性和位置级局部空间可靠性两个层面联合建模可见光与红外模态的有效性,实现面向目标检测的动态自适应融合。结果在DroneVehicle和VEDAI两个公开RGB-IR数据集上,所提方法均取得了较优性能。其中,在DroneVehicle上的mAP@0.5和mAP@0.5:0.95分别达到79.7%和53.7%;在VEDAI上分别达到67.1%和30.1%,并在夜间、弱光及复杂干扰场景下表现出更好的检测精度与鲁棒性。消融实验进一步验证了模态质量属性建模、语义先验蒸馏和全局-局部模态可靠性联合建模的有效性。结论所提方法能够以较低开销将视觉语言模型的模态质量感知能力迁移至检测网络内部,在无需测试阶段额外引入大模型分支的条件下,有效建模复杂成像条件下的模态可靠性变化,提升航空遥感红外与可见光目标检测的精度与鲁棒性。  
    关键词:航空遥感;RGB-IR目标检测;视觉语言模型;模态可靠性;语义先验蒸馏;自适应融合   
    14
    |
    6
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795179 false
    更新时间:2026-06-05

    张本硕, 柯枫, 安志勇, 于晓宁, 韩忠伟, 赵峰

    DOI:10.11834/jig.260158
    img
    摘要:目的针对 Himawari-8/9 卫星影像中早期微弱火点难以准确识别的问题,提出一种融合多尺度空间特征与长时序动态建模的火点检测方法,以提升早期微弱火点识别能力和复杂场景下的检测稳定性。方法构建 Fire-Mamba 火点检测模型。设计多尺度上下文热异常感知模块(Multi-Scale Contextual Thermal Anomaly-aware Module,MCTAM),通过双分支深度可分离卷积联合提取局部热异常信息与大尺度背景上下文信息,增强微弱热异常的空间表征能力;在此基础上,引入 Mamba 时序建模模块,对逐像素时序特征进行长程依赖建模,以刻画火点从初始热异常到持续扩展的动态演化过程;同时结合焦点损失函数缓解火点像素稀疏带来的类别不平衡问题,并采用滑动时间窗口实现逐时刻火点预测。结果在6起真实森林火灾事件上的实验结果表明,所提方法在火点识别率、总体准确率和漏检率方面优于各对比方法;但其误报率高于较为保守的JAXA(Japan Aerospace Exploration Agency, JAXA) WLF L2(Himawari Wildfire Product Level 2, WLF L2)产品, 说明模型在误报抑制方面仍存在进一步优化空间。模型火点准确率(FA)达到 90.33%,总体准确率(OA)为 99.60%,漏检率(OFR)为 9.67%,误报率(FAR)为 18.80%,在复杂背景、弱小火点和火灾早期阶段均表现出较好的检测能力与时序稳定性。可视化结果进一步表明,该方法能够获得边界更完整、连续性更强的火点响应,对早期火情具有更高敏感性。结论所提 Fire-Mamba 方法能够有效融合多尺度空间信息与长时序演化信息,提升 Himawari-8/9 卫星早期火点检测的准确性,可为近实时野火监测与早期预警提供技术支持。  
    关键词:Himawari-8/9;火点识别;Mamba;多尺度特征提取;时序建模;近实时监测;卫星遥感;火灾预警   
    23
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795131 false
    更新时间:2026-06-05

    韩军伟, 钱学林, 许畅, 王浩研, 张鼎文

    DOI:10.11834/jig.260181
    img
    摘要:在“双碳”战略深入实施与视觉智能(artificial intelligence,AI)产业快速发展的双重背景下,推动视觉智能技术的绿色化发展已成为实现经济社会可持续发展的重要路径。我国《“十四五”数字经济发展规划》明确提出推动算力基础设施绿色低碳发展。近年来,以深度学习为代表的视觉智能技术性能的飞跃很大程度上得益于模型规模的持续扩张与训练数据的海量增长,但由此引发的数据采集标注成本高、模型训练推理能耗大等问题,也对智能产业低碳转型构成现实挑战。在此背景下,绿色视觉AI作为兼顾技术性能与可持续发展的研究范式受到广泛关注,其核心目标是在保障模型任务性能的前提下,降低视觉智能部署前后的数据、算力、人力等各类成本,实现技术性能与能耗效益的协同。针对这一挑战,本文深入探讨面向绿色视觉AI的视觉智能技术节能化技术,从数据采集、数据标注、模型推理与模型迭代四个核心环节出发,介绍各环节中的节能策略与优化思路,梳理技术方案与发展现状,探究当前面临的主要挑战与未来研究方向,为视觉智能技术的绿色化、可持续化发展提供理论支撑与实践框架。  
    关键词:绿色视觉AI;数据节能;标注节能;推理节能;迭代节能   
    2
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795096 false
    更新时间:2026-06-05

    黄荣梅, 余宏, 张永选, 谢彩云, 陈颖, 戴靓婕, 洪如霞

    DOI:10.11834/jig.260176
    img
    摘要:目的伪装目标检测(camouflaged object detection, COD)旨在从复杂场景中识别与背景高度融合的隐藏目标,在农业、医学等领域具有重要研究价值与应用潜力。针对现有方法受限于卷积神经网络(convolutional neural networks, CNN)有效感受野不足、Transformer计算复杂度高,以及仅依赖RGB图像、忽视深度几何先验等问题,开展本文研究。方法提出一种状态空间模型引导多模态融合的RGB-D伪装目标检测方法。利用Depth Anything V2生成高质量伪深度图,输入参数共享编码器提取多模态金字塔特征;设计基于Mamba的多模态状态空间融合模块(multi-modality mamba fusion module, M3FM),实现RGB 与深度特征双向互惠融合;构建基于多核非对称卷积的双向上下文混合卷积模块(dual-directional context mixture convolution, DCM-Conv)与多尺度解码器,在提取多感受野特征的同时控制参数量与计算开销。结果在CAMO、COD10K、NC4K 3个伪装目标检测基准数据集进行实验,与11种代表性方法进行定量和定性对比。在平均绝对误差(mean absolute error, MAE)指标上,本文方法相较于排名第2的方法,在3个数据集上分别降低21.3%、17.4%和12.5%;同时在结构度量(structure measure, Sm)、增强对齐度量(enhanced alignment measure, Em)、加权F度量(weighted F-measure, wFm)上均取得最优值。模型参数量仅58.5M,计算复杂度(floating point operations, FLOPs)仅47.6G,精度与效率平衡优异。可视化结果表明,本文方法分割更准确、边界更清晰、细节保留更完整、背景误检更少。结论提出状态空间模型引导多模态融合的RGB-D伪装目标检测方法MambaCOD。通过多模态状态空间融合模块M3FM有效实现RGB与深度特征双向互惠融合,利用Depth Anything V2提供高质量几何先验,并借助DCM-Conv模块增强多尺度上下文特征,可精准定位伪装目标并提升边界与细节清晰度。  
    关键词:伪装目标检测;RGB-D;状态空间模型;多模态融合;深度特征   
    7
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795057 false
    更新时间:2026-06-05

    冯仁帅, 刘希林, 薛宇浩, 李鑫婧, 谭玉林, 赵才荣

    DOI:10.11834/jig.260154
    img
    摘要:目的针对工业安全场景中风险类别长尾、标注样本稀缺、现有视觉模型对未知风险泛化不足且推理过程不透明的问题,研究小样本条件下的可解释风险识别方法。方法构建核心思维链训练集与Few-shot样例库,提出上下文思维链学习框架。在模型层面,引入层级化视觉编码器、语义一致性分类头以及主动感知与迭代精炼机制,以增强多粒度视觉感知能力并约束推理文本与最终判断的一致性。在训练层面,采用“两阶段训练”策略:首先利用结构化思维链监督注入工业安全推理模式;随后通过上下文归纳训练强化模型从少量样例中适应未见风险类别的能力,并结合对比式图文基底损失提升视觉依据约束。结果在14类未见危险评估集(unseen hazards-14,UH-14)3-shot设置下,所提模型F1-score为68.56%,较ChatCH-SFT提高12.81个百分点;F2-score由57.83%提升至70.81%,召回率达到72.40%。消融实验表明,上下文学习与思维链学习均对性能提升具有积极作用。结论所提方法适用于长尾、少样本且对高召回与可解释性要求较高的工业安全识别场景,并可为其他复杂视觉风险识别任务提供参考。  
    关键词:危险预警;视觉语言模型;多模态特征融合;上下文学习;小样本识别   
    7
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795027 false
    更新时间:2026-06-05

    刘明怡, 谢国森, 舒祥波, 张磊

    DOI:10.11834/jig.260205
    img
    摘要:开放词汇语义分割旨在突破传统闭集语义分割对固定类别集合的依赖,使模型能够根据开放类别文本描述实现任意语义目标的像素级识别与分割。以CLIP为代表的视觉–语言预训练模型虽为开放类别理解提供了重要支撑,但其侧重于图像级语义对齐,难以满足像素级密集预测对精确定位与细粒度表达的需求。因此,如何实现图像级开放识别能力向像素级精细分割的有效迁移,仍是该领域面临的关键问题。本文对开放词汇语义分割的研究进展进行系统梳理与分析。首先,介绍该任务的研究背景与技术基础,并梳理其与传统语义分割、零样本语义分割之间的演进关系。其次,围绕零样本语义分割、图文监督早期探索、双阶段方法和单阶段方法等主要研究路线,归纳代表性方法的基本思想、技术特点与局限性,并进一步讨论其在遥感图像场景中的拓展应用。再次,总结常用数据集与评价指标,分析现有评测体系的特点与不足。最后,结合当前研究瓶颈,对该领域未来发展方向与研究趋势进行展望。本文可为开放词汇语义分割领域的研究脉络梳理、方法体系比较及后续研究探索提供参考。  
    关键词:开放词汇语义分割;视觉-语言预训练;CLIP;跨类别泛化;开放世界视觉理解   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157795001 false
    更新时间:2026-06-05

    赵夫群, 李晶晶

    DOI:10.11834/jig.260124
    img
    摘要:目的针对现有点云分类网络在局部几何结构建模、特征融合及表达能力方面的不足,提出一种基于空间域几何特征与频域解耦的多粒度点云分类。方法网络采用多维度多分支特征融合架构:首先,在空间域维度,整合点特征分支与全局特征分支,利用改进的边缘卷积算子及递增近邻数序列实现从局部到全局的多尺度几何特征聚合,并引入通道注意力机制实现显著性特征的自适应增强;在频域维度,通过局部频谱特征提取器解耦低频、高频及频谱差异信息,并利用选择性状态空间模型实现局部区域内的长距离特征交互;最后,融合正则化策略、双路池化和多重分类器,实现点云分类。结果该方法在ModelNet40数据集的总体准确率和平均准确率分别达到93.0%和90.7%,相较于现有方法分别提升约1.0%和2.0%,在ScanobjectNN数据集的总体准确率和平均准确率分别达到82.4%和79.8%,相较于现有方法分别提升约3.4%和4.6%,在ShapeNet Part数据集的实例平均交并比与类别平均交并比分别达到85.94%和83.32%,相较于现有方法分别提升约0.8%和0.7%。结论本方法能有效提升点云局部结构建模能力与尺度适应性,在保持模型轻量化的同时,显著提升了分类性能。  
    关键词:点云分类;空间域;频域;边缘卷积模型;选择性状态空间模型   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157794938 false
    更新时间:2026-06-05

    翁子辉, 张权, 谢晓华, 赖剑煌

    DOI:10.11834/jig.260095
    img
    摘要:扩散模型已迅速发展成为生成式视觉模型的主要范式。然而,模型所固有的记忆遗忘机制使得模型不自觉地记忆训练数据集中的敏感信息,进而加剧了图像领域的隐私安全和版权问题。尽管记忆与遗忘机制在语言模型领域已有深入研究,但在扩散模型这一视觉生成任务的核心技术中,仍缺乏系统性的综述。本综述旨在填补这一空白,具体从扩散模型的理论建模和模型架构的介绍,到模型记忆在非时序和时序扩散模型上的定义,对于模型记忆在扩散模型上的理解和对模型记忆在模型审计方和恶意攻击方两方面的量化方法,再到模型遗忘统一框架下差分隐私、提示词优化、模型遗忘的模型记忆缓解方法五个方面进行探讨,最后,本文展望了扩散模型中记忆-遗忘机制的未来发展方向,并重点指出了当前面临的关键挑战,包括隐私数据处理流水线和基准测试亟待规范,更符合扩散模型特性的模型记忆定义和模型遗忘算法,新学习场景的模型记忆-遗忘机制和垂直领域落地。  
    关键词:扩散模型;人工智能安全;隐私安全;模型记忆;模型遗忘   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157794907 false
    更新时间:2026-06-05

    于洁潇, 付雨杰, 刘婧

    DOI:10.11834/jig.260171
    img
    摘要:目的针对遥感变化字幕生成任务中关键变化区域表征不足、双时相差异关系建模不充分以及模型复杂度较高等问题,提出了一种双时相特征增强引导的多关系差异耦合遥感变化字幕生成方法。方法采用基于残差网络50(residual network-50,RN50)的RemoteCLIP,即RemoteCLIP-RN50,提取双时相遥感影像深层语义特征,在此基础上,通过双时相特征增强策略对关键变化区域和重要语义通道进行自适应强化;随后构建多关系差异耦合框架,对双时相原始特征、绝对差异、乘积交互和相似性信息进行关系建模,以增强变化语义表达能力,最后利用文本解码器实现变化描述语句生成。结果在LEVIR-CC数据集上的实验结果表明,所提方法取得了83.62的双语评估替补指标(bilingual evaluation understudy,BLEU)-1、60.22的BLEU-4、64.94的基于最长公共子序列的面向召回摘要评估指标(recall-oriented understudy for gisting evaluation-longest common subsequence,ROUGE-L)和128.58的基于共识的图像描述评估指标(consensus-based image description evaluation,CIDEr)。其中BLEU-1和CIDEr优于对比方法;同时,本文方法参数量为41.50M,低于多种经典及近年代表方法,体现出较好的性能—复杂度平衡。在DUBAI-CC数据集上的补充实验中,本文方法取得了63.75的BLEU-1、34.14的BLEU-4、56.62的ROUGE-L和90.09的CIDEr,其中BLEU-4、ROUGE-L和CIDEr均取得最优结果,说明所提方法具有一定跨数据集适用性。消融实验表明,双时相特征增强策略和多关系差异耦合单元均能有效提升变化描述性能;进一步的关系项协同实验表明,在双时相特征增强后,完整多关系耦合在BLEU-1、ROUGE-L和CIDEr上取得最佳效果,说明特征增强有助于提升不同差异关系信息之间的互补表达能力。结论本文方法围绕双时相变化表征过程开展针对性设计,在保持模型结构相对简洁的前提下有效提升了遥感变化字幕生成性能,并在不同数据集上表现出较好的适用性。  
    关键词:遥感变化字幕;双时相遥感影像;特征增强;多关系差异耦合;变化描述   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157794881 false
    更新时间:2026-06-05

    余雅婷, 曹聪琦, 王昭颖, 张艳宁

    DOI:10.11834/jig.260215
    img
    摘要:随着低空经济和智能无人系统的发展,无人机逐渐从传统的遥控飞行平台演化为集环境感知、语义理解与自主决策于一体的空中智能体。近年来,以视觉基础模型、视觉语言模型和多模态大模型为代表的视觉理解大模型,为无人机在复杂开放环境中的感知、理解与决策提供了新的技术范式。围绕无人机视觉理解能力的演进逻辑,本文构建了基础感知—语义推理—决策规划的三层能力分析框架,并以此为主线系统梳理无人机场景视觉理解大模型的研究进展。在任务层面,依据该能力框架构建无人机视觉理解任务体系,归纳了基础目标感知、事件语义分析、空间环境理解与飞行决策规划等典型任务,并分析航拍视觉在尺度变化、远距离观测与复杂动态环境中的关键挑战。在技术层面,沿着同一能力演进逻辑,系统回顾视觉理解方法从传统深度学习算法与视觉基础模型的感知建模,发展到大语言模型与多模态大模型的语义推理与跨模态交互,再到具身视觉—语言—行动模型的智能决策与任务规划的技术演进路径。在此基础上,重点综述视觉理解大模型在无人机视觉感知增强、视觉语义推理以及视觉决策规划三个核心能力维度的研究进展,并分析其在开放词汇感知、跨模态推理、复杂空间关系理解与具身智能决策等方面带来的关键能力提升。同时,对当前无人机视觉理解领域的主流数据集与评测基准进行了系统总结,并分析当前评测体系正由传统任务导向逐步向能力导向评估范式演进。最后,针对无人机平台资源受限、实时推理需求以及系统安全可靠性等问题,对视觉理解大模型在无人机领域未来的发展方向进行了展望。  
    关键词:多模态大模型;视觉基础模型;无人机;视觉理解;智能决策;综述   
    39
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157321805 false
    更新时间:2026-05-27

    董燕, 贾季洁, 高广帅, 高君宇, 李湘云, 李春雷

    DOI:10.11834/jig.260167
    img
    摘要:目的旋转目标检测是遥感图像处理领域的重要任务,针对其存在的角度边界不连续和旋转框参数耦合导致的回归困难两大挑战,本文提出置信度加权引导角度修正的旋转目标检测算法。方法首先,为解决角度边界不连续问题,引入了角度调制模块(Angle Modulation Module, AMM),通过复指数编解码机制将角度映射为连续可微信号,从而使得边界回归平滑。其次,设计三分支解耦回归(Three-Branch Decoupled Regression, TBDR)模块,将传统联合回归检测头解耦为中心坐标、尺度和角度三个独立分支,实现各几何参数的独立学习,解决参数特征混淆与梯度冲突。最后,提出动态角度置信度加权(Dynamic Angle Confidence Weighting, DACW)机制,通过轻量级置信度预测分支量化角度预测可靠性,动态调控AMM模块的修正强度,实现“高置信度预测少修正、低置信度预测多修正”的智能优化。结果实验在DOTAv1.0和HRSC2016两个公开遥感数据集上与其他算法进行了比较,结果验证了本文所提方法的有效性和优越性。所提方法在DOTAv1.0数据集上的mAP达到76.52%,相较基准算法提升了8.09%,在HRSC2016数据集上达90.30%。消融实验进一步证实了所提模块的有效性。结论本文提出了一种置信度加权引导角度修正的遥感旋转目标检测算法,有效解决了角度边界不连续与旋转框参数耦合问题,显著提升了复杂场景下任意方向目标的检测精度。  
    关键词:遥感图像;旋转目标检测;角度边界不连续;回归参数耦合;置信度加权   
    45
    |
    13
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157321731 false
    更新时间:2026-05-27

    郭玉荣, 何雨非, 张珂, 张铁峰, 杨宏

    DOI:10.11834/jig.250581
    img
    摘要:目的红外与可见光图像融合能够为变电站设备检测提供丰富的特征信息,然而,现有融合算法所生成的图像中目标设备显著性不足、结构信息模糊、与背景区分度较低,导致检测模型难以提取有效的判别性特征,影响检测模型的准确性与鲁棒性。为此,本文提出一种面向变电站设备检测的双分支感知增强红外与可见光图像融合算法。方法本文设计了一种面向变电站设备结构-细节特征的“解耦-增强-融合”框架,通过引入特征增强机制的双路编码架构,有效提升了融合图像中设备的拓扑完整性与特征显著性。具体来说,首先,构建由共享分支与互补分支构成的双路编码架构,实现设备共性结构特征与细节纹理、热特征的有效解耦;其次,针对设备共性结构特征,设计结构增强模块(structure enhancement module, SEM)以强化设备轮廓;针对设备细节纹理与热特征,引入多分支特征增强模块(multibranch feature enhancement module, MFEM)以强化其对设备外观及温度等关键信息的表达;最后,通过共享-互补特征融合模块实现多模态特征有效整合,经由解码器重构出结构清晰、细节丰富的高质量融合图像。结果本文通过在变电站设备红外与可见光图像数据集上的实验表明:在红外与可见光图像融合任务中,本文模型在EN、SF、MI、QAB/F、PSNR以及SSIM六项常规指标上均展现了优异的性能。在变电站设备检测任务中,本文算法在悬式绝缘子、柱式绝缘子、电流互感器、电压互感器以及套管上均表现出较高的准确性,在平均准确率(mAP50)方面,较红外图像提升40.1%,较可见光图像提升1.2%,并优于先进图像融合算法3.9%,显著提升了变电站设备检测的鲁棒性。此外,本文通过消融实验与可视化分析进一步验证了算法有效性及模型合理性。结论本文算法显著提升了在变电站场景下,红外与可见光图像融合生成的图像质量以及设备检测性能,相较于单模态图像与现有融合方法具有明显优势,实现了图像融合技术与变电站应用场景的紧密结合,有助于推动多模态融合技术在电力智能巡检中的实际应用与进一步发展。  
    关键词:电力巡检;目标检测;图像融合;特征增强;注意力机制   
    31
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157321278 false
    更新时间:2026-05-27

    李卫斌, 高佳峰, 徐兵, 侯彪, 焦李成

    DOI:10.11834/jig.260103
    img
    摘要:随着元宇宙与沉浸式人机交互技术的飞速发展,音频驱动的数字人生成(Audio-Driven Talking Head Generation)已成为数字人领域的研究热点。该技术旨在建立从一维语音信号到三维视觉流的跨模态映射,其核心挑战在于在保证唇形精准同步的同时,实现高保真的视觉外观与实时渲染。本文提出了音频驱动数字人通用技术框架,并从技术演进的视角系统梳理了该领域的最新进展。本文回顾了早期的二维(two-dimensional,2D)图像生成方法,分析了其在三维一致性与大姿态驱动上的局限性;进而深入探讨了基于神经辐射场(neural radiance fields,NeRF)的方法,阐述了基于隐式空间建模解决视角一致性的技术方案,并总结该方法面临的推理效率瓶颈;随后,重点综述了当前两大前沿范式:3D高斯溅射(3DGS)范式,其利用显式几何原语突破实时渲染的算力限制;扩散模型(diffusion models)范式,该范式可显著提升生成的细节纹理与动作表现力。此外,本文还归纳了主流的音频驱动数字人数据集与客观评价体系(如唇形同步网络(SyncNet)、Fréchet inception distance(FID)等)。最后,对跨身份泛化、情感与全身交互、以及端侧轻量化部署等开放性挑战进行了深入分析与展望。  
    关键词:数字人;音频驱动;说话头生成;神经辐射场;3D高斯溅射;扩散模型   
    17
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157321213 false
    更新时间:2026-05-27

    袁林, 李阳, 苗延飞, 李枭扬, 曹聪琦

    DOI:10.11834/jig.260216
    img
    摘要:随着全球航空运输需求持续增长,单机长体制(single-pilot operation,SPO)成为民航领域应对飞行员短缺与人力成本攀升的核心发展方向。然而,从双人机组向单人驾驶的转变,核心瓶颈在于如何填补缺失副驾驶后产生的认知与决策空缺。为此,“AI副驾驶”概念应运而生,旨在通过具备深度感知、语义理解与自主决策能力的智能系统,与人类飞行员构建认知型协作关系。本文系统梳理了人工智能辅助飞行驾驶的关键技术,构建了“感知-认知-推理-交互决策-安全监控”的系统分析框架。重点阐述了基于脑电图(electroencephalogram,EEG)、功能性近红外光谱(functional near-infrared spectroscopy,fNIRS)及计算机视觉的多模态生理行为感知技术,分析了其在实时监测飞行员负荷与疲劳状态方面的最新进展。同时,针对复杂的陆空通话环境,探讨了基于大模型架构的空管指令意图识别与语义提取技术。此外,文章还归纳了大模型与深度强化学习协同驱动的智能航路规划与冲突解算方法,并深入剖析了当前阻碍AI技术商业化落地的核心壁垒,包括深度学习模型的不可解释性、人机信任机制的缺失以及非确定性智能系统的适航认证困境。最后,本文指出大模型驱动的多模态统一架构与运行时保障适航路径是未来航空人工智能发展的关键方向,旨在为实现高透明度、深层人机协同的智能驾驶舱提供参考。  
    关键词:人工智能;AI副驾驶;飞行员状态感知;智能语音交互;深度强化学习   
    23
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157321179 false
    更新时间:2026-05-27

    张腾, 王聪, 缪峰, 杨玉超

    DOI:10.11834/jig.260090
    img
    摘要:神经形态计算作为一种受生物神经系统启发的计算范式,旨在通过硬件手段突破传统冯·诺依曼架构的存算分离瓶颈,实现高效、低功耗及大规模并行处理能力。本文综述了面向存算一体应用的神经形态材料与器件的最新研究进展。首先,本文详细探讨了基于不同材料体系的物理机制与器件实现,包括成熟的硅基场效应器件,以及基于忆阻、相变、铁电、自旋和光电效应的新兴材料器件。这些器件利用电阻开关、极化翻转或光电耦合等内禀动力学特性,成功模拟了LTP/LTD 突触可塑性及神经元积分-发放等关键生物功能。其次,文章系统阐述了人工突触与人工神经元的设计策略,涵盖了电学、光学及多物理场融合的器件结构及其在感知与计算中的具体应用。最后,本文从系统集成的角度,分析了突触-神经元协同单元、器件-算法协同优化设计以及大规模神经形态硬件系统在边缘计算、脑机接口和智能机器人等领域的应用前景。本综述旨在为构建下一代高能效、强自适应的类脑智能系统提供全面的材料基础与器件技术参考。  
    关键词:神经形态计算;存算一体;人工突触;人工神经元;新兴电子材料;类脑芯片   
    36
    |
    21
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157006604 false
    更新时间:2026-05-20

    朱进东, 张玉金, 张涛, 王永琦, 吴飞

    DOI:10.11834/jig.250501
    img
    摘要:目的对抗训练(adversarial training,AT)是防御对抗攻击的主要方法,能够有效提升深度神经网络(deep neural networks,DNN)的鲁棒性。快速对抗训练(fast adversarial training,FAT)在降低计算开销的同时,易发生灾难性过拟合,导致模型鲁棒性下降。为此,本文提出了一种先验结构引导的快速对抗训练方法。方法首先,设计了基于图像梯度与结构先验的扰动引导机制,指导多样化对抗样本的生成;然后,通过在连续批次之间共享对抗扰动信息,有效缓解了单步对抗训练中梯度方向收敛过快的问题;最后,构建正则化损失函数,将结构引导与分类损失联合优化,进一步提升模型的鲁棒性与收敛稳定性。结果在CIFAR-10与CIFAR-100数据集上,以ResNet-18为目标网络,面对PGD-10攻击时,所提算法在CIFAR-10上的鲁棒精度比现有FAT方法提升了约2%~12%,在CIFAR-100上提升了约2%~8%;同时在干净精度保持率方面表现优异。实验结果表明所提方法不仅可以有效避免灾难性过拟合,而且可以提高模型的鲁棒性和泛化能力,能够更好地应对不同的对抗攻击。结论本文方法有效结合了先验结构引导机制与快速对抗训练框架,既保持了FAT的高效性,又改善了对抗训练的稳定性,显著提升了深度神经分类网络的防御性能。  
    关键词:对抗训练;对抗样本;扰动初始化;鲁棒性;结构特征   
    17
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157006559 false
    更新时间:2026-05-20

    陈再良, 刘佰成, 伍文佳, 沈海澜, 刘慧

    DOI:10.11834/jig.260065
    img
    摘要:目的半监督学习在医学图像分割领域已取得显著进展。然而,由于医学图像中普遍存在低对比度和组织边界模糊等问题,模型在无标注数据上生成的伪标签往往包含不准确区域。在一致性训练过程中,这些误差会被反复利用并逐步累积,从而显著削弱模型的分割性能。磁共振成像(magnetic resonance imaging,MRI)图像中,组织边界更加模糊、对比度更低,使得上述问题进一步加剧。为解决这一问题,本文提出了一种基于偏差矫正与对比学习的半监督MRI图像分割方法BC-Net。方法具体而言,BC-Net通过设计一种偏差矫正机制,对伪标签中置信度高但不可靠的偏差区域进行识别与修正,并在一致性训练中对这些偏差区域赋予更高权重,以有效缓解潜在错误的影响。同时,针对高置信度且无偏差的区域,引入对比学习策略,以这些区域作为锚点进行采样,从而提取更加有效的全局表示。上述双重策略使模型能够同时充分利用偏差区域与无偏差区域的信息,显著提升分割能力。结果本文在私有子宫内膜癌MRI数据集和两个公开MRI数据集上进行了大量实验,与现有方法相比提升了分割性能,验证了方法的有效性。结论BC-Net能够同时充分利用偏差区域与无偏差区域的信息,有效抑制伪标签偏置带来的负面影响,显著提升半监督MRI图像分割的整体性能,具有良好的应用前景。  
    关键词:一致性训练;对比学习;偏差矫正;半监督学习;医学图像分割   
    32
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157006519 false
    更新时间:2026-05-20

    曹丝露, 刘高志, 奚美娟, 张新鹏, 钱振兴

    DOI:10.11834/jig.250613
    img
    摘要:目的在文化数字化建设和民族文化保护需求不断增长的背景下,民族服饰的准确分类具有重要的研究与应用价值。传统上,民族服饰分类大多依赖专业人员的人工处理,这种方式成本高、耗时长且劳动强度大。因此,开发自动化的民族服饰分类方法已成为迫切需求。方法本文提出了一个标注完善的民族服饰数据集 EthnicFashion,该数据集包含数千张图片,涵盖数十个民族。包括原始图像、类别标签、关键点标注以及分割掩码等相关标注信息。此外,考虑到数据稀缺和合适方法匮乏这两个该领域面临的主要挑战,我们提出将数据生成和上下文信息增强作为插件,应用于各类骨干网络,以提升分类模型的性能。具体而言,前者利用生成模型生成具有更鲜明民族风格特征的数据,用于数据增强;后者通过整合关键点检测与分割所识别的区域,实现上下文信息的增强。结果在 EthnicFashion 数据集上,我们使用不同基线模型和所提方法进行了大量实验,结果表明该方法在民族服饰分类任务中表现优异。以当前表现最优的基线模型为例,引入本文方法后,Top-1 分类准确率提升15%以上,并在不同少样本设置下均取得稳定性能增益,显著优于原始基线模型。结论本文所提出的少样本民族服饰分类方法,通过构建高质量的 EthnicFashion 数据集,并结合数据生成与上下文信息增强技术,有效缓解了数据稀缺问题,显著提升了民族服饰分类的准确性与泛化能力。数据集已上传至地址:10.57760/sciencedb.j00240.00167。  
    关键词:民族服装数据集;民族服饰图像分类;少样本;生成模型;双分支网络   
    20
    |
    17
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157006485 false
    更新时间:2026-05-20

    韩晓光, 修宇亮, 徐震, 连宙辉, 彭思达, 姚遥, 陈安沛, 黄经纬, 张邦, 许岚, 徐枫, 章国锋, 许威威, 虞晶怡, 刘利刚, 陈宝权, 刘烨斌, 周晓巍

    DOI:10.11834/jig.260070
    img
    摘要:近年来,三维视觉领域正经历一场深刻的范式转变,核心问题正从单一的“感知重建”逐步迈向“重建—生成—交互”的一体化新阶段。本文旨在系统梳理三维重建与生成技术的前沿进展,对三维重建、三维生成及三维数字人等方向进行综述,剖析优化式与前馈式重建方法的原理差异,评估物体级生成、CAD (computer-aided design) 生成及具身智能场景生成的现状与挑战,并对比2D与3D数字人技术在实时渲染与复杂交互中的表现。分析显示,三维重建技术中,优化式方法虽精度占优但计算冗余,而前馈式方法虽推断迅速但细节不足,两者融合及多模态语义注入是当前主流;三维生成领域,技术焦点已从单纯的视觉质量转向部件级可控性,但CAD生成仍面临“脏几何”难以满足制造标准的难题;数字人技术方面,2D生成技术展现了非凡的生成能力与迭代速度,而3D技术在处理复杂空间交互时具有不可替代性。研究表明,三维领域正经历从“观测驱动重建”向“数据驱动生成”的范式转变,未来发展将集中在前馈式与优化式方法的深度融合,三维生成向工业可用性与可编辑性演进,三维技术与具身智能、数字人等场景深度耦合三方面。未来,三维重建与生成将不再是孤立的视觉问题,而是支撑虚实融合与智能决策的基础能力。  
    关键词:三维重建;三维生成;数字人;空间智能;具身智能   
    30
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 157006420 false
    更新时间:2026-05-20
0