最新刊期

    2026 31 3

      综述

    • 多视角立体匹配三维重建研究综述 AI导读

      多视角三维重建是计算机视觉与图形学中的关键问题之一,广泛应用于虚拟现实、增强现实、自动驾驶和文物修复等领域。其核心目标是从多个视角的图像或视频中恢复出三维场景的几何结构信息,实现物体和场景的高精度三维建模。专家从图像投影—几何推理与全局—局部两个维度将现有多视角三维重建方法分成4个类别,介绍了各类方法的典型模型、最新研究进展和它们的适用性及局限性。
      袁祯泷, 李泽昊, 陈科桦, 毛天露, 蒋浩, 王兆其
      2026, 31(3): 657-685. DOI: 10.11834/jig.250348
      多视角立体匹配三维重建研究综述
      摘要:多视角三维重建是计算机视觉与图形学中的关键问题之一,广泛应用于虚拟现实、增强现实、自动驾驶和文物修复等领域。其核心目标是从多个视角的图像或视频中恢复出三维场景的几何结构信息,实现物体和场景的高精度三维建模。本文创新性地从图像投影—几何推理与全局—局部两个维度将现有多视角三维重建方法分成4个类别,然后简要介绍了各类方法的典型模型、最新研究进展和它们的适用性及局限性。此外,本文还探讨了多视角三维重建中常用的数据集和评价指标,并从场景、方法优缺点等多个角度对各类方法进行了详细评估。最后,本文深入分析了在多模态大模型、元宇宙等背景下三维重建面临的机遇和挑战,提出了未来的研究和发展方向。  
      关键词:多视角立体匹配(MVS);三维重建;三维视觉;神经辐射场(NeRF);三维高斯泼溅(3DGS)   
      459
      |
      771
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129893336 false
      更新时间:2026-03-18
    • 深度学习三维点云上采样算法综述 AI导读

      随着3D扫描技术普及,点云数据在自动驾驶等领域广泛应用,但存在密度不均等问题。专家提出基于深度学习的点云上采样技术,建立层次化分类框架,为提升点云数据质量提供新方案。
      詹杰, 徐帆, 时逸舟, 马凯光
      2026, 31(3): 686-718. DOI: 10.11834/jig.250314
      深度学习三维点云上采样算法综述
      摘要:随着3D扫描技术和激光雷达等设备的普及,点云数据在自动驾驶、机器人感知以及文化遗产数字化保存等领域得到广泛应用。然而,受测量设备分辨率、环境遮挡及材质反射特性等因素限制,原始点云数据通常存在密度不均、细节缺失等问题,严重制约了其在目标检测、语义分割等下游任务中的性能表现。点云上采样技术旨在通过智能算法将低分辨率点云数据重建为高密度、均匀分布的三维点云,以恢复物体表面的精细几何结构。深度学习技术的迅猛发展为点云上采样提供了新的解决方案,极大地提升了点云数据的质量和可用性。本文全面综述了基于深度学习的点云上采样技术,分析了传统几何方法的局限性,并提出一种层次化分类框架,将深度学习方法划分为监督式与无监督式两大类。监督式方法进一步细分为三段式、生成式、几何扩充—坐标优化及表面重建式4种主要范式;无监督式方法则从不同角度利用稀疏点云的内在信息或变换生成监督信号,摆脱了对配对密集点云的依赖。本文还系统整理了该领域的基准数据集与评估指标,并通过对比实验展示了代表性方法的性能表现。最后,总结了当前技术瓶颈,并对未来研究方向进行了展望,为三维视觉领域的研究者提供了重要参考。  
      关键词:深度学习;三维视觉;点云上采样;生成模型;表面重建;无监督学习   
      159
      |
      294
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129892981 false
      更新时间:2026-03-18
    • 自动驾驶轨迹规划综述 AI导读

      自动驾驶技术在交通领域具有变革性意义,专家从传统算法、强化学习和模仿学习3个方面梳理了自动驾驶轨迹规划领域的前沿成果,为后续研究者提供了研究方向及参考。
      李程翔, 胡海霄, 郭大波, 陈荣敏, 吴宏坤, 袁畅
      2026, 31(3): 719-744. DOI: 10.11834/jig.240774
      自动驾驶轨迹规划综述
      摘要:自动驾驶技术是交通领域重要的前沿技术,其发展对交通安全和效率具有变革性意义。本文试图从传统算法、强化学习和模仿学习3个方面介绍自动驾驶轨迹规划领域的前沿成果,对主要相关文献进行了梳理。首先,介绍了目前较为主流的自动驾驶框架:模块化和端到端,并论述了轨迹规划在两种框架中的使用;其次,对传统算法在轨迹规划中的最新运用进行梳理;在此基础上,总结了混合传统算法的发展方向;对当下较为新颖的强化学习和模仿学习路径规划算法进行总结,列举了针对强化学习算法中安全性不足和样本效率低等核心问题提出的众多典型解决方案,如虚拟仿真驾驶平台、终身学习等;同时总结了模仿学习的改进措施,如引入自学习、元学习等;还对如今热门的视觉语言模型和视觉语言动作模型路径规划进行了分析,阐述强化学习在其中的作用;概述了以扩散模型结合强化学习的未来发展趋势,以及世界模型在自动驾驶中的运用;最后分析了高质量自动驾驶存在的挑战。本文旨在通过系统的梳理,凝练出自动驾驶轨迹规划领域中存在的挑战以及发展趋势,期望为后续研究者提供研究方向及参考。  
      关键词:自动驾驶;轨迹规划;传统规划算法;强化学习(RL);模仿学习(IL);视觉语言动作模型;扩散模型(DM);世界模型   
      402
      |
      698
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 126140964 false
      更新时间:2026-03-18

      图像处理和编码

    • 分布范围动态感知的扩散模型量化 AI导读

      扩散模型在图像生成等领域应用前景广阔,但现有模型存在存储开销大、推理时延长等问题。专家设计了一种分布范围动态感知的训练后量化方法,通过校准过程中的量化参数选择、微调及误差抑制,显著提升了量化扩散模型在低激活比特位宽上的性能,为解决量化模型性能差距问题提供了有效方案。
      占瑞乙, 樊轶, 周丽娜, 谢宇宝, 陈佳鑫, 杨鸿宇, 黄迪, 王蕴红
      2026, 31(3): 745-754. DOI: 10.11834/jig.250319
      分布范围动态感知的扩散模型量化
      摘要:目的扩散模型在图像生成、艺术创作等领域具有广泛的应用前景。然而,现有扩散模型存在存储开销大、推理时延长等问题。已有工作通过模型量化减少存储及推理时间消耗,但在量化过程中面临诸多挑战。一方面,噪声估计网络结构复杂,不同模块对量化误差的敏感性存在显著差异;另一方面,其多采样时间步特性使量化模型在推理时存在误差累积问题。现有量化方法未能考虑模块间量化差异和多时间步推理特性,因而量化模型性能较全精度模型仍有较大差距。为此,设计了一种分布范围动态感知的训练后量化方法。方法在校准过程中,首先基于模块的量化误差对量化参数进行选择;再基于输入激活值的分布范围对不同网络模块中的量化参数进行微调;最后,依次计算全精度扩散模型与量化模型在每个采样时间步下估计噪声之间的均方误差,抑制多采样时间步推理过程中的累积量化误差。结果在CIFAR-10(Canadian Institute for Advanced Research)、LSUN-Bedroom(large-scale scene understanding)与LSUN-Church这3个公开数据集上采用DDIM(denoising diffusion implicit model)与LDM(latent diffusion model)两种扩散模型,使用不同量化位宽(W8A8,W4A8,W6A6),并与主流扩散模型量化方法进行对比。实验结果表明,所提方法将DDIM量化至W6A6时,在CIFAR-10数据集上取得了(IS:9.40,FID:4.61)的性能表现,与全精度DDIM性能(IS:9.12,FID:4.12)相近;相较于对比量化方法,所提方法将IS(inception score)值提高了0.34,FID(Frechet inception distance score)值降低了1.96。在LSUN-Church数据集上,相较于已有工作,所提方法量化LDM至W8A8时,将FID值降低了0.34。此外,所提方法与现有量化方法结合均能进一步取得一致性提升。结论本文所提出的分布范围动态感知的训练后量化方法同时考虑了扩散模型的多时间步推理特性与模块间量化差异,显著提升了量化扩散模型在低激活比特位宽上的性能,且该方法可作为即插即用模块与已有量化方法结合取得更优的性能。  
      关键词:图像生成;扩散模型(DM);模型压缩;推理加速;模型量化;训练后量化   
      110
      |
      205
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 127251153 false
      更新时间:2026-03-18
    • 特征阻断的计算机视觉模型后门防御机制 AI导读

      介绍了其在计算机视觉模型安全领域的研究进展,相关专家提出了一种基于特征阻断的轻量化后门防御机制,为解决现有模型防御方案面临的计算资源消耗、模型参数损伤及部署灵活性受限等问题提供了高效解决方案。
      仝松松, 杨奎武, 王雯, 魏江宏, 贺浩峰
      2026, 31(3): 755-768. DOI: 10.11834/jig.250260
      特征阻断的计算机视觉模型后门防御机制
      摘要:目的后门攻击通过触发器—标签强关联已严重威胁计算机视觉模型的安全性。现有模型防御方案普遍依赖全模型微调或架构重构,面临计算资源消耗显著攀升、模型参数不可逆损伤以及部署灵活性受限等挑战。针对上述问题,面向图像分类模型提出一种基于特征阻断的轻量化后门防御机制,通过级联模块化设计,在无须任何攻击先验知识的前提下,仅需对原始模型嵌入轻量级阻断模块并进行定向微调,即可实现多场景后门特征的自适应阻断。方法设计级联特征阻断模块(包含跨通道空间过滤层、实例统计校准层、动态通道抑制层以及随机特征掩码层等),设计定向微调策略,在冻结原始模型参数的前提下,利用少量干净样本定向优化阻断模块参数,实现阻断模块对后门特征阻断与良性特征无损传递的双重目标,并通过PyTorch Hook机制实现模块的动态植入与无损移除。结果在MNIST(Modified National Institute of Standards and Technology)、CIFAR-10(Canadian Institute for Advanced Research)和MINI-ImageNet等3个数据集上,针对BadNets、Blended、WaNet、BppAttack和WaveAttack等5种典型后门攻击类型的对比实验表明:本文方法使攻击成功率平均下降90.0%,良性样本分类准确率损失小于3%,验证了防御机制的有效性和泛化能力。与主流模型防御方法相比,计算开销显著降低,阻断模块参数量不到原模型的1%;灵活部署性方面,支持运行时动态启停,移除后原始模型性能无损恢复。实验进一步验证了方法的架构普适性,在ResNet(residual network)和VGG-11(Visual Geometry Group)两种异构网络中,攻击成功率分别下降了90.0%和88.9%,表明防御机制具有跨模型鲁棒性。结论该机制通过轻量化模块化设计与微调机制,有效突破了传统模型防御方法在计算成本与灵活性层面的瓶颈问题,其即插即用与无损移除特性为实际场景中的模型安全部署提供了高效解决方案。  
      关键词:模型安全;图像分类;后门防御;特征阻断;轻量化;动态启停   
      132
      |
      178
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 127250461 false
      更新时间:2026-03-18

      图像分析和识别

    • 融合多光流与KAN的微表情识别方法 AI导读

      微表情识别领域迎来新突破,相关专家提出融合多光流与KAN的识别方法,有效应对光照变化等问题,显著提升识别性能,为该领域研究开辟新方向。
      常合友, 杨佳铮, 高广谓, 张键, 郑豪
      2026, 31(3): 769-782. DOI: 10.11834/jig.240572
      融合多光流与KAN的微表情识别方法
      摘要:目的微表情是由个体的内在情感反应引发的面部肌肉活动,在心理诊断、医学以及刑侦测谎等领域有着广泛应用场景。现有微表情识别方法大都利用单一光流获取面部运动差异,无法有效应对光照变化或表情强度不一致等问题。为了解决上述问题,提出一种融合多光流与KAN(Kolmogorov-Arnold network)的微表情识别方法(multiple optical flow feature fusion,MOFFFN),通过捕获多层次、多角度的面部运动差异,提高微表情识别性能。方法首先,提取3种不同的光流特征,并构造光流融合模块以捕获这些光流特征水平和垂直方向的信息;其次,构造一个新颖的特征提取模型,利用KAN与卷积注意力机制捕捉微表情的细微变化,提取更具鉴别能力的特征;最后,设计了一个高效的注意力下采样自注意力特征融合模块,能够在融合多光流特征的同时突出微表情变化的关键区域特征。结果使用主流的留一交叉验证法(leave-one-subject-out-cross-validation, LOSOCV)在公开数据集CASME II(Chinese Academy of Sciences micro-expression II)、SAMM(spontaneous actions and micro-movements)和SMIC-HS(spontaneous micro-expression corpus-high speed)以及复合数据集(composite dataset, CD)上进行验证,本文方法的未加权平均召回率(unweighted average recall, UAR)分别为91.79%、85.69%、86.56%和85.03%,未加权F1分数(unweighted F1-score, UF1)分别为92.95%、89.10%、91.78%和87.63%,性能优于主流的微表情识别方法。结论本文提出的方法通过融合多种光流特征,利用KAN和注意力机制提取更具鉴别能力和鲁棒性的特征,显著提高了微表情识别的结果。本文公开代码地址:https://github.com/useless12138/mofffn。  
      关键词:微表情识别;光流;特征融合;KAN;自注意力机制   
      297
      |
      281
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 98368303 false
      更新时间:2026-03-18
    • 几何优化与交互式标注融合的绝缘子三维表面缺陷检测 AI导读

      电力绝缘子表面缺陷检测领域迎来新突破,相关专家开发出基于三维几何信息的自动化检测方法,通过结构光扫描与优化算法,实现缺陷精确定位与定量分析,为电力设备安全可靠性评估提供有力技术支撑。
      李润桥, 王鹏飞, 左巍, 朱林海, 陈双敏, 辛士庆, 屠长河
      2026, 31(3): 783-796. DOI: 10.11834/jig.250355
      几何优化与交互式标注融合的绝缘子三维表面缺陷检测
      摘要:目的电力绝缘子作为输电系统的关键组件,表面缺陷会严重影响其电气性能与安全可靠性。由于绝缘子外形结构复杂且传统检测方法存在精度低、效率差等局限性,本文旨在开发一种基于三维几何信息的自动化绝缘子表面缺陷检测方法,实现对缺陷区域的精确定位和定量分析。方法提出一种基于旋转对称先验的三维缺陷检测方法。通过结构光扫描获取绝缘子高精度三维模型,将模型沿径向分割并进行UV参数化处理,生成直观的二维法向映射图;用户在法向图中框选缺陷区域,系统将二维标注映射回三维空间;利用绝缘子固有的旋转对称特性,构建包含旋转体混合积约束和拉普拉斯正则化的优化目标函数,采用L-BFGS(limited-memory Broyden-Fletcher-Goldfarb-Shanno)算法重建理想无缺陷模型;通过比较原始模型与优化模型的几何差异,精确识别缺陷区域边界并计算缺陷面积。结果在包含瓷质绝缘子和复合绝缘子的27个真实三维模型数据集上进行验证。实验结果表明,该方法能够有效处理裂纹、气泡和凹坑等多种类型缺陷,缺陷面积测量的平均相对误差控制在0.2‰以内,单个缺陷检测的平均处理时间约为19.62 s,显著优于传统基于二维图像的检测方法。结论本文方法兼具高精度、高效率和强鲁棒性,适用于不同材质和结构的绝缘子缺陷检测,为电力设备质量控制和安全可靠性评估提供了有效的技术手段。该方法对具有旋转对称特性的工业产品缺陷检测具有普适性,可扩展应用于其他旋转体结构的表面质量检测领域。  
      关键词:电力绝缘子;缺陷检测;法向图;旋转对称;内蕴旋转对称性   
      38
      |
      100
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 125792381 false
      更新时间:2026-03-18

      图像理解和计算机视觉

    • 基于选择性注意力的红外小目标检测 AI导读

      红外小目标检测领域迎来新突破,相关专家构建了基于选择性注意力的检测网络SANet,为提升检测精度与降低误报率难题给出创新方案。
      张迎梅, 鲍王涛, 肖沁, 杨勇, 万伟国, 罗亦韬, 邹雪婷, 张磊
      2026, 31(3): 797-810. DOI: 10.11834/jig.250313
      基于选择性注意力的红外小目标检测
      摘要:目的红外小目标检测旨在从复杂背景中准确识别和定位弱小红外目标,在海上侦查、军事救援等任务中具有重要的应用前景。然而,受限于红外图像中目标尺寸小、对比度低等因素,当前的检测方法仍难以实现检测精度与误报率之间的平衡。针对上述问题,提出一种基于选择性注意力的红外小目标检测网络(selective attention-based network for infrared small target detection,SANet)。方法具体而言,设计了双路径语义感知模块,用于增强网络对弱小目标的感知能力。该模块融合了标准卷积与风车型卷积两种路径,兼顾局部空间一致性与全局上下文感知能力,并进一步引入空间/通道注意力机制以细化特征表达,从而有效提升了目标与背景的可区分性。此外,为克服U-Net中静态跳跃连接在特征融合中的局限性,进一步提出了选择性注意力融合模块。该模块基于空间动态权重机制实现跨尺度特征的自适应融合,能够根据空间显著性选择性增强关键区域,从而提升对真实目标与误报的辨识能力。结果在3个公开基准数据集上的实验结果验证了所提出的SANet在交并比(intersection over union,IoU)、nIoU、Pd和Fa 4个指标上均优于现有先进方法,其中,本文方法的IoU指标在上述基准数据集上比次优方法分别提升1.93%、4.32%和2.21%。结论SANet有效增强了网络对小目标的感知能力、关键特征的表达能力以及背景干扰的抑制能力。源代码可以在https://gitcode.com/m0_61988291/SANet上获取。  
      关键词:红外小目标检测(IRSTD);双路径语义感知模块(DSM);风车型卷积;选择性注意力融合模块(SAFM);空间动态权重机制   
      126
      |
      240
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129892942 false
      更新时间:2026-03-18
    • 深度—光源方向联合建模的图像重光照 AI导读

      重光照技术在元宇宙等领域应用广泛,但现有方法存在表达能力有限、易产生伪影等问题。专家提出深度—光源方向联合建模的重光照方法,通过提取深度等信息,设计神经渲染器,有效解决了现有问题,为重光照任务提供新方案。
      李泓臻, 杨主伦, 丁新, 刘琼, 杨铀, 李伟
      2026, 31(3): 811-825. DOI: 10.11834/jig.250032
      深度—光源方向联合建模的图像重光照
      摘要:目的重光照技术在元宇宙、增强现实和计算摄影中有广泛应用。当前,基于漫反射等光照反射模型的重光照方法,存在表达能力有限的问题;基于深度学习的重光照方法通过隐式建模光照过程,具有更丰富的表达能力。但端到端的重光照方法易产生错误的伪影。针对以上重光照方法存在的问题,提出一种深度—光源方向联合建模的图像重光照方法。方法首先,从输入图像中提取深度、法线和漫反射反照率信息,随后将深度作为场景几何表征,使用深度—光源方向联合建模的算法计算遮挡特征,设计TransUNet与U-Net串联的注意力—卷积神经渲染器,通过注意力机制捕获长程依赖关系,并利用卷积融合本征与遮挡特征,最终生成重光照图像。结果对比实验在RSR(real scene relighting)数据集和本文制作的HS(human stage)数据集上与4种重光照方法进行比较。本文方法在RSR数据集中取得了最优的峰值信噪比,结构相似性指数、可学习感知图像块相似度和平均感知得分,相比性能最优的对比方法在峰值信噪比和平均感知得分上分别提升5.45%和2.58%。本文方法在HS数据集上的可学习感知图像块相似度指标上取得了最优结果,且主观效果上更符合人类的直觉。结论本文方法通过引入显式约束和非局部运算,解决了现有端到端重光照方法缺乏准确的投射阴影和表面着色的问题,有效完成了重光照任务。  
      关键词:图像重光照;阴影生成;注意力机制;神经渲染;深度学习   
      132
      |
      305
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129893189 false
      更新时间:2026-03-18
    • 面向组合零样本识别的图文解耦合方法 AI导读

      组合零样本识别领域迎来新突破,研究者提出双模态解耦机制,通过文本端图神经网络与视觉端交叉注意力机制,显著提升模型对属性和物体概念的建模能力,增强未见组合识别效果。
      田弋, 钱毅鑫, 黄清宝, 陈佳岳, 钟磊, 伍贤瑞
      2026, 31(3): 826-839. DOI: 10.11834/jig.250189
      面向组合零样本识别的图文解耦合方法
      摘要:目的组合零样本识别是计算机视觉领域零样本学习任务的子任务,旨在从已经见过的组合图像中学习属性和物体概念,并将其迁移到未见过的组合上。现有方法对组合图像中属性和物体的解耦合能力不足,并且未能充分发挥文本标签对于属性和物体信息的解耦合作用。方法为解决组合图像中属性与物体信息纠缠的问题,针对文本与视觉模态的差异,提出双模态解耦机制:在文本端构建图神经网络以建模属性与物体间的语义关系,在视觉端引入交叉注意力机制增强对属性和物体特征的分离能力。该方法集成于语言图像预训练框架中,从语言与视觉两个层面提升模型对属性与物体概念的建模能力,从而增强未见组合的识别效果。结果在3个主流的组合零样本识别基准数据集MIT-States、UT-Zappos和C-GQA(compositional GQA)上对所提方法进行了系统评估,结果表明模型性能显著提升。以MIT-States数据集为例,在封闭世界设置下,相较于性能排名第2的模型,本文方法的AUC(area under curve) 提升3.3%,HM(Harmonic mean)提升2.4%,已见组合的识别准确率提升5.3%,未见组合提升1.0%;在开放世界设置下,本文方法的AUC提升0.9%,HM提升0.7%,已见组合与未见组合准确率分别提升3.2% 和1.0%。此外,在MIT-States数据集上对提出的文本与视觉解耦模块及其上下文建模组件进行了消融实验,进一步验证了各子模块对整体性能的有效贡献。结论所提出的图文双端解耦合模块提升了模型对于组合中属性和物体的学习能力,显著提升了模型在组合零样本识别任务上的表现。  
      关键词:零样本学习(ZSL);组合零样本识别(CZSL);解耦合;图卷积网络(GCN);交叉注意力;对比语言图像预训练(CLIP)   
      143
      |
      371
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 126141010 false
      更新时间:2026-03-18
    • 跨模态风格评分模型引导的矢量图风格迁移 AI导读

      介绍了其在矢量图风格迁移领域的研究进展,相关专家提出了一种跨模态风格评分模型引导的矢量图风格迁移方法(CLIPVGStyler),为解决现有方法风格迁移结果与人类视觉感知不符的问题提供了有效解决方案。
      郑舒洋, 陈佳舟, 朱欣定, 李凯勇
      2026, 31(3): 840-849. DOI: 10.11834/jig.250310
      跨模态风格评分模型引导的矢量图风格迁移
      摘要:目的矢量图风格迁移旨在将特定艺术风格应用于目标内容,同时保持其结构。然而,现有方法仅提取特定图像特征作为风格,导致迁移结果与人类视觉感知存在差距。为解决这一问题,提出了一种跨模态风格评分模型引导的矢量图风格迁移方法(vector graphics style transfer guided by cross-modal style evaluation models,CLIPVGStyler),旨在利用CLIP(contrastive language-image pre-training)模型的跨模态理解能力实现更符合感知的矢量图风格迁移。方法首先,将风格描述文本或风格参考图像作为输入,通过预训练的CLIP模型将其编码至共享语义信息的潜在空间,无需额外训练;然后,计算风格文本/图像编码与当前画面编码之间的余弦距离,构建风格损失,而内容损失则由像素域的L2距离和CLIP编码后的余弦距离共同组成;最后,通过迭代优化画面参数(路径控制点、颜色等)最小化联合损失函数(风格损失+内容损失),最终生成符合目标风格的矢量图。结果与先进的3种方法进行了风格迁移效率和风格质量比较,CLIP评分和用户调研的评分均更高,CLIP评分相比排名第2的模型高了0.003,用户调研的得分相比排名第2的模型高了0.36分,迭代速度排第2。实验结果表明,相比现有矢量图风格迁移方法,该方法生成的图像细节更精细,风格迁移效果更显著且符合人类视觉感知。此外,该方法在迭代优化速度上也展现出优势。结论本文提出的基于CLIP跨模态风格评分的CLIPVGStyler方法,有效融合了文本和图像的语义信息,成功解决了现有方法风格迁移结果与人类视觉感知不符的问题,显著提升了矢量图风格迁移的效果和效率。  
      关键词:矢量图;风格迁移;跨模态;少样本;CLIP   
      57
      |
      116
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 125790987 false
      更新时间:2026-03-18
    • 显式语义解耦与软提示驱动的组合零样本识别 AI导读

      组合零样本学习领域迎来新突破,相关专家提出融合显式语义解耦与软提示机制的跨模态识别方法,有效解决状态与物体特征混淆及语义对齐不足问题,显著提升模型泛化能力,为该领域研究开辟新方向。
      刘杰, 陶重犇, 沈忠伟, 罗喜召, 曹峰
      2026, 31(3): 850-861. DOI: 10.11834/jig.250265
      显式语义解耦与软提示驱动的组合零样本识别
      摘要:目的组合零样本学习(compositional zero-shot learning,CZSL)的目标是识别未见的状态—物体组合。然而,现有方法普遍存在状态与物体特征混淆,以及跨模态语义对齐不足的问题,导致模型在未见组合上的泛化能力受限。本文提出一种融合显式语义解耦与软提示机制的跨模态组合零样本识别方法,旨在通过显式语义解耦与软提示机制,提升模型在组合零样本识别中的表现。方法在语言模态端,构建可学习的软提示结构,生成结构化语义引导信号以增强状态与物体的区分性;在视觉模态端,基于变分自编码器(variational autoencoder,VAE)设计显式语义解耦机制,将图像特征划分为状态与物体两个子空间,并引入对抗判别器,通过对抗训练强化特征独立性和判别性。进一步地,提出跨模态关系融合模块,实现语言与视觉语义的有效对齐。结果在 MIT-States、UT-Zappos和 C-GQA(compositional GQA)3个基准数据集上进行的实验表明,本文方法在未见组合识别任务中取得了显著优势。在 MIT-States 数据集上的未见组合准确率达到 54.2%,较当前最佳方法提升 1.3%;在 UT-Zappos 和 C-GQA 数据集上,同样实现了超过现有方法的性能提升。消融实验与可视化分析验证了软提示结构、语义解耦机制与对抗判别器的有效性。结论本文提出的跨模态组合零样本识别方法有效缓解了状态与物体特征混淆以及跨模态语义不对齐的问题,显著提升了模型在未见组合上的泛化能力。该方法为组合零样本学习提供了一种结构清晰、泛化性能优越的新范式,具有重要的理论意义与应用价值。  
      关键词:组合零样本学习(CZSL);语义解耦;跨模态对齐;软提示;对抗训练   
      45
      |
      132
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 125792421 false
      更新时间:2026-03-18
    • 多模态引导裙装图像生成的结构化风格增强学习 AI导读

      专家提出多模态引导裙装图像生成新方法,构建结构化风格增强学习体系,有效解决多角度文本注释冗余冲突、跨区域风格传递有限及语义风格协同控制难题,为高质量裙装图像生成提供新方案。
      马嘉妮, 刘骊, 付晓东, 刘利军, 彭玮
      2026, 31(3): 862-879. DOI: 10.11834/jig.250338
      多模态引导裙装图像生成的结构化风格增强学习
      摘要:目的针对多模态引导的裙装图像生成中存在的多角度文本注释信息冗余与冲突、跨区域风格传递能力有限以及语义与风格难以精细协同控制的问题,提出了一种结构化风格增强学习方法。方法以文本描述作为输入,针对裙装特点设计动态属性模板生成策略,智能提取并重构7类关键裙装属性,构建消除冗余与冲突的结构化文本提示;建立文本反转语义融合机制,将裙装图像特征经文本反转生成伪词嵌入,与结构化提示融合,形成语义丰富的文本表示;构建跨域图像特征对齐模块,引入跳跃交叉注意力,实现草图结构与风格图像的选择性融合并实现跨区域风格关联;建立双重条件协同融合框架,将增强的文本表示与跨域风格表示分层注入潜在扩散模型,精细控制语义与风格以生成裙装图像。结果实验在DressCode Multimodal数据集裙装子集上与目前较新的5种方法进行比较。结果表明,所提方法的弗雷歇起始距离(Fréchet inception distance,FID)和学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)较对比方法提高2.131和0.193,对比语言图像预训练分数(contrastive language-image pre-training score,CLIPScore)和纹理分数(texture score,TS)分别提高17.57%和8.29%,说明本文方法具有更好的生成效果。结论本文提出的多模态引导裙装图像生成的结构化风格增强学习方法,能有效聚焦语义内容与风格结构间的深层关联,在确保多模态一致性的同时,实现高质量的裙装图像生成。  
      关键词:裙装图像生成;结构化文本提示;文本反转语义融合;跨域图像特征对齐;扩散模型   
      144
      |
      257
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 126141048 false
      更新时间:2026-03-18

      计算机图形学

    • 帧循环结构的实时神经超采样渲染 AI导读

      实时渲染领域迎来新突破,专家提出基于帧循环结构的实时神经超采样方法,有效提升图像质量与实时性,为高分辨率高刷新率渲染难题提供创新解决方案。
      李琳, 薛皓文, 朱纪春, 赵洋, 刘晓平
      2026, 31(3): 880-895. DOI: 10.11834/jig.250296
      帧循环结构的实时神经超采样渲染
      摘要:目的实时渲染图形程序(如游戏、虚拟现实等)对高分辨率和高刷新率的要求越来越高,因此,针对渲染图像的实时超分辨率技术在实时渲染中非常必要。然而,现有的视频超分算法和实时渲染处于不同的数据处理管线之中,这导致其难以直接应用到实时渲染管线里。方法对此,提出了一个基于帧循环结构的实时神经超采样方法。充分利用实时渲染管线中生成的低分辨场景几何数据,以提升超采样网络对于三维空间信息的感知力;将帧循环框架结合到超采样方法中,通过引入先前帧重建结果的特征来改善当前帧的重建结果,从而实现时间尺度上的稳定性;将重加权网络和注意力网络置于特征提取模块中,以提升提取到的特征的有效性。此外,本文还提出了一个面向神经超采样的实时渲染流程,该流程能够将超采样网络部署至图形计算管线之上,并与实时渲染管线相结合。结果与同样能够实时且效果较好的基准方法面向实时渲染的神经超采样(neural super-sampling for real-time rendering, NSRR)比较,本文方法在速度少许提升的前提下,图像质量指标峰值信噪比(peak signal to noise ratio, PSNR)平均提升了0.4 dB,并在部署到实时渲染管线后,通过轻量化裁剪继续保持实时性且部分场景效果仍然优于非实时的部署后NSRR;在网络模块的消融实验中也证明了各个子模块对于神经超采样任务的有效性。结论本文提出的神经超采样网络模型与搭建的神经超采样渲染流程,在取得更好效果的同时具有一定的实用价值。  
      关键词:实时渲染;帧循环神经网络;超采样;超分辨率(SR);卷积神经网络(CNN)   
      75
      |
      251
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 132130993 false
      更新时间:2026-03-18
    • 相关研究在逆渲染领域取得新突破,专家们构建了从三维高斯泼溅表达到可物理渲染的网格与材质贴图的快速、端到端逆渲染流程,为该技术在实时交互与工业级场景中的应用提供了高效且鲁棒的新范式。
      刘铮, 汤圣君, 姚萌萌, 李游, 郭仁忠
      2026, 31(3): 896-911. DOI: 10.11834/jig.250257
      融合三维高斯泼溅几何增强与高效材质编码的快速物理逆渲染框架
      摘要:目的逆渲染旨在从二维多视图图像中同时恢复场景几何、材质及光照。近期,三维高斯泼溅(3D Gaussian splatting,3DGS)因其高效渲染特性被引入该领域,然而,当前基于物理真实的逆渲染时面临两大核心挑战:其一,3DGS基元本身主要为新视角合成优化,其提取的网格难以满足物理渲染的精度需求;其二,准确解耦材质与光照依赖对复杂光照传输和高频材质细节的精确建模,但现有方法在估计具有复杂可见性的直接光照时常面临高方差与计算瓶颈,影响了材质恢复的保真度和训练效率。方法为此,提出一种两阶段快速物理逆渲染框架:首先,在几何恢复阶段,引入扁平高斯基元压缩与多视图双向重投影误差约束,实现精度与速度的平衡,生成可直接用于下游渲染引擎的高精度三角网格;其次,在材质与光照恢复阶段,在提取的网格上采用基于单样本加权池采样的高效直接光照估计,并基于多分辨率哈希网格的神经表示实现复杂高频材质细节的恢复,在大幅降低渲染方差的同时显著缩短训练时间。结果为全面验证本文方法的有效性,本研究在基准数据集上开展了系统实验。在几何恢复方面,本文方法在TensoIR(tensorial inverse rendering)数据集上的法线平均角误差相比次优方法降低了19.59%;在DTU(Technical University of Denmark)数据集上,生成的网格在倒角距离分数上与最优方法持平,但训练速度提升了一倍。在材质恢复和新视角合成任务上,本文方法同样表现出色:在TensoIR数据集中,材质恢复的峰值信噪比(peak signal-to-noise ratio,PSNR)值较次优方法提升了2.84%,新视角合成的PSNR值提高了0.08。结论本工作成功构建了从三维高斯泼溅表达到可物理渲染的网格与材质贴图的快速、端到端逆渲染流程,为逆渲染技术在实时交互与工业级场景中的应用提供了高效且鲁棒的新范式。  
      关键词:逆渲染;三维高斯泼溅(3DGS);三维重建;重投影误差;加权池采样(WRS)   
      313
      |
      182
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 126142182 false
      更新时间:2026-03-18

      遥感图像处理

    • 面向遥感图像任意方向目标的连续几何参数表示 AI导读

      遥感图像目标检测领域迎来新突破,相关专家提出CGR-OBB体系,有效解决定向边界框不连续问题,显著提升检测精度,为高精度检测提供有力支持。
      姚睿, 李雨蔓, 郭浩帆, 胡文涛, 田祥瑞
      2026, 31(3): 912-926. DOI: 10.11834/jig.250172
      面向遥感图像任意方向目标的连续几何参数表示
      摘要:目的遥感图像中舰船、飞机等任意方向密集排布目标的检测是一项极具挑战的任务,现有旋转目标检测器因定向边界框(oriented bounding box, OBB)表示不连续,导致回归目标出现非连续跳跃,从而限制了检测精度。为此,提出一种定向边界框的连续几何表示(continuous geometric representation of oriented bounding boxes, CGR-OBB)。方法CGR-OBB基于定向边界框的几何连续性约束,构建包括位置参数、面积因子和比例参数的9维连续表示空间。具体而言,基于严格的连续性指标,首先通过目标角点相对于水平边界框(horizontal bounding box, HBB)边上中点的距离偏移量,结合HBB的中心点、宽和高构成位置参数,快速定位OBB;其次,利用OBB分割外接HBB的右上方位面积计算面积因子,以确定OBB的角点,避免解码模糊;最后,引入OBB长宽比例参数约束其几何形态,确保解码的OBB紧致包围目标。CGR-OBB进一步优化了舰船等高长宽比目标的参数定义和回归计算,以提升检测稳定性。在实现层面,CGR-OBB被设计为编码—解码结构的插件模块,可无缝集成至Faster R-CNN(region-based convolutional neural network)、RetinaNet等主流检测架构。结果实验表明:在HRSC2016(high-resolution ship collection 2016)数据集上,使Rotated Faster R-CNN的mAP@75提升34.9%;在DOTA(dataset for object detection in aerial images)数据集上,使感兴趣区域(region of interest,RoI) Transformer和ReDet(rotation-equivariant detector)的mAP@75分别提升3.96%和4.31%,展现了在高精度检测方面的显著优势,与先进表示方法(DHRec(double horizontal rectangles)和COBB(continuous representation of oriented bounding boxes))相比在多个精度指标上改善效果更优。结论CGR-OBB能从表示层面直接解决OBB不连续问题,有效减少了旋转目标检测器的漏检、错检情况,具有高精度、易集成的特点,展现较高的实用价值。  
      关键词:任意方向目标检测;连续表示;定向边界框(OBB);遥感图像;深度学习   
      86
      |
      371
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 127252520 false
      更新时间:2026-03-18
    • 相关研究在跨域高光谱图像分类领域取得新进展,专家们构建了LRCT-CDFSL体系,为解决现有方法中空间特征提取导致的地面物体分布和类别边界扭曲问题提供了新方案。
      杨丽霞, 鲍雅君, 张瑞, 杨淑媛
      2026, 31(3): 927-943. DOI: 10.11834/jig.250020
      面向跨域高光谱图像分类的嵌入Transformer层的轻量型Res-3D-CNN
      摘要:目的跨域分类是高光谱图像分类的主要挑战之一。结合域适应与少样本学习的跨域少样本学习(cross domain few shot learning,CDFSL)方法已广泛应用于跨域高光谱图像分类(cross domain hyperspectral image classification,CD-HIC)问题。由于光谱序列编码的复杂度和类间的光谱相似性,现有的CDFSL方法大多使用卷积神经网络(convolutional neural network, CNN)或其他优秀的空间特征提取器来获取空间信息,以提高分类精度。然而,提取空间特征通常伴随着地面物体分布和类别边界的扭曲。为解决该问题,本文提出了嵌入Transformer层的轻量型Res-3D-CNN(lightweight Res-3D-CNN with Transformer layer embedding,LRCT)作为CD-HIC的特征提取器。LRCT能在提取空间信息的同时获取光谱的长期依赖性,从而显著提高光谱特征方法的判别性能。方法CNN中的卷积(Conv)通过局部感受野的权重共享机制捕捉图像高频特征。而Transformer可通过自注意力机制建模特征间的长程依赖关系,并自适应聚焦关键区域。此外,Transformer表现出低通滤波特性,主要捕获图像的低频全局信息。基于Conv和Transformer的互补特性,将Transformer层嵌入Res-3D-CNN构建轻量型双流特征提取网络,分别对源域和目标域进行特征提取,通过CDFSL框架迁移源域通用特征,实现目标域少样本场景下的高精度分类。结果以 Chikusei 数据为源域, Indian Pines、Salinas和Pavia University为目标域进行验证。实验结果表明,在每类仅有5个标记样本时,目标域上的总体精度分别达到 71.01%、92.06%和84.14%。相较于主流的CDFSL方法,基于LRCT网络的CDFSL(LRCT network based CDFSL, LRCT-CDFSL)方法在各个目标域上均展现出更优的分类性能。结论LRCT-CDFSL结合了残差三维卷积神经网络(residual 3-dimensionl CNN,Res-3D-CNN)、Transformer网络、域适应和少样本学习方法的优势,使CD-HIC精度提升。  
      关键词:高光谱图像分类(HIC);跨域分类;少样本学习(FSL);域适应;残差三维卷积神经网络(Res-3D-CNN);Transformer   
      193
      |
      122
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 112400127 false
      更新时间:2026-03-18
    • 面向高光谱图像超分辨率的双域信息融合网络 AI导读

      相关研究在高光谱图像超分辨率领域取得新进展,专家们构建了双域信息融合网络,为解决现有融合方法中光谱扭曲与空间细节模糊等问题提供了有效方案。
      杨怀远, 杨勇, 黄淑英, 刘紫阳, 张龙
      2026, 31(3): 944-957. DOI: 10.11834/jig.250325
      面向高光谱图像超分辨率的双域信息融合网络
      摘要:目的高光谱图像超分辨率(hyperspectral image super-resolution, HISR)旨在融合高空间分辨率的多光谱图像(high-resolution multispectral image, HR-MSI)与低空间分辨率的高光谱图像(low-resolution hyperspectral image, LR-HSI),以生成具有高空间与光谱分辨率的高光谱图像(high-resolution hyperspectral image, HR-HSI)。现有方法在融合过程中往往忽略HR-MSI与LR-HSI之间在模态和结构上的差异,融合结果存在光谱扭曲与空间细节模糊等现象。针对上述问题,提出一种面向高光谱图像超分辨率的双域信息融合网络(dual-domain information fusion network, DDIF-Net),实现频域与空间域信息的联合建模与互补增强。方法构建一个频率—空间特征融合模块(frequency-spatial feature fusion module, FSFFM),在频率域中通过频率特征注入模块(frequency-feature injection block, FIB)实现HR-MSI的幅值信息注入,并结合相位信息保持结构一致性;在空间域中利用空间特征增强模块(spatial feature enhancement block, SFEB)对局部与长程依赖进行建模。此外,提出多尺度特征融合模块(multi-scale feature fusion module, MFFM),进一步增强图像细节恢复能力。DDIF-Net在保持光谱一致性的同时,提升了空间结构的清晰度。结果在Pavia Center数据集中,相比性能第2的方法,峰值信噪比(peak signal-to-noise ratio, PSNR)提升了0.23 dB,光谱角制图(spectral angle mapper, SAM)降低了0.24;Botswana数据集中,PSNR提升了0.41 dB,SAM降低了0.12;在Chikusei数据集中,PSNR提升了0.37 dB,SAM降低了0.01。结论实验结果表明,所提出的DDIF-Net结构能更好地融合空间—光谱信息,显著提升高光谱图像超分辨率融合图像的质量。  
      关键词:图像融合;遥感;深度学习;频率域信息;图像超分辨率   
      106
      |
      94
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 125793257 false
      更新时间:2026-03-18
    • 基于贝叶斯推理的越野环境高程地图补全方法 AI导读

      无人驾驶正从城市向野外拓展,准确提取可通行区域并构建可通行地图至关重要。专家提出融合多源数据并引入语义信息的稀疏核贝叶斯预测方法,有效补全稀疏高程地图缺失信息,提高可通行区域提取精度。
      钟梓玮, 单云霄, 周循道
      2026, 31(3): 958-972. DOI: 10.11834/jig.250193
      基于贝叶斯推理的越野环境高程地图补全方法
      摘要:目的无人驾驶的应用已不再局限于城市环境,正逐渐向野外扩展。在野外复杂环境中,准确提取可通行区域并构建可通行地图,对无人驾驶的安全行驶至关重要。与计算机视觉相比,基于激光雷达的高程地图更适合表达野外复杂场景。然而,受激光雷达稀疏性和环境遮挡等因素影响,现有高程地图普遍存在信息缺失问题。为补全稀疏高程地图缺失信息并提高补全准确性,提出一种融合多源数据并引入语义信息的稀疏核贝叶斯预测方法,以完善高程地图,进而获取更安全的可通行区域。方法第1步:融合相机的单目估计数据,填补由于雷达近距离盲区导致的数据缺失;第2步:使用可通行条件的判断得到可通行和不可通行的二分语义,赋予高程地图语义信息,并对缺失高程信息的位置进行统计概率的判断,得到缺失高程信息位置的语义;第3步:利用贝叶斯稀疏核结合缺失位置的语义进行推理预测,补全相应缺失位置的高程信息。最后得到准确完善的高程地图,提高可通行区域提取的准确性。结果在公开数据集RELLIS-3D和TartanDrive2.0上验证本文补全方法的有效性。使用本文方法完善后的高程地图,在RELLIS-3D数据集上,信息缺失率从原本的25.42%降低到1.56%,误差均值是0.045 5 m,准确率94.37%;在TartanDrive2.0数据集上,信息缺失率从原本的65.16%降低到25.15%,误差均值是0.103 m,准确率93.28%。通过与现有方法在不同野外场景进行对比,证明本文补全方法具有一定的泛用性和有效性。结论本文提出的一种多源数据融合和考虑二分语义的贝叶斯稀疏核预测的高程地图补全方法,可有效且准确地补全稀疏高程地图缺失的信息,提高可通行区域的提取精度。  
      关键词:高程地图;语义稀疏核贝叶斯;补全方法;越野环境;可通行区域识别   
      103
      |
      171
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129893071 false
      更新时间:2026-03-18
    0