最新刊期

  • 陈晓雷,杜泽龙,张学功,王兴

    DOI:10.11834/jig.240592
    img
    摘要:目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,本文提出了一种畸变自适应与位置感知的360°全景图像显著目标检测网络(distortion-adaptive and position-aware network,DPNet)。方法提出了两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像来决定该关注图像的哪些区域。在此基础上,本文进一步提出了一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征来指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与最新的13种方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于最新的13种方法。并且本文还设置了泛化性实验,采用交叉验证的方式证明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。  
    关键词:360°全景图像;显著目标检测;畸变自适应;位置感知;抗背景干扰   
    7
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601568 false
    更新时间:2024-12-30
  • 洪雨辰,吕游伟,万人杰,李思,施柏鑫

    DOI:10.11834/jig.240537
    img
    摘要:随着智能手机摄影的普及,图像数据采集变得极为便捷,但在透过透明介质例如玻璃窗进行拍摄时,玻璃反射的存在严重影响了图像质量,进而干扰下游计算机视觉任务的性能。反射消除作为计算摄像学与计算机视觉领域的重要研究问题,旨在从带反射图像中消除反射干扰以恢复清晰的背景图像。随着深度学习在计算摄像问题中的广泛应用,反射消除领域经历了快速发展,鉴于此,本文旨在围绕近年来基于深度学习的反射消除研究进展进行深入探讨。首先,从混合图像成像模型入手,分析玻璃材质特性以及相机特性对反射图像和背景图像性质的影响。其次,从输入图像的角度,详细汇总了现有的反射消除真实数据集,并对其应用场景、具体用途、数据规模和分辨率等属性进行了统计分析。接着,从深度学习模型的视角,系统性对比了反射消除网络的设计范式、损失函数和评估指标。此外,根据反射消除方法所依赖的分层依据和辅助信息,将现有方法归纳为基于图像特征、文本特征、几何特性和光照特性四大类,并进行了简明的描述和分析。最后,通过讨论反射消除领域内尚未解决的关键挑战,对该领域进行总结与展望。本文旨在提供一个关于反射消除问题的系统研究视角,帮助研究者建立对反射消除技术的深刻认识,为未来研究提供有价值的参考。  
    关键词:计算摄像学;图像复原;反射消除;卷积神经网络;扩散模型;感知质量   
    5
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601498 false
    更新时间:2024-12-30
  • 邱云飞,刘则延,王茂华

    DOI:10.11834/jig.240618
    img
    摘要:目的针对Transformer在图像去模糊过程中难以精确恢复图像细节的问题。提出了一种结合Mamba模型与蛇形卷积技术的图像去模糊网络(Mamba Snake Convolution Network,MSNet)。方法首先,结合Mamba框架与蛇形卷积,提出蛇形状态空间模块(Snake State-Space Module,SSSM)。SSSM通过调整卷积核的形状和路径,动态适应图像局部特征并调整卷积方向,以对齐不同的模糊条纹模式。其次,使用多方向扫描模块(Direction scan module,DSM)进行多个方向的扫描,捕捉图像中的长期依赖。再利用离散状态空间方程合并多方向的结构信息,增强模型对全局结构的捕捉能力。最后,引入蛇形通道注意力(Snake Channel Attention,SCA),利用门控设计筛选和调整模糊信息的权重,确保在去除模糊的同时保留关键细节。结果实验在GoPro和HIDE数据集上,与主流的CNN(convolutional neural networks)和Transformer去模糊方法相比,MSNet的峰值信噪比(peak signal to noise ratio,PSNR)分别提升了1.2和1.9个百分点,结构相似性(structural similarity,SSIM)分别提升了0.6和0.7个百分点。结论本文所提出的方法可以有效去除图像模糊并恢复细节。  
    关键词:图像去模糊;Mamba模型;方向扫描;蛇形卷积;蛇形通道注意力   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601420 false
    更新时间:2024-12-30
  • 冯明涛,沈军豪,武子杰,彭伟星,钟杭,郭裕兰,舒祥波,张辉,董伟生,王耀南

    DOI:10.11834/jig.240588
    img
    摘要:三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域中备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得了快速进展,为理解和与3D物理世界交互提供了前所未有的能力,并展现了独特优势,如上下文学习、逐步推理、开放词汇能力和丰富的世界知识。本文涵盖了3D视觉数据基本表示,从点云到3D高斯泼溅;梳理了主流多模态大模型的发展脉络;对联合多模态大模型的3D视觉数据表征方法做了详细的归纳总结;梳理了基于多模态大模型的3D理解任务,如3D生成与重建、3D目标检测、3D语义分割、3D场景描述、语言引导的3D目标定位和3D场景问答等;以及基于多模态大模型的机器人具身智能系统中空间理解能力提升;最后梳理了核心数据集和对未来前景的深刻讨论,以期促进该领域的深入研究与广泛应用。本文提出的全面分析揭示了本领域的重大进展,强调了利用多模态大模型进行3D视觉理解的潜力和必要性。因此,本综述目标是为未来的研究绘制一条路线,探索和扩展多模态大模型在理解和与复杂3D世界的互动能力,为空间智能领域的进一步发展铺平道路。  
    关键词:三维视觉;多模态大模型;三维视觉表征;三维视觉生成;三维重建;机器人三维视觉;三维场景理解   
    4
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601334 false
    更新时间:2024-12-30
  • 徐啸林,郑文明,连海伦,李溯南,刘佳腾,刘安邦,路成,宗源,梁宗保

    DOI:10.11834/jig.240571
    img
    摘要:目的谎言检测通过分析个体的生理行为特征来识别其是否说谎,在刑侦和安全审查等领域具有重要应用。然而,目前缺乏公开的中文测谎数据集,考虑到语言和文化方面的差异,基于英文数据集研发的算法可能难以适用于中文语境。此外,现有数据集样本规模有限,在激发被试说谎动机方面存在不足。针对这些问题,构建了首个公开的中文多模态测谎数据集(Southeast University multimodal lie detection dataset,SEUMLD)。方法实验基于犯罪知识测试范式,设计了模拟犯罪和模拟审讯等流程以激发被试的说谎动机。通过记录被试在模拟审讯过程中的多模态信号,SEUMLD包含了长期生活在中文语境下的76位被试的视频、音频以及心电三种模态数据,共计3224段对话。该数据集不仅提供了用于判断被试是否说谎的长会话标注(粗粒度标注),还提供了每段长会话细化分割的精准标注(细粒度标注)。基于SEUMLD,设计了跨语种实验以验证语言文化差异对说谎行为的影响;通过迁移学习实验评估其在提升模型泛化能力上的性能;最后基于经典谎言检测方法对SEUMLD进行了基准实验。结果跨语种测谎实验在中英文语境下表现出了显著差异。迁移学习实验验证了SEUMLD在提升模型泛化能力上的优异表现。基准实验结果显示,基于单模态的粗粒度和细粒度测谎的最佳未加权平均召回率(unweighted average recall,UAR)识别结果分别为0.7576和0.7096;融合了多模态信息后的测谎性能达到最佳,在粗粒度检测和细粒度测谎的识别结果分别为0.8083和0.7379。结论SEUMLD为研究中文语境下的多模态测谎提供了重要的数据来源,对未来研究中文母语者的说谎模式具有重要意义。数据集开源地址:https://aip.seu.edu.cn/2024/1219/c54084a515309/page.htm。  
    关键词:谎言检测;中文谎言检测;多模态;数据集;基准   
    4
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79600222 false
    更新时间:2024-12-30
  • 肖杰,范子豪,李东,傅雪阳,查正军

    DOI:10.11834/jig.240517
    img
    摘要:目的图像复原是计算机视觉领域的经典研究问题。选择性状态空间模型(Selective State Space Models, SSMs)因其高效的序列建模能力,被广泛应用于各类图像复原任务。另一方面,非局部图像块之间存在依赖关系,能够辅助提升复原性能。然而,传统SSMs采用确定性的令牌(Token)扫描方式,仅能提取令牌序列的单向依赖关系。此时,令牌间的关系建模因在序列中的先后顺序受到因果性制约,这与图像块之间的非因果相互关系形成冲突,限制了复原性能的进一步提升。针对此问题,提出一种面向图像复原的非因果选择性状态空间模型,旨在赋予SSMs建模令牌之间非因果依赖关系的能力。方法为解决SSMs在因果性建模与图像内容非因果关系之间的矛盾,提出了随机扫描策略,突破了传统扫描方式在因果性和空间限制上的局限,实现了令牌序列之间的非因果建模。具体而言,构建了随机重排和逆重排函数,实现了非固定次序下的令牌扫描,有效建模了不同令牌之间的非因果依赖关系。此外,针对图像退化干扰存在空间尺度变化和形态结构复杂的特点,融合多尺度先验构建了具有局部与全局信息互补性的非因果Mamba模型(Non-Causal Mamba, NCMamba),实现了对于各类图像复原任务的有效适配。结果实验分别在图像去噪、去模糊和去阴影任务上进行,验证了所提非因果建模和局部-全局互补策略的有效性。例如,与现有方法相比,所提模型在图像去阴影数据集SRD上的峰值信噪比提升了0.86 dB。结论面向图像复原任务,构建了非因果选择性状态空间模型,建模了令牌之间的非因果依赖关系,实现了局部与全局信息的有效互补,显著提升了复原性能。实验结果表明,所提方法在主客观评价指标上均取得优异性能,为图像复原领域提供了新的解决方案。  
    关键词:图像复原;状态选择模型;非因果建模;多尺度建模;图像处理   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79600143 false
    更新时间:2024-12-30
  • 张荣国,郑晓鸽,王丽芳,胡静,刘小君

    DOI:10.11834/jig.240243
    img
    摘要:目的视频显著目标检测的目的是识别和突出显示视频中的重要对象或区域。现有的方法在挖掘边界线索和时空特征之间的相关性方面存在不足,并且在特征聚合过程中未能充分考虑相关的上下文信息,导致检测结果不够精确。因此提出了多特征聚合的边界引导网络,进行显著目标边界信息和显著目标时空信息之间的互补协作。方法首先,提取视频帧显著目标的空间和运动特征,在不同分辨率下将显著目标边界特征与显著目标时空特征耦合,突出运动目标边界的特征,更准确地定位视频显著目标;其次,采用了多层特征注意聚合模块以提高不同特征的表征能力,使得各相异特征得以被充分利用;同时在训练阶段采用混合损失来帮助网络学习,以更加准确地分割出运动目标显著的边界区域,获得期望的显著目标。结果实验在4个数据集上与现有的5种方法进行了比较,所提方法在4个数据集上的F-measure值均优于对比方法。在DAVIS(densely annotated video segmentation)数据集上,与性能最优的模型相比F-measure值提高了0.2%,S-measure值略低于最优值0.7%;在FBMS(freiburg-berkeley motion segmentation)数据集上,F-measure值比次优值提高了0.9%;在ViSal数据集上,MAE(mean absolute error)值仅低于最优方法STVS 0.1%,F-measure值比STVS提高了0.2%;在MCL数据集上,所提方法实现了最优的MAE值2.2%,S-measure值和F-measure值比次优方法SSAV(saliency-shift aware VSOD)分别提高了1.6%和0.6%。结论实验表明,提出的方法能够有效提升检测出的视频显著目标的边界质量。  
    关键词:视频图像;显著性目标检测;深度学习;边界引导;多尺度特征;特征聚合   
    17
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110121 false
    更新时间:2024-12-23
  • 顾思远,高曙

    DOI:10.11834/jig.240272
    img
    摘要:目的从单个RGB图像进行联合手物姿态估计极具挑战性,因为当手与物体交互时,经常会发生严重的遮挡。此外,现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题。针对以上问题,提出手物特征增强互补模型(hand-object feature enhancement complementary,HOFEC)。方法1)针对通道信息丢失问题,设计基于通道注意力引导的特征金字塔网络(channel attention-guided feature pyramid network,CAG-FPN),将通道注意力机制引入FPN,使得模型在融合多尺度特征过程中更好地关注输入数据中不同通道之间的关系和重要性,并结合基于局部共享的双流网络ResNet-50(50-layer residual network)共同构建手物特征提取网络,提高模型的特征提取能力。2)针对手物交互时相互遮挡问题,设计空间注意力模块,分别增强手物特征,同时提取手物遮挡区域信息,并进一步设计交叉注意力模块,进行手物特征互补,从而充分利用手部区域和物体区域遮挡信息,实现特征增强与互补。3)通过手部解码器与物体解码器分别恢复手部姿态与物体姿态。结果在HO3D与Dex-ycb数据集上与SOTA模型相比,本文方法在手部姿态估计任务与物体姿态估计任务上均取得了有竞争力的效果。在HO3D数据集上,与最近的10种模型进行了比较,手部姿态估计指标PAMPJPE与PAMPVPE均比次优的HandOccNet提高了0.1mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高了2.1%;在Dex-ycb数据集上,与最近的7种模型进行了比较,手部姿态估计指标MPJPE与PAMPJPE分别比次优的HFL-Net提高了0.2mm、0.1mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高了6.4%。结论本文提出的HOFEC模型能够在手物交互场景下同时准确地估计手部姿态与物体姿态(本文方法代码网址:https://github.com/rookiiiie/HOFEC)。  
    关键词:手物姿态估计;特征提取网络;特征增强;特征互补;注意力机制   
    8
    |
    1
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110085 false
    更新时间:2024-12-23
  • 肖振久,李士博,曲海成,李富坤

    DOI:10.11834/jig.240361
    img
    摘要:目的针对遥感图像(remote sensing image,RSI)检测中目标尺寸小且密集、尺度变化大,尤其在复杂背景信息下容易出现漏检和误检问题,提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,以提升遥感图像的检测精度。方法首先,设计自适应大感受野机制(adaptive large receptive field,ALRF)用于特征提取。该机制通过级联不同扩张率的深度卷积进行分层特征提取,并利用通道和空间注意力对提取的特征进行通道加权和空间融合,使模型能够自适应地调整感受野大小,从而实现遥感图像上下文信息的有效利用。其次,为解决颈部网络特征融合过程中小目标语义信息丢失问题,设计多尺度特征序列融合架构(multi-scale feature fusion,MFF)。该架构通过构建多尺度特征序列,并结合浅层语义特征信息,实现复杂背景下多尺度全局信息的有效融合,从而减轻深层网络中特征模糊性对小目标局部细节捕捉的影响。最后,因传统交并比(IoU,intersection over union)对小目标位置偏差过于敏感,引入归一化Wasserstein距离(normalized Wasserstein distance,NWD)。NWD将边界框建模为二维高斯分布,计算这些分布间的Wasserstein距离来衡量边界框的相似性,从而降低小目标位置偏差敏感性。结果在NWPU VHR-10(Northwestern Polytechnical University very high resolution 10 dataset)和DIOR(dataset for object detection in aerial images)数据集上与10种方法进行综合比较,结果表明,提出的方法优于对比方法,其中,相较于基准模型YOLOv8n,平均精度(average precision,AP)分别达到93.15%和80.89%,提升5.48%和2.97%,同时参数量下降6.96%。结论提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,该方法提升目标的定位能力,改善复杂背景下遥感图像检测中的漏检和误检问题。  
    关键词:遥感图像;目标检测;感受野;特征融合;归一化Wasserstein距离   
    18
    |
    1
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110030 false
    更新时间:2024-12-23
  • 李敏,刘洋,蔡庆瑞,朱旭元

    DOI:10.11834/jig.240419
    img
    摘要:磁共振指纹成像(Magnetic Resonance Fingerprinting,MRf)是一种快速高效的定量成像技术。目的本研究旨在提出一种融合自适应稀疏变换学习的MRf重建方法,以提高参数反演的准确性,改善折叠噪声的抑制效果,并保护图像的边缘特征。方法该方法基于盲压缩感知(Blind Compress Sensing,BCS)理论,将稀疏变换学习重建模型引入MRf模型,通过数据驱动的自适应学习获得图像块的最佳稀疏变换域和最优稀疏度,以改善折叠噪声的抑制效果,并利用磁共振指纹的字典重建指纹序列的时域特征,确保参数反演的准确性。同时,为提高重建和反演速度,将指纹重建和参数反演过程映射到低维子空间中,降低时域维度以减少计算量。结果通过与多种模型类重建算法的仿真实验比较,结果表明所提算法在参数估算准确性方面表现优越,三种定量参数的估计误差分别降低至4.67%、4.2%和1.12%,仅为常规反演算法误差的30%。结论所提出的融合自适应稀疏变换学习的MRf重建方法有效改善了折叠噪声的抑制效果和参数反演的准确性,为MRf技术的应用提供了更为可靠的解决方案。  
    关键词:盲压缩感知;磁共振指纹;稀疏变换;稀疏表示;字典匹配   
    7
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110002 false
    更新时间:2024-12-23
  • 章东平,李铮,谢亚光,王都洋,汤斯亮,卜玉真,王梦婷

    DOI:10.11834/jig.240383
    img
    摘要:目的在医疗保健领域,复杂多变的背景分布、息肉形态与尺寸的显著差异,以及边界定义的模糊性为实现息肉的精确分割造成诸多挑战。为应对上述难题,本文创新性地提出了一种针对结肠镜检查过程中息肉分割问题的深度学习模型,即息肉边界线索深度融合网络(Polyp Boundary Cues Deep Fusion Network,PBCDF-Net)。方法本文所提出的PBCDF-Net网络使用Res2Net-50作为骨干网络,并设计了一种边界线索挖掘模块(Boundary clue mining module,BCMM),旨在合并从骨干网络派生的多级特征,以提取隐藏的边界细节。此外,本文使用前景目标增强模块(Foreground target enhancement module,FTEM)来增强网络对前景目标的关注。最后,在解码阶段设计了一种深度特征融合模块(Deep feature fusion module,DFFM)来整合提取的边界信息和前景目标信息。结果在本研究中,我们以五个公共数据集(Kvasir、ETIS、CVC-ColonDB、CVC-ClinicDB和CVC-300)作为测试基准,全面评估了所提出的PBCDF-Net模型在结直肠息肉分割任务上的性能,并在最新的数据集PolypGen上进行了one-in-out的交叉实验。具体的,在CVC-ClinicDB数据集上,PBCDF-Net与CCBANet相比,在五项评价指标上分别提升了6.6%、7.4%、3.4%、7%和4.9%。在Kvasir和CVC-300数据集上,与近几年方法相比,PBCDF-Net在所有评估指标上平均提升了4.5%、6.2%、2.5%、6.3%和2.9%。此外,PolypGen数据集上的交叉实验结果表明,与PraNet相比,PBCDF-Net在mDice和mIOU上分别提高了4.6%和4.9%,并且在个别指标上优于最先进的方法。结论本文提出的息肉图像分割网络(PBCDF-Net)成功克服了传统算法在面对息肉边界不确定性及形态多样性时的局限性,在广泛的公开数据集验证中展现出了卓越的性能表现,特别是在处理边界模糊且形态多变的复杂息肉案例时,其分割精度与鲁棒性远超同类方法。  
    关键词:息肉图像分割;深度学习;结直肠癌;特征学习;边界线索   
    13
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109822 false
    更新时间:2024-12-23
  • 罗亚波,梁心语,张峰,李存荣

    DOI:10.11834/jig.240152
    img
    摘要:目的步态识别是交通管理、监控安防领域的关键技术,为了解决现有步态识别算法无法充分捕捉和利用人体生物特征,在协变量干扰下模型精度降低的问题,本文提出一种深度提取与融合步态特征与身形特征的高精度步态识别方法。方法该方法首先使用高分辨率网络(high resolution network,HRNet)提取出人体骨架关键点;以残差神经网络 (50-layer residual network,Resnet-50)为主干,利用深度残差模块的复杂特征学习能力,从骨架信息中充分提取相对稳定的身形特征与提供显性高效运动本质表达的步态特征;设计多分支特征融合模块(multi-branch feature fusion,MFF),进行不同通道间的尺寸对齐与权重优化,通过动态权重矩阵调节各分支贡献,融合为区分度更强的总体特征。结果室内数据集采用跨视角多状态CASIA-B(Institute of Automation,Chinese Academy of Sciences)数据集,在跨视角实验中表现稳健;在多状态实验中,常规组的识别准确率为 94.52%,外套干扰组在同类算法中的识别性能最佳。在开放场景数据集中,模型同样体现出较高的泛化能力,相比于现有最新算法,本文方法的准确率提升了4.1%。结论本文设计的步态识别方法充分利用了深度残差模块的特征提取能力与多特征融合的互补优势,面向复杂识别场景仍具有较高的模型识别精度与泛化能力。  
    关键词:生物特征识别;步态识别;高分辨率网络;特征融合;残差神经网络   
    10
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109783 false
    更新时间:2024-12-23
  • 程欣怡,贾晨,张梓轩,石凡

    DOI:10.11834/jig.240391
    img
    摘要:目的当前的光场语义分割方法局限于单一物体、手工特征表达鲁棒性差且缺乏高层角度语义信息,针对上述不足,文中提出了一种适用于静态图像的端到端语义分割网络,充分挖掘了深度卷积神经网络对光场图像特征的表征潜力,探索了空间和角度结构关系以解决过分割和欠分割问题。方法从多尺度光场宏像素图像构造出发,基于多种骨干网络设计,提出了一个高效角度特征提取器(angular feature extractor, AFE)与空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结合的光场语义分割模型。其中,在编码器模块中采用ASPP用于高效地提取并融合宏像素图像中的多尺度空间特征,提高模型对复杂场景的适应能力;在解码器中设计AFE用于提取宏像素图像中的角度结构线索,减少特征在连续下采样过程中存在的角度信息丢失。结果通过在LF Dataset开源数据集上与最新的7种光场最佳方法(state-of-the-art, SOTA)进行实验,利用ResNet101作为骨干网络时所提模型在测试集上实现了88.80%的平均交并比(mean intersection over union, mIoU),在所有对比方法中是最佳的。结论文中所提出的模型在提升语义分割性能方面具有可行性和有效性,能够更加精确地捕捉到图像中细微变化的信息,实现更精确的边界分割,为光场技术在场景理解中的应用提供了新的研究方向。  
    关键词:语义分割;光场成像;宏像素图像;角度线索;空洞卷积   
    6
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109751 false
    更新时间:2024-12-23
  • 张剑,张一然,王梓聪

    DOI:10.11834/jig.240216
    img
    摘要:目的深度卷积神经网络在视觉任务中的广泛应用,使得其作为黑盒模型的复杂性和不透明性引发了对决策机制的关注。类激活图已被证明能有效提升图像分类的可解释性从而提高决策机制的理解程度,但现有方法在高亮目标区域时,常存在边界模糊、范围过大和细粒度不足的问题。为此,提出了一种多层混合注意力机制的类激活图方法(spatial attention-based multi-layer fusion for high-quality class activation maps,SAMLCAM),以优化这些局限性。方法在以往的类激活图方法中忽略了空间位置信息只关注通道级权重,降低目标物体的定位性能,在所提出的SAMLCAM方法中提出一种结合了通道注意力机制和空间注意力机制的混合注意力机制,实现增强目标物体定位减少无效位置信息的效果。在得到有效物体定位结果之后,根据神经网络多层卷积层的特点,改进多层特征图融合的方式提出多层加权融合机制,改善类激活图的边界效果范围过大和细粒度不足的问题,从而增强类激活图的视觉解释性。结果引用广泛用于计算机视觉模型的基准测试ILSVRC 2012数据集和MS COCO2017数据集,对提出方法在多种待解释卷积网络模型下进行评估,包括消融实验、定性评估和定量评估。消融实验中证明了各模块的有效性;同时定性评估对其可解释性效果进行视觉直观展示,证明效果的提升;定量评估中数据表明,SAMLCAM在Loc1和Loc5指标性能比较中相较于最低数据均有大于7%的提升,在能量定位决策指标的比较中相较于最低数据均有大于9.85%的提升。由于改进方法减少了目标样本区域的上下文背景区域,使得其对结果置信度存在负影响,但在可信度指标中,与其他方法比较仍可以保持不超过2%的差距并维持较高性能。  
    关键词:类激活图;人工智能解释性;注意力机制;特征归因;图像分类;卷积神经网络   
    7
    |
    1
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109714 false
    更新时间:2024-12-23
  • 叶标华,康丹青,谢晓华,赖剑煌

    DOI:10.11834/jig.240434
    img
    摘要:在现代制造业中,基于机器视觉的表面缺陷检测是保证产品质量的关键,在工业智能化发展中发挥着重要作用。然而,获取缺陷数据的标注需要花费大量人力和时间成本。随着深度学习、 大数据和传感器等技术的发展,如何在非完全标注的情况下实现准确、快速和鲁棒的缺陷识别成为当前的研究热点。该文对非完全标注场景下的表面缺陷检测技术的研究进展进行了全面的梳理回顾。首先简要介绍了缺陷检测领域的研究背景、基础概念的定义、常用数据集和相关技术。在此基础上,从标签策略以及任务策略两个角度详细介绍了多种非完全标注场景下的缺陷检测技术。在标签策略中,本文比较了基于无监督、半监督、弱监督学习下的不同缺陷检测算法的研究思路。在任务策略中,本文总结了领域自适应、小样本以及大模型的表面缺陷检测算法的最新进展。接着,本文在多个数据集上横向对比了不同标签策略以及任务策略中前沿算法的性能。最后,对该任务中的弱小目标检测、伪标签质量评估以及大模型的知识迁移等问题进行总结和展望。总体而言,非完全标注的表面缺陷检测是一个充满挑战且技术性极强的问题。同时,如何进一步推动表面缺陷检测技术进一步利用非完全标注的数据,并切实在工业制造场景中落地应用还需要更深入的研究。  
    关键词:缺陷检测;非完全标注;无监督学习;弱监督学习;半监督学习;域适应;小样本   
    9
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109665 false
    更新时间:2024-12-23
  • 晏浩,白静,郑虎

    DOI:10.11834/jig.240397
    img
    摘要:目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法考虑引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言-图像对比学习预训练网络,取得了一定的零样本分类效果。但是,现有方法存在三维信息捕捉不全的问题,无法充分利用来自三维领域的知识,针对这一问题,本文提出一致性约束引导的零样本三维模型分类网络。方法一方面,在保留来自预训练网络中的全部二维知识的同时,通过视图一致性学习三维数据的特征,从视图层面将三维信息增补至二维视图特征中;另一方面,通过掩码一致性约束引导网络通过自监督增强网络对三维模型的整体性学习,提高网络泛化性能;同时,提出同类一致性约束引导的非互斥损失,确保网络在小规模数据集训练中学习方向的正确性与能力的泛化性。结果在ZS3D(Zero-shot for 3D dataset)、ModelNet10和Shrec2015(Shape retrieval 2015)这三个数据集上进行零样本分类,分别取得70.1%、57.8%和12.2%的分类精度,与当前最优方法相比分别取得9.2%、22.8%和2.3%的性能提升;在ScanObjectNN的三个子集OBJ_ONLY(Object only),OBJ_BG(Object and background)及PB_T50_RS(Object augmented rot scale)上,本文方法也取得了具有竞争力的分类准确率,分别是32.4%,28.9%和19.3%。结论相较于完全依赖预训练模型能力的方法,本文方法在充分利用语言-图像预训练网络的基础上,将三维模型领域的知识引入网络,并提升网络泛化能力,使零样本分类结果更加准确。  
    关键词:三维模型分类;零样本学习;自监督学习;图像文本预训练;视觉语言多模态   
    5
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109610 false
    更新时间:2024-12-23
  • 张艳宁,王昊宇,闫庆森,杨佳琪,刘婷,符梦芹,吴鹏,张磊

    DOI:10.11834/jig.240458
    img
    摘要:随着人类活动范围的不断扩大和国家利益的持续发展,新域新质无人系统已成为世界各大国科技战略竞争的制高点和制胜未来的关键力量。无人移动视觉技术是无人系统辅助人类透彻感知理解物理世界的核心关键之一,旨在基于无人移动平台捕获的视觉数据,精准感知理解复杂动态场景与目标特性。深度神经网络凭借其超强的非线性拟合能力和区分能力,已经成为无人移动视觉技术的基准模型。然而,实际应用中无人系统通常面临成像环境复杂动态、成像目标高速机动-伪装对抗、成像任务需求多样,导致基于深度神经网络的无人移动视觉模型成像质量大幅退化,场景重建解译与目标识别分析精度显著下降,从而严重制约无人系统在复杂动态场景下对物理世界的感知解译能力与应用前景。针对这一挑战,本文深入探讨了面向复杂动态场景的无人移动视觉技术发展现状,分别从图像增强处理、三维重建、场景分割、目标检测识别以及异常检测与行为分析等五个关键技术入手,详细介绍了每项技术的基本研究思路与发展现状,分析每项技术中典型算法的优缺点,探究该技术目前依然面临的问题与挑战,并展望未来研究方向,为面向复杂动态场景的无人移动视觉技术长远发展与落地奠定基础。  
    关键词:无人移动视觉;复杂动态场景;图像增强;三维重建;场景分割;目标检测;异常检测   
    6
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109536 false
    更新时间:2024-12-23
  • 陈晓雷,张学功,杜泽龙,王兴

    DOI:10.11834/jig.240371
    img
    摘要:目的为了有效应对360°全景图像的几何畸变和大视野特性带来的挑战,本文提出了一种畸变自适应语义聚合网络 (distortion semantic aggregation network,DSANet)。该网络能够提升360°全景图像显著目标检测性能。方法DSANet由三个模块组成:畸变自适应校正模块 (distortion aware calibration module,DACM)、多尺度语义注意力聚合模块 (multiscale semantic attention aggregation module,MSAAM)、以及渐进式细化模块 (progressive refinement module, PRM)。DACM模块利用不同扩张率的可变形卷积来学习自适应权重矩阵,校正360°全景图像中的几何畸变。MSAAM模块结合注意力机制和可变形卷积,提取并融合全局语义特征与局部细节特征,生成多尺度语义特征。PRM模块逐层融合多尺度语义特征,进一步提升检测精度。MSAAM模块与PRM模块相配合,解决360°全景图像的大视野问题。结果在两个公开数据集360-SOD 和360-SSOD (共计1605张图像) 上进行的实验表明,DSANet在6种主流评价指标上(包括Max F-measure、Mean F-measure、MAE(mean absolute error)、Max E-measure、Mean E-measure、Structure-measure)均优于其他方法。结论本文提出的方法在多个客观评价指标上表现突出,同时生成的显著目标图像在边缘轮廓性和空间结构细节信息上更为清晰。  
    关键词:深度学习;显著目标检测;360°全景图像;几何畸变;大视野   
    7
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109486 false
    更新时间:2024-12-23
  • 郭娜,黄樱,牛保宁,关虎,兰方鹏,张树武

    DOI:10.11834/jig.240348
    img
    摘要:目的图像水印技术通过在图像中嵌入标识版权的水印信息来实现版权保护。其中,局部水印技术将水印嵌入特定图像区域,可防止水印被裁剪攻击破坏,同时尽量减小视觉影响。该技术通常利用特征点进行局部区域的定位和同步。然而,水印嵌入及后续可能的图像攻击容易引起特征点偏移,导致无法准确定位嵌入区域,造成水印提取失败。因此,提高特征点稳定性对局部水印技术的可靠性至关重要。方法本文提出感知约束和引导下的特征点增强局部水印算法,通过自适应修改图像像素一次,同时实现水印嵌入和特征点增强两种操作,达到增强特征点稳定性、提高水印鲁棒性和保证水印不可感知性三种效果。算法的自适应性体现在两个方面:一是使用优化函数寻找最佳像素修改方案,在嵌入水印的同时增强特征点强度,避免水印嵌入削弱特征点稳定性,增强其抗攻击能力,提高水印的鲁棒性;二是,水印嵌入过程中的像素修改总量由峰值信噪比约束,并根据感知引导模型实现各像素修改量的差异化分配,最大限度地确保水印的不可感知性。结果实验结果证明,本文所提算法对特征点的稳定性有显著增强,在嵌入水印图像的峰值信噪比高于40dB的前提下,水印提取的准确率在大多数攻击的情况下都优于目前先进局部水印算法。结论本文所提的算法有效提高了特征点的稳定性,在水印不可见性和水印鲁棒性方面均获得了更优的效果。  
    关键词:局部水印技术;特征点;感知引导;不可感知性;鲁棒性   
    5
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109438 false
    更新时间:2024-12-23
  • 彭振邦,张瑜,党一,陈剑奇,史振威,邹征夏

    DOI:10.11834/jig.240442
    img
    摘要:基于深度学习模型的计算机视觉技术经过十余年的研究目前已经取得较大的进步,大量成熟的深度学习模型因其领先于传统模型的高精度、快速性特点被广泛用于计算机视觉相关的各类关键领域中。然而,研究者发现,向原始图像样本中添加精心设计的微小扰动可显著地干扰深度学习模型的决策结果。这种精心设计的对抗攻击引发了人们对于深度学习模型鲁棒性和可信赖程度的担忧。值得注意的是,一些研究者以日常生活中常见的实体或自然现象为载体,设计了可于实际应用场景中实施的物理对抗攻击。这种具备较高实用性的对抗攻击不仅能够较好地欺骗人类观察者,同时对深度学习模型产生显著的干扰作用,因而具备更实际的威胁性。为充分认识物理对抗攻击对基于深度学习模型的计算机视觉技术的实际应用带来的挑战,本文依据物理对抗攻击设计的一般性流程,对所整理的114篇论文设计的物理对抗攻击方法进行了归纳总结。具体而言,本文首先依据物理对抗攻击的建模方法对现有工作进行归纳总结。随后对物理对抗攻击优化约束和增强方法进行概述,并对现有工作的物理对抗攻击实施与评估方案进行总结。最后,本文对现有物理对抗攻击所面临的挑战和具备较大潜力的研究方向进行了分析与展望。我们希望能为高质量的物理对抗样本生成方法设计和可信赖的深度学习模型研究提供有参考意义的启发,综述主页将展示在https://github.com/Arknightpzb/Survey-of-Physical-adversarial-attack。  
    关键词:物理对抗攻击;一般性设计流程;对抗样本实用性;深度学习;计算机视觉   
    4
    |
    1
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109349 false
    更新时间:2024-12-23
0