最新刊期

    2023 28 7

      综述

    • 江俊君,程豪,李震宇,刘贤明,王中元
      2023, 28(7): 1927-1964. DOI: 10.11834/jig.220130
      深度学习视频超分辨率技术综述
      摘要:视频超分辨率技术在卫星遥感侦测、视频监控和医疗影像等方面发挥着关键作用,在各领域具有广阔的应用前景,受到广泛关注,但传统的视频超分辨率算法具有一定局限性。随着深度学习技术的愈发成熟,基于深度神经网络的超分辨率算法在性能上取得了长足进步。充分融合视频时空信息可以快速高效地恢复真实且自然的纹理,视频超分辨率算法因其独特的优势成为一个研究热点。本文系统地对基于深度学习的视频超分辨率的研究进展进行详细综述,对基于深度学习的视频超分辨率技术的数据集和评价指标进行全面归纳,将现有视频超分辨率方法按研究思路分成两大类,即基于图像配准的视频超分辨率方法和非图像配准的视频超分辨率方法,并进一步立足于深度卷积神经网络的模型结构、模型优化历程和运动估计补偿的方法将视频超分辨率网络细分为10个子类,同时利用充足的实验数据对每种方法的核心思想以及网络结构的优缺点进行了对比分析。尽管视频超分辨率网络的重建效果在不断优化,模型参数量在逐渐降低,训练和推理速度在不断加快,然而已有的网络模型在性能上仍然存在提升的潜能。本文对基于深度学习的视频超分辨率技术存在的挑战和未来的发展前景进行了讨论。  
      关键词:深度学习;视频超分辨率 (VSR);图像配准;运动估计;运动补偿   
      2
      |
      0
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942782 false
      发布时间:2024-05-07
    • 孔英会,秦胤峰,张珂
      2023, 28(7): 1965-1989. DOI: 10.11834/jig.220436
      深度学习二维人体姿态估计方法综述
      摘要:人体姿态估计是计算机视觉中的一项重要任务。传统的姿态估计方法存在难以实现复杂场景下分离目标和背景、易受人为设定先验信息影响、效率过低等问题。随着人工智能技术的发展,深度学习技术日趋成熟,基于深度学习的人体姿态估计方法的精确率和速度等性能均优于传统的人体姿态估计方法。近年来,作为三维人体姿态估计的基础,二维人体姿态估计模型在解决拥挤和遮挡方面取得了长足进步,但大多数网络模型采用的是层数过多的卷积神经网络(convolutional neural network,CNN)模型,对网络速度产生了很大影响。基于部署在边缘侧的实际应用需求,二维人体姿态估计网络的轻量化成为研究热点,且具有潜在的创新应用价值。根据基于深度学习的二维人体姿态估计模型的发展历程和优化趋势,可将其分为单人姿态估计、多人姿态估计以及轻量级人体姿态估计3类。本文对各类人体姿态估计采用的不同卷积神经网络模型进行总结,对各类神经网络模型的特点进行分析,对各类估计方法的性能进行比较。虽然深度卷积神经网络(deep convolutional neural network, DCNN)模型的结构设计越来越多元化,但是各类深度学习网络模型在处理人体姿态估计任务时,仍具有一定的局限性。本文对二维人体姿态估计模型采用的技术方法及其存在的问题进行深入讨论,并给出了未来可能的研究方向。  
      关键词:深度学习;人体姿态估计;模型结构;模型优化;轻量化   
      2
      |
      0
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942604 false
      发布时间:2024-05-07
    • 朱翌,李秀
      2023, 28(7): 1990-2010. DOI: 10.11834/jig.211021
      医学图像描述综述:编码、解码及最新进展
      摘要:随着医疗成像技术的不断提升,放射科医师每天要撰写的医学报告也与日俱增。深度学习兴起后,基于深度学习的医学图像描述技术用于自动生成医学报告,取得了显著效果。本文全面整理了近年来深度医学图像描述方向的论文,包括这一领域的最新方法、数据集和评价指标,分析了它们各自的优劣,并以模型结构为线索予以介绍,是国内首篇针对医疗图像描述任务的综述。现今的深度医疗图像描述技术主要以编码器—解码器结构为基础进行拓展,包括但不局限于加入检索方法、模板匹配方法、注意力机制、强化学习和知识图谱等方法。检索和模板匹配方法虽然简单,但由于医学报告的特殊性仍在本任务上有不错的效果;注意力机制使模型产生报告时能关注图像和文本的某一部分,已经被几乎所有主流模型所采用;强化学习方法突破了医疗图像描述任务中梯度下降训练法与离散的语言生成评价指标不匹配的瓶颈;知识图谱方法则融合了人类医生对于疾病的先验知识,有效提高了生成报告的临床准确性。此外,Transformer等新型结构也正越来越多地取代循环神经网络(recurrent neural network,RNN)甚至卷积神经网络(convolutional neural network,CNN)的位置成为网络主干。本文最后讨论了目前深度医疗图像描述仍需解决的问题以及未来的研究方向,希望能推动深度医疗图像描述技术真正落地。  
      关键词:深度学习(DL);医学图像描述;自动医学报告生成;编码器—解码器;图像字幕   
      3
      |
      0
      |
      3
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943176 false
      发布时间:2024-05-07

      图像处理和编码

    • 王红霞,武甲礼,陈德山
      2023, 28(7): 2011-2025. DOI: 10.11834/jig.220098
      分离复杂背景下的文档图像二值化方法
      摘要:目的二值化方法的主要依据是像素的颜色和对比度等低级语义特征,辨别出与文字具有相似低级特征的复杂背景是二值化亟待解决的问题。针对文档图像二值化复杂背景分离问题,提出一种分离文档图像复杂背景的二阶段二值化方法。方法该方法分为易误判像素筛选和二值化分割两个处理阶段,根据两个阶段的分工构建不同结构的两个网络,前者强化对复杂背景中易误判像素识别和分离能力,后者着重文字像素准确预测,以此提升整个二值化方法在复杂背景图像上的处理效果;两个网络各司其职,可在压缩参数量的前提下出色完成各自任务,进一步提高网络效率。同时,为了增强文字目标细节处理能力,提出一种非对称编码—解码结构,给出两种组合方式。结果实验在文本图像二值化比赛(competition on document image binarization,DIBCO)的DIBCO2016、DIBCO2017以及DIBCO2018数据集上与其他方法进行比较,本文方法在DIBCO2018中FM(F-measure)为92.35%,仅比经过特殊预处理的方法差0.17%,综合效果均优于其他方法;在DIBCO2017和DIBCO2016中FM分别为93.46%和92.13%,综合效果在所有方法中最好。实验结果表明,非对称编码—解码结构二值化分割的各项指标均有不同程度的提升。结论提出的二阶段方法能够有效区分复杂背景,进一步提升二值化效果,并在DIBCO数据集上取得了优异成绩。开源代码网址为https://github.com/wjlbnw/Mask_Detail_Net。  
      关键词:语义分割;U-Net;文档图像识别;二值化;复杂背景;编码—解码结构;多阶段分割   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942643 false
      发布时间:2024-05-07
    • 丁岳皓,吴昊,孔凤玲,徐丹,袁国武
      2023, 28(7): 2026-2036. DOI: 10.11834/jig.211020
      面向真实图像噪声的两阶段盲去噪
      摘要:目的现有的深度图像去噪算法在去除加性高斯噪声上效果显著,但在去除任意分布的真实图像噪声时表现不佳;去噪模型的深度在不断增加,但去噪效果上却并未能显著提高。对此,设计了一种简单有效的两阶段深度图像去噪算法。方法首先基于注意力机制估计真实图像上的噪声分布水平,然后使用一个混合膨胀卷积和普通卷积的多尺度去噪模块进行非盲降噪。结果在DND(darmstadt noise dataset)、SIDD(smartphone image denoising dataset)、Nam和PolyU(the Hong Kong Polytechnic University)等4个图像去噪领域常用数据集上进行去噪实验,选择峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structual similarity,SSIM)作为去噪效果的评价指标,得到的平均PSNR值分别为39.23 dB,38.54 dB,40.45 dB,37.34 dB,并与几种传统去噪方法和基于深度学习的去噪方法进行比较。实验结果表明,本文的去噪算法在去噪效果和视觉质量上有明显提升。同时,在SIDD数据集上进行消融实验以验证算法中模块的有效性。结论本文算法使用的跳跃连接、噪声水平估计以及多尺度模块均可以有效提升真实图像去噪效果。与现有方法相比,本文算法不仅能有效去除真实图像噪声,而且能通过简单的模块参数设置控制去噪网络的计算效率。  
      关键词:深度学习;真实图像去噪;注意力机制;噪声水平估计;多尺度模块   
      2
      |
      0
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943115 false
      发布时间:2024-05-07

      图像分析和识别

    • 李笑颜,阚美娜,梁浩,山世光
      2023, 28(7): 2037-2053. DOI: 10.11834/jig.220141
      ProMIS:概率图采样图像增广驱动的弱监督物体检测方法
      摘要:目的弱监督物体检测是一种仅利用图像类别标签训练物体检测器的技术。近年来弱监督物体检测器的精度不断提高,但在如何提升检出物体的完整性、如何从多个同类物体中区分出单一个体的问题上仍面临极大挑战。围绕上述问题,提出了基于物体布局后验概率图进行多物体图像增广的弱监督物体检测方法ProMIS(probability-based multi-object image synthesis)。方法将检出物体存储到物体候选池,并将候选池中的物体插入到输入图像中,构造带有伪边界框标注的增广图像,进而利用增广后的图像训练弱监督物体检测器。该方法包含图像增广与弱监督物体检测两个相互作用的模块。图像增广模块将候选池中的物体插入一幅输入图像,该过程通过后验概率的估计与采样对插入物体的类别、位置和尺度进行约束,以保证增广图像的合理性;弱监督物体检测模块利用增广后的多物体图像、对应的类别标签、物体伪边界框标签训练物体检测器,并将原始输入图像上检到的高置信度物体储存到物体候选池中。训练过程中,为了避免过拟合,本文在基线算法的基础上增加一个并行的检测分支,即基于增广边界框的检测分支,该分支利用增广得到的伪边界框标注进行训练,原有基线算法的检测分支仍使用图像标签进行训练。测试时,本文方法仅使用基于增广边界框的检测分支产生检测结果。本文提出的增广策略和检测器的分支结构在不同弱监督物体检测器上均适用。结果在Pascal VOC(pattern analysis, statistical modeling and computational learning visual object classes)2007和Pascal VOC 2012数据集上,将该方法嵌入到多种现有的弱监督物体检测器中,平均精度均值(mean average precision,mAP)平均获得了2.9%和4.2%的提升。结论本文证明了采用弱监督物体检测伪边界框标签生成的增广图像包含丰富信息,能够辅助弱监督检测器学习物体部件、整体以及多物体簇之间的区别。  
      关键词:弱监督物体检测;多物体数据增广;图像融合;概率图采样;后验概率估计   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942861 false
      发布时间:2024-05-07
    • 余烨,陈维笑,陈凤欣
      2023, 28(7): 2054-2067. DOI: 10.11834/jig.220122
      面向车型识别的夜间车辆图像增强网络RIC-NVNet
      摘要:目的由于夜间图像具有弱曝光、光照条件分布不均以及低对比度等特点,给基于夜间车辆图像的车型识别带来困难。此外,夜间车辆图像上的车型难以肉眼识别,增加了直接基于夜间车辆图像的标定难度。因此,本文从增强夜间车辆图像特征考虑,提出一种基于反射和照度分量增强的夜间车辆图像增强网络(night-time vehicle image enhancement network based on reflectance and illumination components,RIC-NVNet),以增强具有区分性的特性,提高车型识别正确率。方法RIC-NVNet网络结构由3个模块组成,分别为信息提取模块、反射增强模块和照度增强模块。在信息提取模块中,提出将原始车辆图像与其灰度处理图相结合作为网络输入,同时改进了照度分量的约束损失,提升了信息提取网络的分量提取效果;在反射分量增强网络中,提出将颜色恢复损失和结构一致性损失相结合,以增强反射增强网络的颜色复原能力和降噪能力,有效提升反射分量的增强效果;在照度分量增强网络中,提出使用自适应性权重系数矩阵,对夜间车辆图像的不同照度区域进行有区别性的增强。结果在模拟夜间车辆图像数据集和真实夜间车辆图像数据集上开展实验,从主观评价来看,该网络能够提升图像整体的对比度,同时完成强曝光区域和弱曝光区域的差异性增强。从客观评价分析,经过本文方法增强后,夜间车型的识别率提升了2%,峰值信噪比(peak signal to noise ratio, PSNR)和结构相似性(structural similarity, SSIM)指标均有相应提升。结论通过主观和客观评价,表明了本文方法在增强夜间车辆图像上的有效性,经过本文方法的增强,能够有效提升夜间车型的识别率,满足智能交通系统的需求。  
      关键词:车型识别;暗光增强;图像分解;生成对抗网络(GAN);Retinex模型   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942576 false
      发布时间:2024-05-07
    • 栗风永,叶彬,秦川
      2023, 28(7): 2068-2080. DOI: 10.11834/jig.211127
      互注意力机制驱动的轻量级图像语义分割网络
      摘要:目的在图像语义分割中,细节特征和语义特征的融合是该领域的一个难点。一些在特定网络架构下设计的专用融合模块缺乏可扩展性和普适性,自注意力虽然可以实现全局的信息捕获,但不能实现不同特征的融合,其他的注意力机制在进行掩码计算时缺少可解释性。本文根据特征图之间的关联度进行建模,提出一种互注意力机制驱动的分割模块。方法该模块获取不同阶段的细节特征图和语义特征图,建立细节特征图上任一点和语义特征图之间的关联模型,并在关联模型的指导下对语义特征图上的特征进行聚合,作为细节特征图上该特征点的补充,从而将语义特征图上的信息融合到细节特征图上,并进一步采用相同的操作将细节特征图上的信息融合到语义特征图上,实现来自不同阶段特征图的相互融合。结果选取5个语义分割模型进行实验,实验结果表明,在使用替换方式对BiSeNet V2(bilateral segmentation network)进行修改之后,浮点运算量、内存占用量和模型参数数量分别下降了8.6%,8.5%和2.6%,但是平均交并比却得到了提升。在使用插入方式对另外4个网络进行修改后,所有网络的平均交并比全部得到了不同程度的提高。结论本文提出的互注意力模块可普遍提升模型的语义分割准确度,实现不同网络模型的即插即用,具有较高的普适性。  
      关键词:图像语义分割;轻量级网络;互注意力模块;特征融合;关联模型   
      3
      |
      0
      |
      3
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943079 false
      发布时间:2024-05-07
    • 阳治民,宋威
      2023, 28(7): 2081-2092. DOI: 10.11834/jig.220052
      选择并融合粗细粒度特征的细粒度图像识别
      摘要:目的在细粒度图像识别任务中,类内图像姿势方差大,需要找到类内变化小的共性,决定该任务依赖于鉴别性局部的细粒度特征;类间图像局部差异小,需要找到类间更全面的不同,决定该任务还需要多样性局部的粗粒度特征。现有方法主要关注粗细粒度下的局部定位,没有考虑如何选择粗细粒度的特征及如何融合不同粒度的特征。为此,提出一种选择并融合粗细粒度特征的细粒度图像识别方法。方法设计一个细粒度特征选择模块,通过空间选择和通道选择来突出局部的细粒度鉴别性特征;构建一个粗粒度特征选择模块,基于细粒度模块选择后的局部,挖掘各局部间的语义和位置关系,从而获得为细粒度局部提供补充信息的粗粒度多样性特征;融合这两个模块中提取到的细粒度特征和粗粒度特征,形成互补的粗细粒度表示,以提高细粒度图像识别方法的准确性。结果在CUB-200-2011(caltech-UCSD birds-200-2011)、Stanford Cars和FGVC-Aircraft(fine-grained visual classification aircraft) 3个公开的标准数据集上进行广泛实验,结果表明,所提方法的识别准确率分别达到90.3%、95.6%和94.8%,明显优于目前主流的细粒度图像识别方法,相较于对比方法中的最好结果,准确率相对提升0.7%、0.5%和1.4%。结论提出的方法能够提取粗粒度和细粒度两种类型的视觉特征,同时保证特征的鉴别性和多样性,使细粒度图像识别的结果更加精准。  
      关键词:细粒度识别;粗细粒度;特征选择;特征融合;鉴别性;多样性   
      2
      |
      0
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942935 false
      发布时间:2024-05-07
    • 董杨洋,宋蓓蓓,孙文方
      2023, 28(7): 2093-2104. DOI: 10.11834/jig.220079
      局部特征融合的小样本分类
      摘要:目的小样本学习是一项具有挑战性的任务,旨在利用有限数量的标注样本数据对新的类别数据进行分类。基于度量的元学习方法是当前小样本分类的主流方法,但往往仅使用图像的全局特征,且模型分类效果很大程度上依赖于特征提取网络的性能。为了能够充分利用图像的局部特征以及提高模型的泛化能力,提出一种基于局部特征融合的小样本分类方法。方法首先,将输入图像进行多尺度网格分块处理后送入特征提取网络以获得局部特征;其次,设计了一个基于Transformer架构的局部特征融合模块来得到包含全局信息的局部增强特征,以提高模型的泛化能力;最后,以欧几里得距离为度量,计算查询集样本特征向量与支持集类原型之间的距离,实现分类。结果在小样本分类中常用的3个数据集上与当前先进的方法进行比较,在5-way 1-shot和5-way 5-shot的设置下相对次优结果,所提方法在MiniImageNet数据集上的分类精度分别提高了2.96%和2.9%,在CUB(Caltech-UCSD Birds-200-2011)数据集上的分类精度分别提高了3.22%和1.77%,而在TieredImageNet数据集上的分类精度与最优结果相当,实验结果表明了所提方法的有效性。结论提出的小样本分类方法充分利用了图像的局部特征,同时改善了模型的特征提取能力和泛化能力,使小样本分类结果更为准确。  
      关键词:小样本学习;度量学习;局部特征;Transformer;特征融合   
      3
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942688 false
      发布时间:2024-05-07

      图像理解和计算机视觉

    • 朱威,张雨航,应悦,郑雅羽,何德峰
      2023, 28(7): 2105-2119. DOI: 10.11834/jig.220047
      结合密集残差结构和多尺度剪枝的点云压缩网络
      摘要:目的点云是一种重要的三维数据表示形式,已在无人驾驶、虚拟现实、三维测量等领域得到了应用。由于点云具有分辨率高的特性,数据传输需要消耗大量的网络带宽和存储资源,严重阻碍了进一步推广。为此,在深度学习的点云自编码器压缩框架基础上,提出一种结合密集残差结构和多尺度剪枝的点云压缩网络,实现了对点云几何信息和颜色信息的高效压缩。方法针对点云的稀疏化特点以及传统体素网格表示点云时分辨率不足的问题,采用稀疏张量作为点云的表示方法,并使用稀疏卷积和子流形卷积取代常规卷积提取点云特征;为了捕获压缩过程中高维信息的依赖性,将密集残差结构和通道注意力机制引入到点云特征提取模块;为了补偿采样过程的特征损失以及减少模型训练的动态内存占用,自编码器采用多尺度渐进式结构,并在其解码器不同尺度的上采样层之后加入剪枝层。为了扩展本文网络的适用范围,设计了基于几何信息的点云颜色压缩方法,以保留点云全局颜色特征。结果针对几何信息压缩,本文网络在MVUB(Microsoft voxelized upper bodies)、8iVFB(8i voxelized full bodies)和Owlii(Owlii dynamic human mesh sequence dataset)3个数据集上与其他5种方法进行比较。相对MPEG(moving picture experts group)提出的点云压缩标准V-PCC(video-based point cloud compression),BD-Rate(bjontegaard delta rate)分别增加了41%、54%和33%。本文网络的编码运行时间与G-PCC(geometry-based point cloud compression)相当,仅为V-PCC的2.8%。针对颜色信息压缩,本文网络在低比特率下的YUV-PSNR(YUV peak signal to noise ratio)性能优于G-PCC中基于八叉树的颜色压缩方法。结论本文网络在几何压缩和颜色压缩上优于主流的点云压缩方法,能在速率较小的情况下保留更多原始点云信息。  
      关键词:深度学习;点云压缩;自编码器;稀疏卷积;点云注意力机制;密集残差结构;多尺度剪枝   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942904 false
      发布时间:2024-05-07
    • 举雅琨,蹇木伟,饶源,张述,高峰,董军宇
      2023, 28(7): 2120-2134. DOI: 10.11834/jig.220050
      MASR-PSN:低分光度立体图像的高分法向重建深度学习模型
      摘要:目的光度立体算法是一种单视角下的稠密三维重建方法,其利用相同视角下来自不同光照方向的一系列图像恢复像素级的表面法向。拍摄光度立体图像所用的高分辨率线性响应相机的成本十分昂贵且难以获取,很难通过传感器直接获取超高分辨率图像来恢复高分辨率表面法向。因此,提出一种基于深度神经网络的光度立体超分算法,以从低分光度立体图像中恢复出准确的高分表面法向。方法首先,对原始的低分光度立体图像进行归一化预处理操作,以消除剧烈变化的表面反射率影响,并消减过饱和镜面反射的影响。随后,提出多层聚合超分光度立体网络(multi-level aggregation super resolution photometric stereo network,MASR-PSN)。MASR-PSN包含一个新颖的深浅层融合的最大池化聚合框架、权值共享的特征回归器、并行设计的不同尺寸卷积核的并行回归器结构,能够在保留多尺度信息的同时,增强特征表示,防止模式坍塌学习到某一固定尺度相关的非重要特征,以及防止3×3卷积核带来空间域上的过度平滑。结果广泛的消融实验证明了提出的深浅层聚合层和并行权值共享回归器的有效性,能明显减少生成表面法向的平均角度误差(mean angular error,MAE)。本文方法仅需其他方法一半分辨率的光度立体图像,而能准确地恢复出复杂表面的结构。DiLiGenT benchmark数据集的定量实验和Light Stage Data Gallery数据集、 Gourd数据集的定性实验显示,MASR-PSN在预测表面法向精确度方面有明显提升。在DiLiGenT benchmark数据集中,本文方法在仅使用其他方法一半分辨率的光度立体图像的情况下,以96幅图像为输入时,取得7.31°的平均角度误差,比最佳方法提升0.08°,以10幅图像为输入时,取得9.00°的平均角度误差,比最佳方法提升0.43°。结论提出的MASR-PSN方法提升了光度立体任务表面法向重建的准确性,在低分辨率的输入图像下,依然可以恢复出细节清晰的超分辨率表面法向。  
      关键词:三维重建;光度立体;表面法向恢复;深度学习;超分辨率   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942971 false
      发布时间:2024-05-07
    • 刘苏毅,迟剑宁,吴成东,徐方
      2023, 28(7): 2135-2150. DOI: 10.11834/jig.220154
      基于递归切片网络的三维点云语义分割与实例分割
      摘要:目的针对三维点云语义与实例分割特征点提取精度不高、实例分割精度极度依赖语义分割的性能、在密集场景或小单元分割目标中出现语义类别错分以及实例边缘模糊等问题,提出了基于递归切片网络的三维点云语义分割与实例分割网络。方法网络对输入点云进行切片,并将无序点云映射到有序序列上;利用双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)得到带有局部特征和全局特征的编码特征矩阵;将编码特征矩阵解码为两个并行分支,进行多尺度的特征融合;对语义与实例特征进行融合,得到并行的语义与实例分割网络。结果在斯坦福大尺度3D室内场景数据集(Stanford large-scale 3D indoor spaces dataset,S3DIS)以及ShapeNet数据集上,与目前最新点云分割方法进行实验对比。实验结果表明,在S3DIS数据集上,本文算法的语义分割的平均交并比指标为73%,较动态核卷积方法(position adaptive convolution,PAConv)提高7.4%,并且在13个类别中的8个类别取得最好成绩;实例分割中平均实例覆盖率指标为67.7%。在ShapeNet数据集上,语义分割的平均交并比为89.2%,较PAConv算法提高4.6%,较快速、鲁棒的点云语义与实例分割方法(fast and robust joint semantic-instance segmentation,3DCFS)提高1.6%。结论本文提出的语义与实例分割融合网络,综合了语义分割与实例分割的优点,有效提高语义分割与实例分割精度。  
      关键词:三维点云;语义分割;实例分割;递归切片网络(RSNet);语义特征;实例特征;特征融合   
      2
      |
      0
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942713 false
      发布时间:2024-05-07

      虚拟现实与增强现实

    • 潘小鹍,刘浩敏,方铭,王政,张涌,章国锋
      2023, 28(7): 2151-2166. DOI: 10.11834/jig.210632
      基于语义概率预测的动态场景单目视觉SLAM
      摘要:目的基于视觉的同步定位与建图(visual-based simultaneous localization and mapping,vSLAM)是计算机视觉以及机器人领域中的关键技术,其通过对输入的图像进行处理分析来感知周围的3维环境以及进行自身的定位。现有的SLAM系统大多依赖静态世界假设,在真实环境中的动态物体会严重影响视觉SLAM系统的稳定运行。同时,场景中静止与运动部分往往和其语义有密切关系,因而可以借助场景中的语义信息来提升视觉SLAM系统在动态环境下的稳定性。为此,提出一种新的基于语义概率预测的面向动态场景的单目视觉SLAM算法。方法结合语义分割的结果以及鲁棒性估计算法,通过对分割进行数据关联、状态检测,从概率的角度来表示观测的静止/运动状态,剔除动态物体上的观测对相机位姿估计的干扰,同时借助运动概率及时剔除失效的地图点,使系统在复杂动态的场景中依然能够稳定运行。结果在本文构建的复杂动态场景数据集上,提出的方法在跟踪精度和完整度上都显著优于现有的单目视觉SLAM方法,而且在TUM-RGBD数据集中的多个高动态序列上也取得了更好的结果。此外,本文定性比较了动态场景下的建图质量以及AR(augmented reality)效果。结果表明,本文方法明显优于对比方法。结论本文通过结合语义分割信息以及鲁棒性估计算法,对分割区域进行数据关联以及运动状态检测,以概率的形式表示2D观测的运动状态,同时及时剔除失效地图点,使相机位姿估计的精度以及建图质量有了明显提升,有效提高了单目视觉SLAM在高度动态环境中运行的鲁棒性。  
      关键词:视觉SLAM(vSLAM);语义分割;动态场景;鲁棒性估计;概率预测   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943218 false
      发布时间:2024-05-07
    • 张晨,蒋文英,陈思源,周文,闫丰亭
      2023, 28(7): 2167-2181. DOI: 10.11834/jig.211239
      基于双层DQN的多智能体路径规划
      摘要:目的随着虚拟现实技术的发展,在虚拟场景中,基于多智能体的逃生路径规划已成为关键技术之一。与传统的火灾演习相比,采用基于虚拟现实的方法完成火灾逃生演练具有诸多优势,如成本低、代价小、可靠性高等,但仍有一定的局限性,为此,提出一种改进的双层深度Q网络(deep Q network,DQN)架构的路径规划算法。方法基于两个结构相同的双Q网络,优化了经验池的生成方法和探索策略,并在奖励中增加火灾这样的环境因素对智能体的影响。同时,为了提高疏散的安全性和效率,提出了一种基于改进的K-medoids算法的多智能体分组策略方法。结果相关实验表明提出的改进的双层深度Q网络架构收敛速度更快,学习更加稳定,模型性能得到有效提升。综合考虑火灾场景下智能体的疏散效率和疏散安全性,使用指标平均健康疏散值(average health evacuation value, AHEP)评估疏散效果,相较于传统的路径规划方法A-STAR(a star search algorithm)和DIJKSTRA(Dijkstra’s algorithm)分别提高了84%和104%;与基于火灾场景改进的扩展A-STAR和Dijkstra-ACO(Dijkstra and ant colony optimization)混合算法比较,分别提高了30%和21%;与考虑火灾影响的DQN算法相比,提高了20%,疏散效率和安全性都得到提高,规划的路径疏散效果更好。通过比较不同分组模式下的疏散效果,验证了对多智能体合适分组可以提高智能体疏散效率。结论提出的算法优于目前大多数常用的方法,显著提高了疏散的效率和安全性。  
      关键词:虚拟现实;火灾逃生演练;多智能体;深度强化学习;分组策略   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943161 false
      发布时间:2024-05-07

      医学图像处理

    • 丁熠,郑伟,耿技,邱泸谊,秦志光
      2023, 28(7): 2182-2194. DOI: 10.11834/jig.211197
      基于多层级并行神经网络的多模态脑肿瘤图像分割框架
      摘要:目的在脑肿瘤临床诊疗过程中,由于医疗资源稀缺与诊断效率偏低,迫切需要高精度的医学图像分割工具进行辅助诊疗。目前,使用卷积神经网络进行脑肿瘤图像分割已经成为主流,但是其对于脑肿瘤信息的利用并不充分,导致精度与效率并不完善,而且重新设计一个全新且高效的深度神经网络模型是一项成本高昂的任务。为了更有效提取脑肿瘤图像中的特征信息,提出了基于多层级并行神经网络的多模态脑肿瘤图像分割框架。方法该框架基于现有的网络结构进行拓展,以ResNet(residual network)网络为基干,通过设计多层级并行特征提取模块与多层级并行上采样模块,对脑肿瘤的特征信息进行高效提取与自适应融合,增强特征信息的提取与表达能力。另外,受U-Net长连接结构的启发,在网络中加入多层级金字塔长连接模块,用于输入的不同尺寸特征之间的融合,提升特征信息的传播效率。结果实验在脑肿瘤数据集BRATS2015(brain tumor segmentation 2015)和BRATS2018(brain tumor segmentation 2018)上进行。在BRATS2015数据集中,脑肿瘤整体区、核心区和增强区的平均Dice值分别为84%、70%和60%,并且分割时间为5 s以内,在分割精度和时间方面都超过了当前主流的分割框架。在BRATS2018数据集中,脑肿瘤整体区、核心区和增强区的平均Dice值分别为87%、76%和71%,对比基干方法分别提高8%、7%和6%。结论本文提出多层级并行的多模态脑肿瘤分割框架,通过在脑肿瘤数据集上的实验验证了分割框架的性能,与当前主流的脑肿瘤分割方法相比,本文方法可以有效提高脑肿瘤分割的精度并缩短分割时间,对计算机辅助诊疗有重要意义。  
      关键词:多模态脑肿瘤图像;多层级并行;深度神经网络(DNN);特征融合;语义分割   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943008 false
      发布时间:2024-05-07
    • 于典,彭延军,郭燕飞
      2023, 28(7): 2195-2207. DOI: 10.11834/jig.220078
      面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络
      摘要:目的准确定位超声甲状腺结节对甲状腺癌早期诊断具有重要意义,但患者结节大小、形状以及位置的不确定性极大影响了结节分割的准确率和模型的泛化能力。为了提高超声甲状腺结节分割的精度,增强泛化性能并降低模型的参数量,辅助医生诊断疾病,减少误诊,提出一种面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络。方法首先提出一种网络框架,形状与字母h相似,由一个编码器和两个解码器组成,引入深度可分离卷积缩小网络尺寸。编码器用于提取图像特征,且构建增强下采样模块来减少下采样时造成的信息损失,增强解码器特征提取的能力。第1个解码器负责获取图像的初步分割信息;第2个解码器通过融合第1个解码器预先学习到的信息来增强结节的特征表达,提升分割精度,并设计了融合卷积池化金字塔实现多尺度特征融合,增强模型的泛化能力。结果该网络在内部数据集上的Dice相似系数(Dice similarity coefficients, DSC)、豪斯多夫距离(Hausdorff distance,HD)、灵敏度(sensitivity,SEN)和特异度(specificity,SPE)分别为0.872 1、0.935 6、0.879 7和0.997 3,在公开数据集DDTI(digital database thyroid image)上,DSC和SPE分别为0.758 0和0.977 3,在数据集TN3K(thyroid nodule 3 thousand)上的重要指标DSC和HD分别为0.781 5和4.472 6,皆优于其他模型。结论该网络模型以较低的参数量提升了甲状腺超声图像结节的分割效果,增强了泛化性能。  
      关键词:深度学习;甲状腺结节;超声分割;h网络;增强下采样;多尺度   
      3
      |
      0
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39942822 false
      发布时间:2024-05-07

      遥感图像处理

    • 王蓉芳,王良,李畅,霍春雷,陈佳伟
      2023, 28(7): 2208-2220. DOI: 10.11834/jig.211159
      整型推理量化CNN的SAR图像跨域变化检测
      摘要:目的合成孔径雷达(synthetic aperture radar,SAR)特有的成像优势使得SAR图像变化检测在民用和军事领域有着广泛的应用场景,但实际应用中对SAR图像的变化区域进行标注既耗时又昂贵,而且现有的变化检测方法复杂度较高,无法满足实时、快速检测的需求。对此,提出了一种基于整型推理量化卷积神经网络的SAR图像跨域变化检测方法(integer inference-based quantization convolutional neural network,IIQ-CNN)。方法该方法研究了不同场景之间的跨域变化检测问题,即利用已有标记的源域数据对未知的目标域数据进行检测;设计了同时使用时相图和差异图的样本构建方法,既避免了检测结果对差异图的过分依赖,又能充分利用差异信息和时相图与差异图之间的共享信息,提高检测精度;并且在变化检测任务中首次引入整型推理量化技术,对深度网络模型进行模拟量化,减小模型复杂度并加速推理时间。结果在4组真实的SAR图像数据集上进行实验,从检测性能上看,IIQ-CNN与其他CNN方法相比,Kappa系数提高了4.23%~9.07%;从量化能力上看,对IIQ-CNN分别进行16、8和4位量化,仅在4位量化时检测结果有较明显下降,在16和8位量化时,模型都保持了较好的检测性能,并且推理时间明显减少。结论本文方法有效解决了伪标签质量对变化检测性能的影响,实现了加速推理的同时较好地保持模型检测精度的目的,促进了变化检测算法在嵌入式设备中的应用。  
      关键词:SAR图像;变化检测(CD);整型推理量化;卷积神经网络(CNN);跨域检测   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 39943072 false
      发布时间:2024-05-07
    0