最新刊期

    2023 28 11

      综述

    • 陈建文,赵丽丽,任蓝草,孙卓群,张新峰,马思伟
      2023, 28(11): 3295-3319. DOI: 10.11834/jig.221076
      深度学习点云质量增强方法综述
      摘要:随着三维探测技术的发展,点云逐渐成为最常用的三维物体/场景表征数据类型之一,广泛应用于自动驾驶、增强现实及虚拟现实等领域。然而,受限于硬件设备、采集环境以及遮挡等因素,采集的原始点云通常是不完整、稀疏、嘈杂的,为点云的处理和分析带来了巨大挑战。在此背景下,点云质量增强技术旨在对原始点云进行处理以获得结构完整、密集且接近无噪的点云,具有重要意义。本文对现阶段深度学习点云质量增强方法进行了系统综述,为后续研究者提供研究基础。首先,简要介绍了点云数据处理中通用的关键技术;分别介绍了补全、上采样和去噪3类点云质量增强方法,并对3类方法中的现有算法进行了分类、梳理及总结。其中,点云补全与点云去噪算法均可根据是否采用编码器—解码器结构分为两大类,点云上采样算法可根据网络主要结构分为基于卷积神经网络的方法、基于生成对抗网络的方法和基于图卷积神经网络的方法。其次,总结了质量增强任务中常用的数据集与评价指标,并分别对比分析了现阶段点云补全、上采样和去噪中主流算法的性能。最后,通过系统的梳理,凝练出点云质量增强方向所面临的挑战,并对未来的研究趋势进行了展望。此外,本文汇总了涉及的文献及其开源代码,详见链接https://github.com/LilydotEE/Point_cloud_quality_enhancement。  
      关键词:点云补全;点云上采样;点云去噪;质量增强;深度学习   
      3
      |
      1
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020326 false
      发布时间:2023-12-07
    • 赵什陆,张强
      2023, 28(11): 3320-3341. DOI: 10.11834/jig.220451
      深度学习多模态图像语义分割前沿进展
      摘要:图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外(red-green-blue-thermal,RGB-T)图像语义分割算法和可见光—深度(red-green-blue-depth,RGB-D)图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet(multi-spectral fusion network)数据集上,GMNet(graded-feature multilabel-learning network)和MFFENet(multiscale feature fusion and enhancement network)分别取得了最优的类平均交并比(mean intersection-over-union per class,mIoU)(57.3%)和类平均精度(mean accuracy per class,mAcc)(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上,GMNet仍然取得了最优的mIoU(84.12%)值,而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割,在NYUD v2(New York University depth dataset v2)数据集上,GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。  
      关键词:多模态图像;语义分割;特征增强;特征融合;特征交互;深度信息提取;深度信息引导   
      6
      |
      2
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020949 false
      发布时间:2023-12-07
    • 严毅,邓超,李琳,朱凌坤,叶彪
      2023, 28(11): 3342-3362. DOI: 10.11834/jig.220292
      深度学习背景下的图像语义分割方法综述
      摘要:语义分割任务是很多计算机视觉任务的前提与基础,在虚拟现实、无人驾驶等领域具有重要的应用价值。随着深度学习技术的快速发展,尤其是卷积神经网络(convolutional neural network,CNN)的出现,使得图像语义分割取得了长足的进步。首先,本文介绍了语义分割概念、相关背景和语义分割基本处理流程。然后,总结开源的2D、2.5D、3D数据集和其相适应的分割方法,详细描述了不同网络的分割特点、优缺点及分割精确度,得出监督学习是有效的训练方式。同时,介绍了权威的算法性能评价指标,根据不同方法的侧重点,对各个分割方法的相关实验进行了对比分析,指出了目前实验方面整体存在的问题,其中,DeepLab-V3+网络在分割精确度和速度方面都具有良好的性能,应用价值较高。在此基础上,本文针对国内外的研究现状,提出了当前面临的几点挑战和未来可能的研究方向。通过总结与分析,能够为相关研究人员进行图像语义分割相关研究提供参考。  
      关键词:深度学习;图像语义分割(ISS);卷积神经网络(CNN);监督学习;DeepLab-V3+网络   
      5
      |
      2
      |
      1
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020951 false
      发布时间:2023-12-07
    • 罗纯龙,赵屹
      2023, 28(11): 3363-3385. DOI: 10.11834/jig.221094
      染色体核型分析深度学习方法综述
      摘要:染色体核型分析是细胞遗传学领域重要的实验技术,并逐步在包括生殖医学在内的诸多现代临床领域和科学研究方面得到广泛应用,但即使是经验丰富的细胞遗传学家也需要大量时间才能完成染色体核型分析。基于传统方法的染色体核型自动化分析方法精度较低,仍需要细胞遗传学家花费大量时间、精力校正。目前基于深度学习的染色体核型自动分析方法成果较多,但缺乏对该领域现状的总结、对未来发展的展望等。因此,本文对基于深度学习的染色体核型自动分析方法进行综述,归纳总结了现有的研究分析任务,挑选了具有代表性的方法并梳理解决方案,展望了未来发展方向。通过整理发现,基于深度学习的染色体核型自动化分析方法取得了很多成果,但仍存在一些问题。首先,已有的中文综述性工作仅集中于某一子领域或者调研不够全面和深入。其次,染色体核型分析任务与临床紧密结合,受各种因素制约,任务类型繁多,解决方案复杂,难以窥斑见豹。最后,现有方法主要集中于染色体分类和染色体分割任务,而诸如染色体计数、染色体预处理等任务研究成果较少,需要厘清问题,吸引更多研究人员关注。综上所述,基于深度学习的染色体核型自动分析方法仍有较大发展空间。  
      关键词:深度学习;计算机辅助诊断;染色体核型分析;染色体分类;染色体分割   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020329 false
      发布时间:2023-12-07

      数据集

    • 尹承禧,张博林,罗俊伟,朱春陶,付婧巧,卢伟
      2023, 28(11): 3386-3399. DOI: 10.11834/jig.220508
      SSRGFD:双目超分辨率图像通用篡改检测数据集
      摘要:目的图像编辑软件的普及使得篡改图像内容、破坏图像语义的成本越来越低。为避免恶意篡改图像对社会稳定和安全的威胁,检测图像的完整性和真实性尤为重要。面对新型成像设备和算法,需要重新验证现有图像篡改检测算法的有效性并针对双目超分辨率图像的安全性展开进一步研究。但由于双目超分辨率图像篡改数据集的缺乏,难以满足研究的需要。为此,构建了一个双目超分辨率图像通用篡改检测数据集SSRGFD(stereo super-resolution forensic general dataset)。方法数据集构建考虑复制黏贴、拼接和图像修复3种常见的篡改类型。为使数据集图像更贴合真实篡改场景,本文从篡改图像内容和隐藏篡改痕迹两方面出发为不同篡改类型设计了不同的篡改标准。首先使用超分辨率算法PASSRnet(parallax attention stereo image super-resolution network)从Flickr1024数据集生成双目超分辨率图像,分别基于3种篡改标准通过手工或深度学习算法对图像进行篡改,构建了2 067幅篡改图像,并为每一幅篡改图像提供了对应的篡改区域掩膜。结果实验从主观和客观两个角度评估数据集图像视觉质量。通过双刺激连续质量分级法得到的主观质量平均评分差异基本都低于1.5。客观质量评价方法BRISQUE(blind/referenceless image spatial quality evaluator)、NIQE(natural image quality evaluator)和 PIQE(parent institute for quality education)的平均评估结果分别为30. 76、4. 248和34. 11,与真实图像十分接近。实验使用多种检测方法在SSRGFD和单目图像数据集上进行比较。QMPPNet(multi-scale pyramid hybrid loss network)的性能指标均表现最优,但所有检测方法在SSRGFD上的性能相比于在单目图像数据集上的性能显著下降。结论构建的SSRGFD数据集内容丰富且具有较好的视觉质量,能够为双目超分辨率图像篡改检测研究工作提供良好的数据支持。SSRGFD数据集可以从https://github.com/YL1006/SSRGFD上获取。  
      关键词:数字图像取证;图像篡改检测;双目超分辨率图像篡改数据集;复制黏贴篡改;拼接篡改;图像修复篡改;图像视觉质量评价   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020878 false
      发布时间:2023-12-07

      图像处理和编码

    • 陈健,万佳泽,林丽,李佐勇
      2023, 28(11): 3400-3414. DOI: 10.11834/jig.220939
      自适应语义感知网络的盲图像质量评价
      摘要:目的盲图像质量评价(blind image quality assessment,BIQA)在图像质量控制领域具有重要的实际意义。虽然目前针对自然失真图像的盲图像质量评价取得了合理的结果,但评价准确性仍有待进一步提升。方法提出一种自适应语义感知网络(self-adaptive semantic awareness network,SSA-Net)的盲图像质量评价方法,通过理解失真图像的内容和感知图像失真的类型来提高预测的准确性。首先,利用深度卷积神经网络(deep convolutional neural network,DCNN)获取各个阶段的语义特征,并提出多头位置注意力(multi-head position attention,MPA)模块通过聚合特征图的长距离语义信息来加强对图像内容的理解。接着,提出基于多尺度内核的自适应特征感知(self-adaptive feature awareness,SFA)模块感知图像的失真类型,并结合图像内容来捕获图像的全局失真和局部失真情况。最后,提出多级监督回归(multi-level supervision regression,MSR)网络通过利用低层次的语义特征辅助高层次的语义特征得到预测分数。结果本文方法在7个数据库上与11种不同方法进行了比较,在LIVEC(LIVE in the Wild Image Quality Challenge)、BID(blurred image database)、KonIQ-10k(Konstanz authentic image quality 10k database)和SPAQ(smartphone photography attribute and quality)4个自然失真图像数据库中的斯皮尔曼等级相关系数(Spearman rank order correlation coefficient,SRCC)值分别为0.867、0.877、0.913和0.915,获得了所有方法中最好的性能结果。同时在两个人工失真图像数据库中获得了排名前2的SRCC值。实验结果表明,与其他先进方法相比,本文方法在自然失真图像质量评价数据库上的表现更为优异。结论本文方法通过结合图像内容理解与不同失真类型感知,能更好地适应自然图像的失真,提高评价准确性。  
      关键词:图像质量评价(IQA);盲图像质量评价(BIQA);深度学习;自适应语义感知网络(SSA-Net);多级监督回归(MSR)   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020697 false
      发布时间:2023-12-07
    • 闫晓阳,王华珂,侯兴松,顿玉洁
      2023, 28(11): 3415-3427. DOI: 10.11834/jig.221028
      YCbCr空间分治的双分支低照度图像增强网络
      摘要:目的现有的低照度图像增强算法通常在RGB颜色空间采用先增强后去噪的方式提升对比度并抑制噪声,由于亮度失真和噪声在RGB颜色空间存在复杂的耦合关系,往往导致增强结果不理想。先增强后去噪的方式也放大了原本隐藏在黑暗中的噪声,使去噪变得困难。为有效处理亮度失真并抑制噪声,提出了一个基于YCbCr颜色空间的双分支低照度图像增强网络,以获得正常亮度和具有低噪声水平的增强图像。方法由于YCbCr颜色空间可以分离亮度信息与色度信息,实现亮度失真和噪声的解耦,首先将低照度图像由RGB颜色空间变换至YCbCr颜色空间,然后设计一个双分支增强网络,该网络包含亮度增强模块和噪声去除模块,分别对亮度信息和色度信息进行对比度增强和噪声去除,最后使用亮度监督模块和色度监督模块强化亮度增强模块和噪声去除模块的功能,确保有效地提升对比度和去除噪声。结果在多个公开可用的低照度图像增强数据集上测试本文方法的有效性,对比经典的低照度图像增强算法,本文方法生成的增强图像细节更加丰富、颜色更加真实,并且含有更少噪声,在LOL(low-light dataset)数据集上,相比经典的KinD++(kindling the darkness),峰值信噪比(peak signal-to-noise ratio,PSNR)提高了3.09 dB,相比URetinex(Retinex-based deep unfolding network),PSNR提高了2.74 dB。结论本文提出的空间解耦方法能够有效地分离亮度失真与噪声,设计的双分支网络分别用于增强亮度和去除噪声,能够有效地解决低照度图像中亮度与噪声的复杂耦合问题,获取低噪声水平的亮度增强图像。  
      关键词:低照度增强;YCbCr颜色空间;双分支网络;噪声去除;分治策略   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020327 false
      发布时间:2023-12-07
    • 肖定汉,禹思敏,王倩雪
      2023, 28(11): 3428-3439. DOI: 10.11834/jig.220807
      椭圆曲线与自适应DNA编码的混沌图像加密算法
      摘要:目的当前大多数的混沌图像加密算法采用与明文相关的对称加密方式,存在密钥冗余以及一次一密模式难以实现的问题,为此,提出一种新的椭圆曲线与自适应DNA(deoxyribonucleic acid)编码结合的混沌图像加密算法。方法算法利用椭圆曲线的公钥密码体制达成密钥共识,结合4维Lorenz超混沌系统产生共识密钥序列用于自适应DNA编码加密,在DNA编解码的扩散过程中内嵌中间密文状态反馈的动态扩散—自适应置换结构以抵抗分割攻击与选择明文攻击,加密过程的密文状态在解密端能够自适应同步,无需额外传输。结果算法的密钥空间为2256,足以抵抗穷举攻击。通过对多幅不同尺寸的测试图像进行仿真,比特变化率(number of bit change rate,NBCR)均接近50%,密文各方向上的相邻像素相关性均接近于0,信息熵接近理想值8,并且全部通过NIST SP800-22随机性测试以及抗差分攻击分析。其他混沌图像加密算法进行对比分析,结果表明,本文算法具有极高的实用性和安全性。结论本文算法完善了密钥冗余的问题,提高了算法的可行性,同时通过实验验证了算法的安全性,适合用于对各种尺寸的图像进行加密及相关的信息安全保障。  
      关键词:图像加密;椭圆曲线;超混沌系统;自适应DNA编码;动态扩散   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020780 false
      发布时间:2023-12-07
    • 兰治,严彩萍,李红,郑雅丹
      2023, 28(11): 3440-3452. DOI: 10.11834/jig.220919
      混合双注意力机制生成对抗网络的图像修复模型
      摘要:目的图像修复是指用合理的内容来填补图像缺失或损坏的部分。尽管生成对抗网络(generative adversarial network,GAN)取得了巨大的进步,但当缺失区域很大时,现有的大多数方法仍然会产生扭曲的结构和模糊的纹理。其中一个主要原因是卷积操作的局域性,它不考虑全局或远距离结构信息,只是扩大了局部感受野。方法为了克服上述问题,提出了一种新的图像修复网络,即混合注意力生成对抗网络(hybrid dual attention generative adversarial network,HDA-GAN),它可以同时捕获全局结构信息和局部细节纹理。具体地,HDA-GAN 将两种级联的通道注意力传播模块和级联的自注意力传播模块集成到网络的不同层中。对于级联的通道注意力传播模块,将多个多尺度通道注意力块级联在网络的高层,用于学习从低级细节到高级语义的特征。对于级联的自注意力传播模块,将多个基于分块的自注意力块级联在网络的中低层,以便在保留更多的细节的同时捕获远程依赖关系。级联模块将多个相同的注意力块堆叠成不同的层,能够增强局部纹理传播到全局结构。结果本文采用客观评价指标:均方差(mean squared error,MSE)、峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性指数(structural similarity index,SSIM) 在Paris Street View数据集和CelebA-HQ(CelebA-high quality)数据集上进行了大量实验。定量比较中,HDA-GAN在Paris Street View数据集上相比于Edge-LBAM(edge-guided learnable bidirectional attention maps)方法,在掩码不同的比例上,PSNR提升了1.28 dB、1.13 dB、0.93 dB和0.80 dB,SSIM分别提升了5.2%、8.2%、10.6%和13.1%。同样地,在CelebA-HQ数据集上相比于AOT-GAN(aggregated contextual transformations generative adversarial network)方法,在掩码不同的比例上,MAE分别降低了2.2%、5.4%、11.1%、18.5%和28.1%,PSNR分别提升了0.93 dB、0.68 dB、0.73 dB、0.84 dB和0.74 dB。通过可视化实验可以明显观察到修复效果优于以上方法。结论本文提出的图像修复方法,充分发挥了深度学习模型进行特征学习和图像生成的优点,使得修复图像缺失或损坏的部分更加准确。  
      关键词:图像修复;生成对抗网络(GAN);级联的通道注意力传播模块;级联的自注意力传播模块;大面积修复   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020701 false
      发布时间:2023-12-07

      图像分析和识别

    • 戴昀书,费建伟,夏志华,刘家男,翁健
      2023, 28(11): 3453-3470. DOI: 10.11834/jig.221006
      局部相似度异常的强泛化性伪造人脸检测
      摘要:目的人脸伪造技术迅猛发展,对社会信息安全构成了严重威胁,亟需强泛化性伪造人脸检测算法抵抗多种多样的伪造模型。目前的研究发现伪造算法普遍包含人脸与背景融合的操作,这意味着任何伪造方式都难以避免在人脸边缘遗留下伪造痕迹。根据这一发现,本文将模型的学习目标从特定的伪造痕迹特征转化为更加普适的人脸图像局部相似度特征,并提出了局部相似度异常的深度伪造人脸检测算法。方法首先提出了局部相似度预测(local similarity predicator,LSP)模块,通过一组局部相似度预测器分别计算RGB图像中间层特征图的局部异常,同时,为了捕捉频域中的真伪线索,还提出了可学习的空域富模型卷积金字塔(spatial rich model convolutional pyramid,SRMCP)来提取多尺度的高频噪声特征。结果在多个数据集上进行了大量实验。在泛化性方面,本文以ResNet18为骨干网络的模型在FF++ 4个子集上的跨库检测精度分别以0.77%、5.59%、6.11%和4.28%的优势超越了对比方法。在图像压缩鲁棒性方面,在3种不同压缩效果下,分别以2.48%、4.83%和10.10%的优势超越了对比方法。结论本文方法能够大幅度提升轻量型卷积神经网络的检测性能,相比于绝大部分工作都取得了更优异的泛化性和鲁棒性效果。  
      关键词:深度伪造人脸检测;空域富模型(SRM);卷积金字塔;局部学习相似度;多任务学习   
      4
      |
      1
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020500 false
      发布时间:2023-12-07
    • 朱锦雷,李艳凤,陈后金,孙嘉,潘盼
      2023, 28(11): 3471-3484. DOI: 10.11834/jig.220838
      近邻优化跨域无监督行人重识别算法
      摘要:目的无监督行人重识别可缓解有监督方法中数据集标注成本高的问题,其中无监督跨域自适应是最常见的行人重识别方案。现有UDA(unsupervised domain adaptive)行人重识别方法在聚类过程中容易引入伪标签噪声,存在对相似人群区分能力差等问题。方法针对上述问题,基于特征具有类内收敛性、类内连续性与类间外散性的特点,提出了一种基于近邻优化的跨域无监督行人重识别方法,首先采用有监督方法得到源域预训练模型,然后在目标域进行无监督训练。为增强模型对高相似度行人的辨识能力,设计了邻域对抗损失函数,任意样本与其他样本构成样本对,使类别确定性最强的一组样本对与不确定性最强的一组样本对之间进行对抗。为使类内样本特征朝着同一方向收敛,设计了特征连续性损失函数,将特征距离曲线进行中心归一化处理,在维持特征曲线固有差异的同时,拉近样本k邻近特征距离。结果消融实验结果表明损失函数各部分的有效性,对比实验结果表明,提出方法性能较已有方法更具优势,在Market-1501(1501 identities dataset from market)和DukeMTMC-reID(multi-target multi-camera person re-identification dataset from Duke University)数据集上的Rank-1和平均精度均值(mean average precision,mAP)指标分别达到了92.8%、84.1%和83.9%、71.1%。结论提出方法设计了邻域对抗损失与邻域连续性损失函数,增强了模型对相似人群的辨识能力,从而有效提升了行人重识别的性能。  
      关键词:行人重识别(Re-ID);无监督学习;跨域迁移学习;邻域对抗损失(NAL);邻域连续损失(NCL)   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020703 false
      发布时间:2023-12-07
    • 梁华刚,赵慧霞,刘丽华,岳鹏,郑振宇
      2023, 28(11): 3485-3496. DOI: 10.11834/jig.220789
      结合跨层特征融合与级联检测器的防震锤缺陷检测
      摘要:目的防震锤可以减少输电线路的周期性震动以降低线路的疲劳损害,定期对防震锤进行巡检非常必要。针对目前无人机巡检输电线路所得航拍图像背景复杂,而种类较多、形状各异以及特性不一的防震锤在航拍图像中占据像素面积很小,导致防震锤检测过程中出现的检测精度低、无法确定缺陷类型等问题,提出了一种结合跨层特征融合和级联检测器的防震锤缺陷检测方法。方法本文使用无人机对防震锤部件巡检的航拍图像进行数据扩充建立防震锤缺陷检测数据集,并划分了4种缺陷类型,为研究提供了数据基础。首先,以VGG16(Visual Geometry Group 16-layer network)为基础对1、3、5层特征进行特征融合得到特征图,平衡了语义信息和空间特征;其次,使用3个级联检测器对目标进行分类定位,减小了交并比(intersection over union,IoU)阈值对网络性能的影响;最后,将非极大值抑制法替换为Soft-NMS(soft non-maximum suppression)算法,去除边界框保留了最佳结果。结果在自建数据集上验证网络模型对4种防震锤缺陷类型的检测效果,与现有基于深度学习的其他6种先进算法相比,本文算法的平均准确率比Fast R-CNN(fast region-based convolutional network)、Faster R-CNN、YOLOv4 (you only look once version 4)分别提高了13.5%、3.4%、5.8%,比SSD300 (single shot MultiBox detector 300)、YOLOv3、RetinaNet分别提高了9.5%、8.5%、8%。与Faster R-CNN相比,本文方法的误检率降低了5.61%,漏检率降低了3.01%。结论本文提出的防震锤缺陷检测方法对不同背景、不同光照、不同角度、不同尺度、不同种类和不同缺陷种类的防震锤均有较好的检测结果,不但可以更好地提取防震锤的特征,而且还能提高分类和位置预测网络的定位精度, 从而有效提高了防震锤缺陷检测算法的准确率,在满足防震锤巡检工作实际检测要求的同时还具有较好的鲁棒性和有效性。  
      关键词:防震锤缺陷;深度学习;小尺度目标检测;跨层特征融合;级联检测器   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020817 false
      发布时间:2023-12-07
    • 阎光伟,周香君,焦润海,何慧
      2023, 28(11): 3497-3508. DOI: 10.11834/jig.221077
      融合先验信息和特征约束的杆塔螺栓缺陷检测
      摘要:目的螺栓是输电线路中数量最多的紧固件,一旦出现缺陷就会影响电力系统的稳定运行。针对螺栓缺陷自动检测中存在的类内多样性和类间相似性挑战,提出了一种融合先验信息和特征约束的Faster R-CNN(faster regions with convolutional neural network)模型训练方法。方法在航拍巡检图像预处理阶段,设计了基于先验信息的感兴趣区域提取算法,能够提取被识别目标的上下文区域,从而减少模型训练阶段的数据量,帮助模型在训练阶段关注重点区域,提高其特征提取能力。在模型训练阶段,首先通过费舍尔损失约束Faster R-CNN模型的输出特征生成,使样本特征具有较小的类内距离和较大的类间间隔;然后采用K近邻算法处理样本特征得到K近邻概率,将其作为难易样本的指示以引导模型后续更加关注难样本。结果在真实航拍巡检图像构建的螺栓数据集上进行测试,与基线模型相比,本文模型使螺栓识别的平均精度均值(mean average precision,mAP)提高了6.4%,其中正常螺栓识别的平均精度(average precision,AP)提高了0.9%,缺陷螺栓识别的平均精度提高了12%。结论提出的融合先验信息和特征约束的输电杆塔螺栓缺陷检测方法在缺陷螺栓识别上获得了良好的效果,为实现输电线路螺栓缺陷的自动检测奠定了良好的基础。  
      关键词:电力巡检;螺栓缺陷检测;类内多样性;类间相似性;先验信息;特征约束;Faster R-CNN   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020328 false
      发布时间:2023-12-07
    • 杜艳玲,吴天宇,陈括,陈刚,宋巍
      2023, 28(11): 3509-3519. DOI: 10.11834/jig.220944
      融合上下文和注意力的海洋涡旋小目标检测
      摘要:目的海洋涡旋精准检测是揭示海洋涡旋演变规律及其与其他海洋现象相互作用的基础。然而,海洋涡旋在其活跃海域呈现小尺度目标、密集分布的特点,导致显著的检测精度低问题。传统方法受限于人工设计参数缺乏泛化能力,而深度学习模型的高采样率在检测小目标过程中底层细节和轮廓等信息损失严重,使得目标检测轮廓与目标真实轮廓相差甚远。针对海洋涡旋小目标特点导致检测精度低,高采样率深度模型检测轮廓不精确的问题,提出一种改进的U-Net网络。方法该模型基于渐进式采样结构,为获取上下文信息提升不同极性海洋涡旋目标的检测精度,增加上下文特征融合模块;为增加该模块对海洋涡旋小目标的关注,在特征融合前对最底层特征嵌入残差注意力模块,使模型可以更多关注海洋涡旋的轮廓信息。最后引入数据扩充方法缓解模型存在的过拟合问题。结果本文以南大西洋的卫星海表面高度数据集开展实验,结果表明,本文模型检测准确率达到了93.24%,同时在海洋涡旋的检测数量上与真实结果更加接近,验证了模型在小目标检测方面的性能更加优秀。结论本文提出的海洋涡旋小目标检测模型,在检测海洋涡旋的性能与海洋涡旋目标轮廓精准度方面均显著优于全卷积神经网络(fully convolutional network,FCN)等深度学习模型。  
      关键词:海洋涡旋;小目标检测;语义分割;注意力机制;特征融合   
      3
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020561 false
      发布时间:2023-12-07

      图像理解和计算机视觉

    • 晋帅,李煊鹏,杨凤,张为公
      2023, 28(11): 3520-3535. DOI: 10.11834/jig.220986
      伪激光点云增强的道路场景三维目标检测
      摘要:目的针对激光雷达点云稀疏性导致小目标检测精度下降的问题,提出一种伪激光点云增强技术,利用图像与点云融合,对稀疏的小目标几何信息进行补充,提升道路场景下三维目标检测性能。方法首先,使用深度估计网络获取双目图像的深度图,利用激光点云对深度图进行深度校正,减少深度估计误差;其次,采用语义分割的方法获取图像的前景区域,仅将前景区域对应的深度图映射到三维空间中生成伪激光点云,提升伪激光点云中前景点的数量占比;最后,根据不同的观测距离对伪激光点云进行不同线数的下采样,并与原始激光点云进行融合作为最终的输入点云数据。结果在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)数据集上的实验结果表明,该方法能够提升多个最新网络框架的小目标检测精度,以典型网络SECOND(sparsely embedded convolutional detection)、MVX-Net(multimodal voxelnet for 3D object detection)、Voxel-RCNN为例,在困难等级下,三维目标检测精度分别获得8.65%、7.32%和6.29%的大幅提升。结论该方法适用于所有以点云为输入的目标检测网络,并显著提升了多个目标检测网络在道路场景下的小目标检测性能。该方法具备有效性与通用性。  
      关键词:伪激光点云;深度估计;语义分割;融合算法;三维目标检测   
      3
      |
      0
      |
      2
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020502 false
      发布时间:2023-12-07
    • 孙梅婷,代龙泉,唐金辉
      2023, 28(11): 3536-3549. DOI: 10.11834/jig.211237
      基于Transformer方法的任意风格迁移策略
      摘要:目的任意风格迁移是图像处理任务的重要分支,卷积神经网络作为其常用的网络架构,能够协助内容和风格信息的提取与分离,但是受限于卷积操作感受野,只能捕获图像局部关联先验知识;而自然语言处理领域的Transformer网络能够突破距离限制,捕获长距离依赖关系,更好地建模全局信息,但是因为需要学习所有元素间的关联性,其表达能力的提高也带来了计算成本的增加。鉴于风格迁移过程与句子翻译过程的相似性,提出了一种混合网络模型,综合利用卷积神经网络和Transformer网络的优点并抑制其不足。方法首先使用卷积神经网络提取图像高级特征,同时降低图像尺寸。随后将提取的特征送入Transformer中,求取内容特征与风格特征间的关联性,并将内容特征替换为风格特征的加权和,实现风格转换。最后使用卷积神经网络将处理好的特征映射回图像域,生成艺术化图像。结果与5种先进的任意风格迁移方法进行定性和定量比较。在定性方面,进行用户调查,比较各方法生成图像的风格化效果,结果表明本文网络生成的风格化图像渲染效果更受用户喜爱;在定量方面,比较各方法的风格化处理速度,结果表明本文网络风格化速率排名第3,属于可接受范围内。此外,本文与现有的基于Transformer的任意风格迁移方法进行比较,突出二者间差异;对判别网络进行消融实验,表明判别网络的引入能够有效提升图像的光滑度和整洁度;最后,将本文网络应用于多种风格迁移任务,表明本文网络具有灵活性。结论本文提出的混合网络模型,综合了卷积神经网络和Transformer网络的优点,同时引入了判别网络,使生成的风格化图像更加真实和生动。  
      关键词:计算机视觉;图像处理;任意风格迁移;注意力机制;Transformer   
      3
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020953 false
      发布时间:2023-12-07
    • 李少凡,高尚兵,张莹莹
      2023, 28(11): 3550-3561. DOI: 10.11834/jig.220835
      用于驾驶员分心行为识别的姿态引导实例感知学习
      摘要:目的基于图像的驾驶员分心行为识别可认为是一种二级图像子分类问题,与传统的图像分类不同,驾驶员分心识别任务中的各类区别比较微小,如区分一幅图像是在弄头发还是打电话完全取决于驾驶员手上是否有手机这个物体,即图像中的较小区域就决定了该图像的类别。对于那些图像差异较小的类别,通常的图像分类方法无法高精度地区分。因此,为了能够学习到不同驾驶行为之间微小的表征区别,提出了一种姿态引导的实例感知学习网络用于驾驶员行为识别。方法首先利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域,将人体和手部区域的特征作为实例级别的特征,以此设计一种实例感知学习模块充分获取不同层级的上下文语义信息。其次利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化,组建成一个多分支的深度神经网络。最后将不同分支的结果进行融合。结果实验结果表明,本文方法在AUC(American University in Cairo)数据集和自建三客一危数据集上的测试准确率分别达到96.17%和96.97%,相较于未使用实例感知模块和通道交互的模型,准确率显著改善,在复杂数据集下识别效果提升明显。结论本文提出的姿态引导的实例感知学习网络,在一定程度上降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。  
      关键词:分心检测;姿态估计;目标检测;实例特征;多流网络   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020705 false
      发布时间:2023-12-07
    • 王峰,石方宇,赵佳,张雪松,王雪枫
      2023, 28(11): 3562-3574. DOI: 10.11834/jig.211137
      融合答案掩码的视觉问答模型
      摘要:目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象。为此,提出了一种使用答案掩码对预测结果中的无关答案进行遮盖的方法,迫使模型关注问题和答案类型之间的对应关系,提高模型的预测准确率。方法首先对数据集中的答案进行聚类并为每一类答案生成不同的答案掩码,然后使用预训练的答案类型识别模型预测问题对应的答案类型,并根据该模型的预测结果选择相应的答案掩码对基线模型的预测结果进行遮盖,最终得到正确答案。结果提出的方法使用UpDn(bottom-up and top-down )、RUBi(reducing unimodal biases )、LMH(learned-mixin +h )和CSS(counterfactual samples synthesizing )4种模型作为基线模型,在3个大型公开数据集上进行实验。在VQA(visual question answer)-CP v2.0数据集上的实验结果表明,本文方法使UpDn模型的准确率提高了2.15%,LMH模型的准确率提高了2.29%,融合本方法的CSS模型的准确率达到了60.14%,较原模型提升了2.02%,达到了目前较高的水平。在VQA v2.0和VQA-CP v1.0数据集上的结果也显示本文方法提高了大多数模型的准确率,具有良好的泛化性。此外,在VQA-CP v2.0上的消融实验证明了本文方法的有效性。结论提出的方法通过答案掩码对视觉问答模型的预测结果进行遮盖,减少无关答案对最终结果的影响,使模型学习到问题和答案类型之间的对应关系,有效改善了视觉问答模型答非所问的现象,提高了模型的预测准确率。  
      关键词:视觉问答;语言先验;答案聚类;答案掩码;答案类型识别   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44021035 false
      发布时间:2023-12-07

      医学图像处理

    • 花勇,李珍珍,潘建宏,杨烜
      2023, 28(11): 3575-3589. DOI: 10.11834/jig.221025
      边界信息保持的全染色肾脏切片多粒度分割
      摘要:目的肾小球图像的准确分割对肾脏病理学的疾病诊断和定量分析起到关键作用,然而全染色肾脏切片图像存在由肾小球个体差异大导致的空间尺度和上下文形状变化大,以及图像分辨率过高的问题,给高精度、高性能分割任务带来挑战。为此,提出一种边界信息保持的全染色肾脏切片多粒度分割方法。方法使用一种多粒度上下文的空间注意力机制生成多粒度和多形状变化的空间注意力图,以限制上下文特征,减弱背景对目标的影响,强化网络对目标的感知能力,使网络更多地关注小目标特征;将原图像切分为若干小图来解决全染色图像分辨率高的问题,使用增广路径边界补零策略处理卷积核存在的贡献偏移效应,解决了肾小球目标处于图像边界所导致的分割困难问题,保证图像块的信息无损失地向高层传递,提高处于图像块边界的肾小球目标的分割精度;进一步地,针对图像块拼接带来的边缘肾小球容易漏检、计算开销大的问题,采用特征复用的概率累积滑窗策略,同时提高了分割精度和效率。结果在小鼠肾脏细胞切片和HuBMAP(human biomolecular atlas program)人体肾脏数据上,本文方法提高了分割精度,并使预测速度提高50%左右。结论对于全染色肾脏切片的肾小球分割问题,多粒度上下文特征和增广路径边界补零策略解决了边界区域肾小球目标分割困难、分割精度低的问题,并通过概率累积滑窗策略提高分割速度,相较传统的分割方法有更优秀的性能。  
      关键词:卷积神经网络(CNN);医学图像分割;全染色图像;多粒度上下文特征;补零   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020437 false
      发布时间:2023-12-07
    • 杨恒,顾晨亮,胡厚民,张劲,李康,何凌
      2023, 28(11): 3590-3601. DOI: 10.11834/jig.220933
      嵌入卷积增强型Transformer的头影解剖关键点检测
      摘要:目的准确可靠的头像分析在正畸诊断、术前规划以及治疗评估中起着重要作用,其常依赖于解剖关键点间的相互关联。然而,人工注释往往受限于速率与准确性,并且不同位置的结构可能共享相似的图像信息,这使得基于卷积神经网络的方法难有较高的精度。Transformer在长期依赖性建模方面具有优势,这对确认关键点的位置信息有所帮助,因此开发一种结合Transformer的头影关键点自动检测算法具有重要意义。方法本文提出一种基于卷积增强型Transformer的U型架构用于侧位头影关键点定位,并将其命名为CETransNet(convolutional enhanced Transformer network)。通过改进Transformer模块并将其引入至U型结构中,在建立全局上下文连接的同时也保留了卷积神经网络获取局部信息的能力。此外,为更好地回归预测热图,提出了一种指数加权损失函数,使得监督学习过程中关键点附近像素的损失值能得到更多关注,并抑制远处像素的损失。结果在2个测试集上, CETransNet分别实现了1.09 mm和1.39 mm的定位误差值,并且2 mm内精度达到了87.19%和76.08%。此外,测试集1中共有9个标志点达到了100%的4 mm检测精度,同时多达12个点获得了90%以上的2 mm检测精度;测试集2中,尽管只有9个点满足90%的2 mm检测精度,但4 mm范围内有10个点被完全检测。结论CETransNet能够快速、准确且具备鲁棒性地检测出解剖点的位置,性能优于目前先进方法,并展示出一定的临床应用价值。  
      关键词:头影测量;关键点检测;视觉Transformer;注意力机制;热图回归;卷积神经网络(CNN)   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020699 false
      发布时间:2023-12-07
    • 尹静,刘哲,宋余庆,邱成健
      2023, 28(11): 3602-3617. DOI: 10.11834/jig.220973
      基于3D路径聚合高分辨率网络的胰腺分割
      摘要:目的胰腺的准确分割是胰腺癌识别和分析的重要前提。现有基于深度学习的主流胰腺分割网络大多是编码—解码结构,对特征图采用先降低再增加分辨率的方式,严重丢失了胰腺位置和细节信息,导致分割效果不佳。 针对上述问题,提出了基于3D路径聚合高分辨率网络的胰腺分割方法。方法首先,为了捕获更多3D特征上下文信息,将高分辨率网络中的2D运算拓展为3D运算;其次,提出全分辨特征路径聚合模块,利用连续非线性变换缩小全分辨率输入图像与分割头网络输出特征语义差异的同时,减少茎网络下采样丢失的位置和细节信息对分割结果的影响;最后,提出多尺度特征路径聚合模块,利用渐进自适应特征压缩融合方式,避免低分辨率特征通道过度压缩导致的信息内容损失。结果在公开胰腺数据集上,提出方法在Dice系数(Dice similarity coefficient,DSC)、Jaccard系数(Jaccard index,JI)、精确率(precision)和召回率(recall)上相比3D高分辨率网络(3D high-resolution net, 3DHRNet)分别提升了1.41%、2.09%、2.35%和0.49%,相比具有代表性编码—解码结构的胰腺分割方法,取得了更高的分割精度。结论本文提出的3D路径聚合高分辨率网络(3D pathaggregation high-resolution network, 3D PAHRNet)具有更强的特征位置和细节信息的保留能力,能够显著改善在腹部CT (computed tomography)图像中所占比例较小的胰腺器官的分割结果。开源代码可在https://github.com/qiuchengjian/PAHRNet3D获得。  
      关键词:胰腺分割;卷积网络;3D路径聚合高分辨率网络;全分辨率特征;多尺度特征   
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020504 false
      发布时间:2023-12-07
    • 卢玲,漆为民
      2023, 28(11): 3618-3628. DOI: 10.11834/jig.221084
      基于Transformer的脊椎CT图像分割
      摘要:目的脊椎CT(computed tomography)图像存在组织结构显示不佳、对比度差以及噪音干扰等问题;传统分割算法分割精度低,分割过程需人工干预,往往只能实现半自动分割,不能满足实时分割需求。基于卷积神经网络(convolutional neural network,CNN)的U-Net模型成为医学图像分割标准,但仍存在长距离交互受限的问题。Transformer集成全局自注意力机制,可捕获长距离的特征依赖,在计算机视觉领域表现出巨大优势。本文提出一种CNN与Transformer混合分割模型TransAGUNet(Transformer attention gate U-Net),以实现对脊椎CT图像的高效自动化分割。方法提出的模型将Transformer、注意力门控机制(attention gate,AG)及U-Net相结合构成编码—解码结构。编码器使用Transformer和CNN混合架构,提取局部及全局特征;解码器使用CNN架构,在跳跃连接部分融入AG,将下采样特征图对应的注意力图(attention map)与下一层上采样后获得的特征图进行拼接,融合低层与高层特征从而实现更精细的分割。实验使用Dice Loss与带权重的交叉熵之和作为损失函数,以解决正负样本分布不均的问题。结果将提出的算法在VerSe2020数据集上进行测试,Dice系数较主流的CNN分割模型U-Net、Attention U-Net、U-Net++和U-Net3+分别提升了4.47%、2.09%、2.44%和2.23%,相较优秀的Transformer与CNN混合分割模型TransUNet和TransNorm分别提升了2.25%和1.08%。结论本文算法较以上6种分割模型在脊椎CT图像的分割性能最优,有效地提升了脊椎CT图像的分割精度,分割实时性较好。  
      关键词:脊椎CT图像;医学图像分割;深度学习;Transformer;注意力门控机制(AG)   
      3
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 44020330 false
      发布时间:2023-12-07
    0