最新刊期

    2019 24 8

      学者观点

    • 深度卷积神经网络降噪模型的技术瓶颈与研究展望

      徐少平, 刘婷云, 林珍玉, 张贵珍, 李崇禧
      2019, 24(8): 1207-1214. DOI: 10.11834/jig.190165
      摘要:现有的深度卷积神经网络(DCNN)图像降噪模型受其技术路线内在固有特性的制约,降噪性能仍然有待进一步改进。为了推动现有DCNN图像降噪模型技术的发展,需要正视并及时解决制约其进一步完善的瓶颈问题。本文简要概述了传统的基于自然图像非局部自相似性、稀疏性和低秩性这3种先验知识设计的图像降噪算法的技术路线特点和优缺点,从传统图像降噪算法存在的问题中引出基于DCNN构建图像降噪模型的技术优势,并梳理并总结了DCNN降噪模型未来的发展瓶颈,就相应的解决方案(研究方向)进行详细讨论。通过深入分析发现,可以从扩大卷积核的感受野、降低网络参数与训练集之间的依赖关系以及充分利用DCNN网络的建模能力这3个角度入手,突破现有基于数据驱动的DCNN降噪模型的瓶颈制约,把图像降噪算法的研究水平推向新的高度。  
      关键词:综述;图像降噪;深度卷积神经网络;瓶颈问题;感受野;数据依赖;参数空间   
      101
      |
      63
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689467 false
      更新时间:2024-05-07

      综述

    • 人脸年龄估计的深度学习方法综述

      张珂, 王新胜, 郭玉荣, 苏昱坤, 何颖宣
      2019, 24(8): 1215-1230. DOI: 10.11834/jig.180653
      人脸年龄估计的深度学习方法综述
      摘要:目的人脸年龄估计技术作为一种新兴的生物特征识别技术,已经成为计算机视觉领域的重要研究方向之一。随着深度学习的飞速发展,基于深度卷积神经网络的人脸年龄估计技术已成为研究热点。方法本文以基于深度学习的真实年龄和表象年龄估计方法为研究对象,通过调研文献,分析了基于深度学习的人脸年龄估计方法的基本思想和特点,阐述其研究现状,总结关键技术及其局限性,对比了常见人脸年龄估计方法的性能,展望了未来的发展方向。结果尽管基于深度学习的人脸年龄估计研究取得了巨大的进展,但非受限条件下年龄估计的效果仍不能满足实际需求,主要因为当前人脸年龄估计研究仍存在以下困难:1)引入人脸年龄估计的先验知识不足;2)缺少兼顾全局和局部细节的人脸年龄估计特征表达方法;3)现有人脸年龄估计数据集的限制;4)实际应用环境下的多尺度人脸年龄估计问题。结论基于深度学习的人脸年龄估计技术已取得显著进展,但是由于实际应用场景复杂,容易导致人脸年龄估计效果不佳。对目前基于深度学习的人脸年龄估计技术进行全面综述,从而为研究者解决存在的问题提供便利。  
      关键词:人脸年龄估计;深度学习;深度卷积神经网络;真实年龄;表象年龄   
      23
      |
      47
      |
      10
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689468 false
      更新时间:2024-05-07
    • 卷积神经网络在掌纹识别中的性能评估

      王海纶, 李书杰, 贾伟, 刘晓平
      2019, 24(8): 1231-1248. DOI: 10.11834/jig.180605
      卷积神经网络在掌纹识别中的性能评估
      摘要:目的掌纹识别技术作为一种新兴的生物特征识别技术越来越受到广泛重视。深度学习是近10年来人工智能领域取得的重要突破。但是,基于深度学习的掌纹识别相关研究还比较初步,尤其缺乏深入的分析和讨论,且已有的工作使用的都是比较简单的神经网络模型。为此,本文使用多种卷积神经网络对掌纹识别进行性能评估。方法选取比较典型的8种卷积神经网络模型,在5个掌纹数据库上针对不同网络模型、学习率、网络层数、训练数据量等进行性能评估,展开实验,并与经典的传统掌纹识别方法进行比较。结果在不同卷积神经网络识别性能评估方面,ResNet和DenseNet超越了其他网络,并在PolyU M_B库上实现了100%的识别率。针对不同学习率、网络层数、训练数据量的实验发现,5×10-5为比较合适的识别率;网络层数并非越深越好,VGG-16与VGG-19的识别率相当,ResNet层数由18层逐渐增加到50层,识别率则逐渐降低;参与网络训练的数据量总体来说越多越好。对比传统的非深度学习方法,卷积神经网络在识别效果方面还存在一定差距。结论实验结果表明,对于掌纹识别,卷积神经网络也能获得较好的识别效果,但由于训练数据量不充分等原因,与传统算法的识别性能还有差距。基于卷积神经网络的掌纹识别研究还需要进一步深入开展。  
      关键词:生物特征识别;掌纹识别;深度学习;卷积神经网络;掌纹数据库;识别评估   
      43
      |
      352
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689469 false
      更新时间:2024-05-07

      图像处理和编码

    • 局部自适应的灰度图像彩色化

      曹丽琴, 商永星, 刘婷婷, 李治江, 马爱龙
      2019, 24(8): 1249-1257. DOI: 10.11834/jig.180608
      局部自适应的灰度图像彩色化
      摘要:目的现有的灰度图像彩色化方法为了保证彩色化结果在颜色空间上的一致性,往往采用全局优化的算法,使得图像边界区域易产生过渡平滑现象。为此提出一种局部自适应的灰度图像彩色化方法,在迁移过程中考虑局部邻域像素信息,同时自动调节邻域像素权重,在颜色正确迁移的同时保证清晰的边界信息。方法首先结合SVM(support vector machine)和ISLIC(improved simple linear iterative clustering)算法获取彩色图像和灰度图像分类结果图;然后在分类基础上,确定灰度图像高置信度像素点,并根据图像纹理特征,在彩色图像中寻找灰度图像的像素匹配点;最后利用自适应权重均值滤波实现高置信度匹配像素点的颜色迁移,并利用迁移结果对低置信度像素点进行颜色扩散,以完成灰度图像彩色化。结果实验结果显示,本文方法获得的彩色化迁移结果评分均高于3.5分,特别是局部放大区域评价结果均接近或高于4.0分,高于其他现有彩色化方法评价分数。表明本文方法不仅能够保证颜色迁移的准确性和颜色空间的一致性,同时也能获取颜色区分度高的边界细节信息。与现有的典型灰度图像彩色化方法相比,彩色化结果图在颜色迁移的正确性和抑制边界区域颜色的过渡平滑上都有更优的表现。结论本文算法为灰度图像彩色化过程中抑制颜色越界问题提供了新的指导方法,能有效地应用于遥感、黑白图像/视频处理、医学图像着色等领域。  
      关键词:彩色化;颜色迁移;局部自适应;一致性;平滑   
      16
      |
      31
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689466 false
      更新时间:2024-05-07
    • 多阶段融合网络的图像超分辨率重建

      沈明玉, 俞鹏飞, 汪荣贵, 杨娟, 薛丽霞
      2019, 24(8): 1258-1269. DOI: 10.11834/jig.180619
      多阶段融合网络的图像超分辨率重建
      摘要:目的近年来,深度卷积神经网络成为单帧图像超分辨率重建任务中的研究热点。针对多数网络结构均是采用链式堆叠方式使得网络层间联系弱以及分层特征不能充分利用等问题,提出了多阶段融合网络的图像超分辨重建方法,进一步提高重建质量。方法首先利用特征提取网络得到图像的低频特征,并将其作为两个子网络的输入,其一通过编码网络得到低分辨率图像的结构特征信息,其二通过阶段特征融合单元组成的多路径前馈网络得到高频特征,其中融合单元将网络连续几层的特征进行融合处理并以自适应的方式获得有效特征。然后利用多路径连接的方式连接不同的特征融合单元以增强融合单元之间的联系,提取更多的有效特征,同时提高分层特征的利用率。最后将两个子网络得到的特征进行融合后,利用残差学习完成高分辨图像的重建。结果在4个基准测试集Set5、Set14、B100和Urban100上进行实验,其中放大规模为4时,峰值信噪比分别为31.69 dB、28.24 dB、27.39 dB和25.46 dB,相比其他方法的结果具有一定提升。结论本文提出的网络克服了链式结构的弊端,通过充分利用分层特征提取更多的高频信息,同时利用低分辨率图像本身携带的结构特征信息共同完成重建,并取得了较好的重建效果。  
      关键词:卷积神经网络;超分辨率重建;分层特征;阶段特征融合;多路径连接   
      64
      |
      118
      |
      9
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689465 false
      更新时间:2024-05-07
    • 融合感知损失的生成式对抗超分辨率算法

      杨娟, 李文静, 汪荣贵, 薛丽霞
      2019, 24(8): 1270-1282. DOI: 10.11834/jig.180613
      融合感知损失的生成式对抗超分辨率算法
      摘要:目的现有的基于深度学习的单帧图像超分辨率重建算法大多采用均方误差损失作为目标优化函数,以期获得较高的图像评价指标,然而重建出的图像高频信息丢失严重、纹理边缘模糊,难以满足主观视觉感受的需求。同时,现有的深度模型往往通过加深网络的方式来获得更好的重建效果,导致梯度消失问题的产生,训练难度增加。为了解决上述问题,本文提出融合感知损失的超分辨率重建算法,通过构建以生成对抗网络为主体框架的残差网络模型,提高了对低分率图像的特征重构能力,高度还原图像缺失的高频语义信息。方法本文算法模型包含生成器子网络和判别器子网络两个模块。生成器模块主要由包含稠密残差块的特征金字塔构成,每个稠密残差块的卷积层滤波器大小均为3×3。通过递进式提取图像不同尺度的高频特征完成生成器模块的重建任务。判别器模块通过在多层前馈神经网络中引入微步幅卷积和全局平均池化,有效地学习到生成器重建图像的数据分布规律,进而判断生成图像的真实性,并将判别结果反馈给生成器。最后,算法对融合了感知损失的目标函数进行优化,完成网络参数的更新。结果本文利用峰值信噪比(PSNR)和结构相似度(SSIM)两个指标作为客观评价标准,在Set5和Set14数据集上测得4倍重建后的峰值信噪比分别为31.72 dB和28.34 dB,结构相似度分别为0.892 4和0.785 6,与其他方法相比提升明显。结论结合感知损失的生成式对抗超分辨率重建算法准确恢复了图像的纹理细节,能够重建出视觉上舒适的高分辨率图像。  
      关键词:超分辨重建;深度学习;卷积神经网络;残差学习;生成对抗网络;感知损失   
      17
      |
      4
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689589 false
      更新时间:2024-05-07
    • 结合全卷积网络与CycleGAN的图像实例风格迁移

      刘哲良, 朱玮, 袁梓洋
      2019, 24(8): 1283-1291. DOI: 10.11834/jig.180624
      结合全卷积网络与CycleGAN的图像实例风格迁移
      摘要:目的传统的图像风格迁移主要在两个配对的图像间进行。循环一致性对抗网络(CycleGAN)首次将生成对抗网络应用于图像风格迁移,实现无配对图像之间的风格迁移,取得了一定的效果,但泛化能力较弱,当训练图像与测试图像之间差距较大时,迁移效果不佳。针对上述问题,本文提出了一种结合全卷积网络(FCN)与CycleGAN的图像风格迁移方法,使得图像能够实现特定目标之间的实例风格迁移。同时验证了训练数据集并非是造成CycleGAN风格迁移效果不佳的因素。方法首先结合全卷积网络对图像进行语义分割,确定风格迁移的目标,然后将风格迁移后的图像与目标进行匹配,确定迁移对象实现局部风格迁移。为验证CycleGAN在训练图像和测试图像差距较大时风格转移效果不佳并非因缺少相应训练集,制作了训练数据集并带入原网络训练。结果实验表明结合了全卷积网络与CycleGAN的图像风格迁移方法增加了识别能力,能够做到图像局部风格迁移而保持其余元素的完整性,相对于CycleGAN,该方法能够有效抑制目标之外区域的风格迁移,实验中所用4张图片平均只有4.03%的背景像素点发生了改变,实例迁移效果得到很好提升。而将自制训练集带入原网络训练后,依然不能准确地在目标对象之间进行风格迁移。结论结合了全卷积网络与CycleGAN的方法能够实现图像的局部风格迁移而保持目标对象之外元素不发生改变,而改变训练数据集对CycleGAN进行实例风格迁移准确性的影响并不大。  
      关键词:深度学习;风格迁移;循环一致性对抗网络;语义分割;全卷积网络   
      21
      |
      4
      |
      9
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689633 false
      更新时间:2024-05-07
    • 保特征的联合滤波网格去噪算法

      黄涛, 曹力, 刘晓平
      2019, 24(8): 1292-1301. DOI: 10.11834/jig.180654
      保特征的联合滤波网格去噪算法
      摘要:目的在去噪的过程中保持网格模型的特征结构是网格去噪领域研究的热点问题。为了能够在去噪中保持模型特征,本文提出一种基于变分形状近似(VSA)分割算法的保特征网格去噪算法。方法引入变分形状近似分割算法分析并提取噪声网格模型的几何特征,分3步进行去噪。第1步使用变分形状近似算法对网格进行分割,对模型进行分块降噪预处理。第2步通过分析变分形状近似算法提取分割边界中的特征信息,将网格划分为特征区域与非特征区域。对两个区域用不同的滤波器联合滤波面法向量。第3步根据滤波后的面法向量,使用非迭代的网格顶点更新方法更新顶点位置。结果相较于现有全局去噪方法,本文方法可以很好地保持网格模型的特征,引入的降噪预处理对于非均匀网格的拓扑结构保持有着很好的效果。通过对含有不同程度高斯噪声的网格模型进行实验表明,本文算法无论在直观上还是定量分析的结果都相较于对比的方法有着更好的去噪效果,实验中与对比算法相比去噪效果提升15%。结论与现有的网格去噪算法对比,实验结果表明本文算法在中等高斯噪声下更加鲁棒,对常见模型有着比较好的去噪效果,能更好地处理不均匀采样的网格模型,恢复模型原有的特征信息和拓扑结构。结论与现有的网格去噪算法对比,实验结果表明本文算法在中等高斯噪声下更加鲁棒,对常见模型有着比较好的去噪效果,能更好地处理不均匀采样的网格模型,恢复模型原有的特征信息和拓扑结构。  
      关键词:几何键模;3维网格去噪;变分形状近似;几何特征提取;特征保持   
      13
      |
      4
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689653 false
      更新时间:2024-05-07

      图像分析和识别

    • 多层语义融合CNN的步态人体语义分割

      支双双, 赵庆会, 唐琎
      2019, 24(8): 1302-1314. DOI: 10.11834/jig.180597
      多层语义融合CNN的步态人体语义分割
      摘要:目的针对反恐、安防领域利用监控视频进行步态识别时由光照、拍摄角度、遮挡等多协变量引起的轮廓缺失、人体阴影和运算时间等问题,提出了一种基于RPGNet(Regin of Interest+Parts of Body Semantics+GaitNet)网络的步态人体语义分割方法。方法该方法按照功能划分为R(region of interest)模块、P(parts of body semantics)模块和GNet(GaitNet)模块。R模块提取人体步态感兴趣区域,起到提升算法效率和图像去噪的作用。P模块借助LabelMe开源图像注释工具进行步态人体部位语义标注。GNet模块进行步态人体部位语义训练与分割。借鉴ResNet和RefineNet网络模型,设计了一种细节性步态语义分割网络模型。结果对步态数据库1 380张图片进行了测试,RPGNet方法与6种人体轮廓分割方法进行了对比实验,实验结果表明RPGNet方法对细节和全局信息处理得都很精确,在0°、45°和90°视角都表现出较高的分割正确率。在多人、戴帽和遮挡条件下,实验结果表明RPGNet方法人体分割效果良好,能够满足步态识别过程中的实时性要求。结论实验结果表明,RPGNet步态人体语义分割方法在多协变量情况下能够有效进行步态人体语义分割,同时也有效提高了步态识别的识别率。  
      关键词:步态识别;语义分割;卷积神经网络;多协变量;人体轮廓分割   
      24
      |
      110
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689658 false
      更新时间:2024-05-07
    • 高置信度互补学习的实时目标跟踪

      郭伟, 邢宇哲, 曲海成
      2019, 24(8): 1315-1326. DOI: 10.11834/jig.180684
      高置信度互补学习的实时目标跟踪
      摘要:目的判别式目标跟踪算法在解决模型漂移问题时通常都是在预测结果的基础上构建更可靠的样本或采用更健壮的分类器,从而忽略了高效简洁的置信度判别环节。为此,提出高置信度互补学习的实时目标跟踪算法(HCCL-Staple)。方法将置信度评估问题转化为子模型下独立进行的置信度计算与互补判别,对相关滤波模型计算输出的平均峰值相关能量(APCE),结合最大响应值进行可靠性判定,当二者均以一定比例大于历史均值时,判定为可靠并进行更新,将颜色概率模型的输出通过阈值处理转化为二值图像,并基于二值图像形态学提取像素级连通分量属性(PCCP),综合考虑连通分量数量、最大连通分量面积及矩形度进行可靠性判别,当置信度参数多数呈高置信度形态时,判定为可靠,进行更新;否则,判定为不可靠,降低该模型的融合权重并停止更新。结果在数据集OTB-2015上的实验结果表明,HCCL-Staple算法与原算法相比,距离精度提高了3.2%,成功率提高了2.7%,跟踪速度为32.849帧/s,在颜色特征适应性较弱的场景和目标被遮挡的复杂场景中均能有效防止模型漂移,与当前各类主流的跟踪算法相比具有较好的跟踪效果。结论两种子模型的置信度判别方法均能针对可能产生低置信度结果的敏感场景进行有效估计,且对输出形式相同的其他模型在置信度判别上具有一定的适用性。互补使用上述判别策略的HCCL-Staple算法能够有效防止模型漂移,保持高速的同时显著提升跟踪精度。  
      关键词:模型漂移;置信度;互补学习;实时目标跟踪;图像形态学   
      15
      |
      96
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689675 false
      更新时间:2024-05-07
    • 基于非凸低秩分解判别的叠加线性稀疏人脸识别

      叶学义, 罗宵晗, 王鹏, 陈慧云
      2019, 24(8): 1327-1337. DOI: 10.11834/jig.180585
      基于非凸低秩分解判别的叠加线性稀疏人脸识别
      摘要:目的针对因采集的人脸图像样本受到污染而严重干扰人脸识别及训练样本较少(小样本)时会由于错误的稀疏系数导致性能急剧下降从而影响人脸识别的问题,提出了一种基于判别性非凸低秩矩阵分解的叠加线性稀疏表示算法。方法首先由$γ$范数取代传统核范数,克服了传统低秩矩阵分解方法求解核范数时因矩阵奇异值倍数缩放导致的识别误差问题;然后引入结构不相干判别项,以增加不同类低秩字典间的非相干性,达到抑制类内变化和去除类间相关性的目的;最后利用叠加线性稀疏表示方法完成分类。结果所提算法在AR人脸库中的识别率达到了98.67±0.57%,高于SRC(sparse representation-based classification)、ESRC(extended SRC)、RPCA(robust principal component analysis)+SRC、LRSI(low rank matrix decomposition with structural incoherence)、SLRC(superposed linear representation based classification)-$l_{1}$等算法;同时,遮挡实验表明,算法对遮挡图像具有更好的鲁棒性,在不同遮挡比例下,相比其他算法均有更高的识别率。在CMU PIE人脸库中,对无遮挡图像添加0、10%、20%、30%、40%的椒盐噪声,算法识别率分别达到90.1%、85.5%、77.8%、65.3%和46.1%,均高于其他算法。结论不同人脸库、不同比例遮挡和噪声的实验结果表明,所提算法针对人脸遮挡、表情和光照等噪声因素依然保持较高的识别率,鲁棒性更好。  
      关键词:人脸识别;非凸低秩矩阵分解;结构不相干;叠加线性稀疏表示(SLRC);字典学习;主成分分析(PCA)   
      14
      |
      4
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689730 false
      更新时间:2024-05-07
    • 基于自步学习的鲁棒多样性多视角聚类

      唐永强, 张文生
      2019, 24(8): 1338-1348. DOI: 10.11834/jig.180669
      基于自步学习的鲁棒多样性多视角聚类
      摘要:目的大数据环境下的多视角聚类是一个非常有价值且极具挑战性的问题。现有的适合大规模多视角数据聚类的方法虽然在一定程度上能够克服由于目标函数非凸性导致的局部最小值,但是缺乏对异常点鲁棒性的考虑,且在样本选择过程中忽略了视角多样性。针对以上问题,提出一种基于自步学习的鲁棒多样性多视角聚类模型(RD-MSPL)。方法1)通过在目标函数中引入结构稀疏范数$\mathrm{L}_{2, 1}$来建模异常点;2)通过在自步正则项中对样本权值矩阵施加反结构稀疏约束来增加在多个视角下所选择样本的多样性。结果在Extended Yale B、Notting-Hill、COIL-20和Scene15公开数据集上的实验结果表明:1)在4个数据集上,所提出的RD-MSPL均优于现有的2个最相关多视角聚类方法。与鲁棒多视角聚类方法(RMKMC)相比,聚类准确率分别提升4.9%,4.8%,3.3%和1.3%;与MSPL相比,准确率分别提升7.9%,4.2%,7.1%和6.5%。2)通过自对比实验,证实了所提模型考虑鲁棒性和样本多样性的有效性;3)与单视角以及多个视角简单拼接的实验对比表明,RD-MSPL能够更有效地探索视角之间关联关系。结论本文提出一种基于自步学习的鲁棒多样性多视角聚类模型,并针对该模型设计了一种高效求解算法。所提方法能够有效克服异常点对聚类性能的影响,在聚类过程中逐步加入不同视角下的多样性样本,在避免局部最小值的同时,能更好地获取不同视角的互补信息。实验结果表明,本文方法优于现有的相关方法。  
      关键词:多视角学习;聚类;自步学习;鲁棒;多样性   
      15
      |
      5
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689788 false
      更新时间:2024-05-07
    • 特征注意金字塔调制网络的视频目标分割

      汤润发, 宋慧慧, 张开华, 姜斯浩
      2019, 24(8): 1349-1357. DOI: 10.11834/jig.180661
      特征注意金字塔调制网络的视频目标分割
      摘要:目的视频目标分割是在给定第1帧标注对象掩模条件下,实现对整个视频序列中感兴趣目标的分割。但是由于分割对象尺度的多样性,现有的视频目标分割算法缺乏有效的策略来融合不同尺度的特征信息。因此,本文提出一种特征注意金字塔调制网络模块用于视频目标分割。方法首先利用视觉调制器网络和空间调制器网络学习分割对象的视觉和空间信息,并以此为先验引导分割模型适应特定对象的外观。然后通过特征注意金字塔模块挖掘全局上下文信息,解决分割对象多尺度的问题。结果实验表明,在DAVIS 2016数据集上,本文方法在不使用在线微调的情况下,与使用在线微调的最先进方法相比,表现出更具竞争力的结果,$J$-mean指标达到了78.7%。在使用在线微调后,本文方法的性能在DAVIS 2017数据集上实现了最好的结果,$J$-mean指标达到了68.8%。结论特征注意金字塔调制网络的视频目标分割算法在对感兴趣对象分割的同时,针对不同尺度的对象掩模能有效结合上下文信息,减少细节信息的丢失,实现高质量视频对象分割。  
      关键词:视频对象分割;全卷积网络;调制器;空间金字塔;注意机制   
      13
      |
      4
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689802 false
      更新时间:2024-05-07
    • 基于视觉感知的智能扫地机器人的垃圾检测与分类

      宁凯, 张东波, 印峰, 肖慧辉
      2019, 24(8): 1358-1368. DOI: 10.11834/jig.180475
      基于视觉感知的智能扫地机器人的垃圾检测与分类
      摘要:目的 为了提高扫地机器人的自主性和智能化程度,为扫地机器人配备视觉传感器,使其获得视觉感知能力,通过研究有效的垃圾检测分类模型与算法,实现对垃圾的定位与识别,引导扫地机器人对垃圾进行自动识别与按类处理,提高工作的目的性和效率,避免盲动和减少能耗。方法 选择检测速度较快的YOLOv2作为主网络模型,结合密集连接卷积网络,嵌入深层密集模块,对YOLOv2进行改进,提出一种YOLOv2-dense网络,该网络可以充分利用图像的高分辨率特征,实现图像浅层和深层特征的复用与融合。结果 测试结果表明,智能扫地机器人使用本文方法可以有效识别不同形态的常见垃圾类别,在真实场景中,测试识别准确率为84.98%,目标检测速度达到26帧/s。结论实验结果表明,本文构建的YOLOv2-dense网络模型具有实时检测的速度,并且在处理具有不同背景、光照、视角与分辨率的图片时,表现出较强的适应和识别性能。在机器人移动过程中,可以保证以较高的准确率识别出垃圾的种类,整体性能优于原YOLOv2模型。  
      关键词:YOLOv2网络;扫地机器人;密集连接;神经网络;深度学习   
      14
      |
      4
      |
      7
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689837 false
      更新时间:2024-05-07

      图像理解和计算机视觉

    • 眼球光心标定与距离修正的3维注视点估计

      张远辉, 段承杰, 朱俊江, 何雨辰
      2019, 24(8): 1369-1380. DOI: 10.11834/jig.180643
      眼球光心标定与距离修正的3维注视点估计
      摘要:目的 在基于双目视线相交方法进行3维注视点估计的过程中,眼球光心3维坐标手工测量存在较大误差,且3维注视点估计结果在深度距离方向偏差较大。为此,提出了眼球光心标定与距离修正的方案对3维注视点估计模型进行改进。方法 首先,通过图像处理算法获取左右眼的PCCR(pupil center cornea reflection)矢量信息,并使用二阶多项式映射函数得到左、右眼的2维平面注视点;其次,通过眼球光心标定方法获取眼球光心的3维坐标,避免手工测量方法引入的误差;然后,结合平面注视点得到左、右眼的视线方向,计算视线交点得到初步的3维注视点;最后,针对结果在深度距离方向抖动较大的问题,使用深度方向数据滤波与Z平面截取修正法对3维注视点结果进行修正处理。结果 选择两个不同大小的空间测试,实验结果表明该方法在3050 cm的工作距离内,角度偏差0.7°,距离偏差17.8 mm,在50130 cm的工作距离内,角度偏差1.0°,距离偏差117.4 mm。与其他的3维注视点估计方法相比较,在同样的测试空间条件下,角度偏差和距离偏差均显著减小。结论提出的眼球光心标定方法可以方便准确地获取眼球光心的3维坐标,避免手工测量方法带来的误差,对角度偏差的减小效果显著。提出的深度方向数据滤波与Z平面截取修正法可以有效抑制数据结果的抖动,对距离偏差的减小效果显著。  
      关键词:双目视线;2维注视点;3维注视点;眼球光心;3维坐标标定;数据滤波;距离修正   
      23
      |
      7
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689880 false
      更新时间:2024-05-07
    • 根据灰度值信息自适应窗口的半全局匹配

      黄超, 赵华治
      2019, 24(8): 1381-1390. DOI: 10.11834/jig.180574
      根据灰度值信息自适应窗口的半全局匹配
      摘要:目的 立体匹配算法是立体视觉研究的关键点,算法的匹配精度和速度直接影响3维重建的效果。对于传统立体匹配算法来说,弱纹理区域、视差深度不连续区域和被遮挡区域的匹配精度依旧不理想,为此选择具有全局匹配算法和局部匹配算法部分优点、性能介于两种算法之间、且鲁棒性强的半全局立体匹配算法作为研究内容,提出自适应窗口与半全局立体匹配算法相结合的改进方向。方法 以通过AD(absolute difference)算法求匹配代价的半全局立体匹配算法为基础,首先改变算法匹配代价的计算方式,研究窗口大小对算法性能的影响,然后加入自适应窗口算法,研究自适应窗口对算法性能的影响,最后对改进算法进行算法性能评价与比较。结果 实验结果表明,匹配窗口的选择能够影响匹配算法性能、提高算法的适用范围,自适应窗口的加入能够提高算法匹配精度特别是深度不连续区域的匹配精度,并有效降低算法运行时间,对Cones测试图像集,改进的算法较改进前误匹配率在3个测试区域平均减少2.29%;对于所有测试图像集,算法运行时间较加入自适应窗口前平均减少28.5%。结论加入自适应窗口的半全局立体匹配算法具有更优的算法性能,能够根据应用场景调节算法匹配精度和匹配速度。  
      关键词:计算机视觉;图像处理;立体匹配;自适应窗口;半全局匹配算法;绝对误差和(SAD)算法   
      15
      |
      4
      |
      10
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689899 false
      更新时间:2024-05-07
    • 高速公路云台相机的自动标定

      李婵, 宋焕生, 武非凡, 王伟, 王璇
      2019, 24(8): 1391-1399. DOI: 10.11834/jig.180599
      高速公路云台相机的自动标定
      摘要:目的 云台相机因监控视野广、灵活度高,在高速公路监控系统中发挥出重要的作用,但因云台相机焦距与角度不定时地随监控需求变化,对利用云台相机的图像信息获取真实世界准确的物理信息造成一定困难,因此进行云台相机非现场自动标定方法的研究对高速公路监控系统的应用具有重要价值。方法 本文提出了一种基于消失点约束与车道线模型约束的云台相机自动标定方法,以建立高速公路监控系统的图像信息与真实世界物理信息之间准确描述关系。首先,利用车辆目标运动轨迹的级联霍夫变换投票实现纵向消失点的准确估计,其次以车道线模型物理度量为约束,并采用枚举策略获取横向消失点的准确估计,最终在已知相机高度的条件下实现高速公路云台相机标定参数的准确计算。结果 将本文方法在不同的场景下进行实验,得到在不同的距离下的平均误差分别为4.63%、4.74%、4.81%、4.65%,均小于5%。结论对多组高速公路监控场景的测试实验结果表明,本文提出的云台相机自动标定方法对高速公路监控场景的物理测量误差能够满足应用需求,与参考方法相比较而言具有较大的优势和一定的应用价值,得到的相机内外参数可用于计算车辆速度与空间位置等。  
      关键词:车道线模型;消失点;自动标定;高速公路;云台相机   
      12
      |
      5
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689909 false
      更新时间:2024-05-07

      遥感图像处理

    • 注意力机制改进卷积神经网络的遥感图像目标检测

      李红艳, 李春庚, 安居白, 任俊丽
      2019, 24(8): 1400-1408. DOI: 10.11834/jig.180649
      注意力机制改进卷积神经网络的遥感图像目标检测
      摘要:目的 遥感图像目标检测是遥感图像处理的核心问题之一,旨在定位并识别遥感图像中的感兴趣目标。为解决遥感图像目标检测精度较低的问题,在公开的NWPU_VHR-10数据集上进行实验,对数据集中的低质量图像用增强深度超分辨率(EDSR)网络进行超分辨率重构,为训练卷积神经网络提供高质量数据集。方法 对原Faster-RCNN(region convolutional neural network)网络进行改进,在特征提取网络中加入注意力机制模块获取更多需要关注目标的信息,抑制其他无用信息,以适应遥感图像视野范围大导致的背景复杂和小目标问题;并使用弱化的非极大值抑制来适应遥感图像目标旋转;提出利用目标分布之间的互相关对冗余候选框进一步筛选,降低虚警率,以进一步提高检测器性能。结果 为证明本文方法的有效性,进行了两组对比实验,第1组为本文所提各模块间的消融实验,结果表明改进后算法比原始Faster-RCNN的检测结果高了12.2%,证明了本文所提各模块的有效性。第2组为本文方法与其他现有方法在NWPU_VHR-10数据集上的对比分析,本文算法平均检测精度达到79.1%,高于其他对比算法。结论本文使用EDSR对图像进行超分辨处理,并改进Faster-RCNN,提高了算法对遥感图像目标检测中背景复杂、小目标、物体旋转等情况的适应能力,实验结果表明本文算法的平均检测精度得到了提高。  
      关键词:遥感图像;目标检测;注意力机制;卷积神经网络;图像超分辨率   
      53
      |
      8
      |
      18
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55689910 false
      更新时间:2024-05-07
    0