摘要:目的针对传统Retinex算法存在的泛灰、光晕、边界突出以及高曝光区域细节增强不明显的现象,将Retinex和多聚焦融合的思想融合在一起,提出一种基于Retinex的改进双边滤波的多聚焦融合算法。方法首先根据图像情况在像素级层次将反射图像分解为最优亮暗区域两部分,然后利用线性积分变换和邻近像素最优推荐算法,将原始图像与最优亮区域多聚焦融合得到图像T,再将图像T与最优暗区域重复以上步骤得到图像S,最后利用引导滤波进行边界修复得到最终图像。结果选择两组图像girl和boat进行实验,与SSR(single scale Retinex)、BSSR(Retinex algorithm based on bilateral filtering)、BIFT(Retinex image enhancement algorithm based on image fusion technology)和RVRG(Retinex variational model based on relative gradient regularization and its application)4种方法进行对比,本文方法在方差和信息熵两方面表现出明显优势。在均值方面,比BIFT和RVRG分别平均提高16.37和20.90;在方差方面,比BIFT和RVRG分别平均提高1.25和4.42;在信息熵方面,比BIFT和RVRG分别平均提高0.1和0.17;在平均梯度方面,比BIFT和RVRG分别平均提高1.21和0.42。对比BIFT和RVRG的实验数据,证明了本文方法的有效性。结论实验结果表明,相比较其他图像增强算法,本文算法能更有效抑制图像的泛灰、光晕和边界突出现象,图像细节增强效果特别显著。
摘要:目的2D姿态估计的误差是导致3D人体姿态估计产生误差的主要原因,如何在2D误差或噪声干扰下从2D姿态映射到最优、最合理的3D姿态,是提高3D人体姿态估计的关键。本文提出了一种稀疏表示与深度模型联合的3D姿态估计方法,以将3D姿态空间几何先验与时间信息相结合,达到提高3D姿态估计精度的目的。方法利用融合稀疏表示的3D可变形状模型得到单帧图像可靠的3D初始值。构建多通道长短时记忆MLSTM(multi-channel long short term memory)降噪编/解码器,将获得的单帧3D初始值以时间序列形式输入到其中,利用MLSTM降噪编/解码器学习相邻帧之间人物姿态的时间依赖关系,并施加时间平滑约束,得到最终优化的3D姿态。结果在Human3.6M数据集上进行了对比实验。对于两种输入数据:数据集给出的2D坐标和通过卷积神经网络获得的2D估计坐标,相比于单帧估计,通过MLSTM降噪编/解码器优化后的视频序列平均重构误差分别下降了12.6%,13%;相比于现有的基于视频的稀疏模型方法,本文方法对视频的平均重构误差下降了6.4%,9.1%。对于2D估计坐标数据,相比于现有的深度模型方法,本文方法对视频的平均重构误差下降了12.8%。结论本文提出的基于时间信息的MLSTM降噪编/解码器与稀疏模型相结合,有效利用了3D姿态先验知识,视频帧间人物姿态连续变化的时间和空间依赖性,一定程度上提高了单目视频3D姿态估计的精度。
关键词:姿态估计;3D人体姿态;稀疏表示;LSTM(long short term memory);残差连接
摘要:目的目标语义特征提取效果直接影响图像语义分割的精度,传统的单尺度特征提取方法对目标的语义分割精度较低,为此,提出一种基于多尺度特征融合的工件目标语义分割方法,利用卷积神经网络提取目标的多尺度局部特征语义信息,并将不同尺度的语义信息进行像素融合,使神经网络充分捕获图像中的上下文信息,获得更好的特征表示,有效实现工件目标的语义分割。方法使用常用的多类工件图像定义视觉任务,利用残差网络模块获得目标的单尺度语义特征图,再结合本文提出的多尺度特征提取方式获得不同尺度的局部特征语义信息,通过信息融合获得目标分割图。使用上述方法经多次迭代训练后得到与视觉任务相关的工件目标分割模型,并对训练权重与超参数进行保存。结果将本文方法和传统的单尺度特征提取方法做定性和定量的测试实验,结果表明,获得的分割网络模型对测试集中的目标都具有较精确的分割能力,与单尺度特征提取方法相比,本文方法的平均交并比mIOU(mean intersection over union)指标在验证集上训练精度提高了4.52%,在测试集上分割精度提高了4.84%。当测试样本中包含的目标种类较少且目标边缘清晰时,本文方法能够得到更精准的分割结果。结论本文提出的语义分割方法,通过多尺度特征融合的方式增强了神经网络模型对目标特征的提取能力,使训练得到的分割网络模型比传统的单尺度特征提取方式在测试集上具有更优秀的性能,从而验证了所提出方法的有效性。
摘要:目的遥感图像融合是将一幅高空间分辨率的全色图像和对应场景的低空间分辨率的多光谱图像,融合成一幅在光谱和空间两方面都具有高分辨率的多光谱图像。为了使融合结果在保持较高空间分辨率的同时减轻光谱失真现象,提出了自适应的权重注入机制,并针对上采样图像降质使先验信息变得不精确的问题,提出了通道梯度约束和光谱关系校正约束。方法使用变分法处理遥感图像融合问题。考虑传感器的物理特性,使用自适应的权重注入机制向多光谱图像各波段注入不同的空间信息,以处理多光谱图像波段间的差异,避免向多光谱图像中注入过多的空间信息导致光谱失真。考虑到上采样的图像是降质的,采用局部光谱一致性约束和通道梯度约束作为先验信息的约束,基于图像退化模型,使用光谱关系校正约束更精确地保持融合结果的波段间关系。结果在Geoeye和Pleiades卫星数据上同6种表现优异的算法进行对比实验,本文提出的模型在2个卫星数据上除了相关系数CC(correlation coefficient)和光谱角映射SAM(spectral angle mapper)评价指标表现不够稳定,偶尔为次优值外,在相对全局误差ERGAS(erreur relative globale adimensionnelle de synthèse)、峰值信噪比PSNR(peak signal-to-noise ratio)、相对平均光谱误差RASE(relative average spectral error)、均方根误差RMSE(root mean squared error)、光谱信息散度SID(spectral information divergence)等评价指标上均为最优值。结论本文模型与对比算法相比,在空间分辨率提升和光谱保持方面都取得了良好效果。
摘要:目的在高光谱地物分类中,混合像元在两个方面给单标签分类带来了负面影响:单类地物在混入异类地物后,其光谱特征会发生改变,失去独特性,使类内差异变大;多类地物在混合比例加深的情况下,光谱曲线会互相趋近,使类间差异变小。为了解决这一问题,本文将多标签技术运用在高光谱分类中。方法基于高光谱特性,本文将欧氏距离与光谱角有机结合运用到基于类属属性的多标签学习LIFT(multi-label learning with label specific features)算法的类属属性构建中,形成了适合高光谱多标签的方法。基于标签地位的不相等,本文为多标签数据标注丰度最大标签,并在K最近邻KNN(k-nearest neighbor)算法中为丰度最大的标签设置比其余标签更大的权重,完成对最大丰度标签的分类。结果在多标签分类与单标签分类的比较中,多标签表现更优,且多标签在precision指标上表现良好,高于单标签0.5% 1.5%。在与其余4种多标签方法的比较中,本文多标签方法在2个数据集上表现最优,在剩余1个数据集上表现次优。在最大丰度标签的分类上,本文方法表现优于单标签分类,在数据集Jasper Ridge上的总体分类精度提高0.2%,混合像元分类精度提高0.5%。结论多标签分类技术应用在高光谱地物分类上是可行的,可以提升分类效果。本文方法根据高光谱数据的特性对LIFT方法进行了改造,在高光谱多标签分类上表现优异。高光谱地物的多标签分类中,每个像元多个标签的地位不同,在分类中可以通过设置不同权重体现该性质,提升分类精度。
摘要:目的车型识别在智能交通、智慧安防、自动驾驶等领域具有十分重要的应用前景。而车型识别中,带标签车型数据的数量是影响车型识别的重要因素。本文以"增强数据"为核心,结合PGGAN(progressive growing of GANs)和Attention机制,提出一种基于对抗网络生成数据再分类的网络模型AT-PGGAN(attention-progressive growing of GANs),采用模型生成带标签车型图像的数量,从而提高车型识别准确率。方法该模型由生成网络和分类网络组成,利用生成网络对训练数据进行增强扩充,利用注意力机制和标签重嵌入方法对生成网络进行优化使其生成图像细节更加完善,提出标签重标定的方法重新确定生成图像的标签数据,并对生成图像进行相应的筛选。使用扩充的图像加上原有数据集的图像作为输入训练分类网络。结果本文模型能够很好地扩充已有的车辆图像,在公开数据集StanfordCars上,其识别准确率相比未使用AT-PGGAN模型进行数据扩充的分类网络均有1%以上的提升,在CompCars上与其他网络进行对比,本文方法在同等条件下最高准确率达到96.6%,高于对比方法。实验结果表明该方法能有效提高车辆精细识别的准确率。结论将生成对抗网络用于对数据的扩充增强,生成图像能够很好地模拟原图像数据,对原图像数据具有正则的作用,图像数据可以使图像的细粒度识别准确率获得一定的提升,具有较大的应用前景。
摘要:目的现有的车标识别方法尽管取得了不错的识别效果,但最终的识别率容易遇到瓶颈,很难得到提升。车标识别是智能交通系统中至关重要的一部分,识别率的微小提升也能带来巨大的社会价值。通过挖掘与分析车标识别中潜在的问题和难点,发现未能得到正确分类的图像大部分为模糊车标图像。针对车标图像中存在的成像模糊等情况,本文提出一种基于抗模糊特征提取的车标识别方法。方法构建车标图像金字塔模型,分别提取图像的抗纹理模糊特征和抗边缘模糊特征。抗纹理模糊特征的提取使用局部量化的LPQ(local phase quantization)模式,可以增强原始特征的鲁棒性,抗边缘模糊特征的提取基于局部块弱梯度消除的HOG(histogram of oriented gradient)特征提取方法,可以在描述车标图像边缘梯度信息的同时,提升特征的抗模糊能力。最后利用CCA(canonical correlation analysis)方法进行两种抗模糊特征的融合并用于后续的降维与分类。结果本文方法在多个数据集上均取得了很好的识别效果,在20幅训练样本下,本文方法在公开车标数据集HFUT-VL(vehicle logo dataset from Hefei University of Technology)上取得了99.04%的识别率,在本文构建的模糊车标数据集BVL(blurring vehicle logo dataset)上也取得了97.19%的识别率。而在难度较大的XMU(Xiamen University vehicle logo dataset)上,本文方法在100幅训练样本下也达到了96.87%的识别率,识别效果高于一些具有较好表现的车标识别方法,表现出很强的鲁棒性和抗模糊性。结论本文方法提高了对成像质量欠缺的车标图像的识别能力,从而提升了整体识别效果,更符合实际应用中车标识别的需求。
摘要:目的随着人脸识别系统应用的日益广泛,提高身份认证的安全性,提升人脸活体检测的有效性已经成为迫切需要解决的问题。针对活体检测中真实用户的照片存在的人脸欺骗问题,提出一种新的解决照片攻击的人脸活体检测算法。方法利用局部二值模式LBP(local binary pattern)、TV-L1(total variation regularization and the robust L1 norm)光流法、光学应变和深度网络实现的人脸活体检测方法。对原始数据进行预处理得到LBP特征图;对LBP特征图提取光流信息,提高对噪声适应的鲁棒性;计算光流的导数得到图像的光学应变图,以表征相邻两帧之间的微纹理性质的微小移动量;通过卷积神经网络模型(CNN)将每个应变图编码成特征向量,最终将特征向量传递给长短期记忆LSTM(long short term memory)模型进行分类,实现真假人脸的判别。结果实验在两个公开的人脸活体检测数据库上进行,并将本文算法与具有代表性的活体检测算法进行对比。在南京航空航天大学(NUAA)人脸活体检测数据库中,算法精度达到99.79%;在Replay-attack数据库中,算法精度达到98.2%,对比实验的结果证明本文算法对照片攻击的识别更加准确。结论本文提出的针对照片攻击的人脸活体检测算法,融合光学应变图像和深度学习模型的优点,使得人脸活体检测更加准确。