最新刊期

    2015 20 11

      综述

    • 多媒体技术研究:2014——深度学习与媒体计算

      吴飞, 朱文武, 于俊清
      2015, 20(11): 1423-1433. DOI: 10.11834/jig.20151101
      摘要:海量数据的快速增长给多媒体计算带来了深刻挑战。与传统以手工构造为核心的媒体计算模式不同,数据驱动下的深度学习(特征学习)方法成为当前媒体计算主流。 重点分析了深度学习在检索排序与标注、多模态检索与语义理解、视频分析与理解等媒体计算方面的最新进展和所面临的挑战,并对未来的发展趋势进行展望。 在检索排序与标注方面, 基于深度学习的神经编码等方法取得了很好的效果;在多模态检索与语义理解方面,深度学习被用于弥补不同模态间的“异构鸿沟“以及底层特征与高层语义间的”语义鸿沟“,基于深度学习的组合语义学习成为研究热点;在视频分析与理解方面, 深度神经网络被用于学习视频的有效表示方式及动作识别,并取得了很好的效果。然而,深度学习是一种数据驱动的方法,易受数据噪声影响, 对于在线增量学习方面还不成熟,如何将深度学习与众包计算相结合是一个值得期待的问题。 该综述在深入分析现有方法的基础上,对深度学习框架下为解决异构鸿沟和语义鸿沟给出新的思路。  
      关键词:多媒体;海量数据;检索与标注;语义理解;深度学习   
      5053
      |
      384
      |
      5
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56115395 false
      更新时间:2024-05-07

      图像处理和编码

    • 对偶算法在紧框架域TV-L

      李旭超, 马松岩, 边素轩
      2015, 20(11): 1434-1445. DOI: 10.11834/jig.20151102
      摘要:建立准确的数学模型并获得有效的求解算法是图像恢复面临的“两难”问题,非光滑型能量泛函有利于准确描述图像的特征,但很难获得有效的求解算法。提出一种拟合项和正则项都是非光滑型能量泛函正则化模型,并推导出有效的交替迭代算法。 首先,对系统和椒盐噪声模糊的图像,在紧框架域,用L范数描述拟合项,用加权有界变差函数半范数描述正则项。其次,通过引入辅助变量,将图像恢复正则化模型转化为增广拉格朗日模型。再次,利用变量分裂技术,将转化模型分解为两个子问题。最后,利用Fenchel变换和不动点迭代原理,将子问题分别转化为对偶迭代子问题和松弛迭代子问题,并证明迭代子问题的收敛性。 针对图像恢复模型的非光滑性,提出一种交替迭代算法。仿真实验表明,相对传统算法,本文算法能有效地恢复系统和椒盐噪声模糊的图像,提高峰值信噪比大约0.51分贝。 该正则化模型能有效地恢复图像的边缘,取得较高的峰值信噪比和结构相似测度,具有较快的收敛速度,适用于恢复椒盐噪声模糊的图像。  
      关键词:正则化模型;交替迭代算法;图像恢复;拉格朗日乘子   
      2924
      |
      339
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56116376 false
      更新时间:2024-05-07
    • 融合梯度信息与HVS滤波器的无参考清晰度评价

      应凌楷, 李子印, 张聪聪
      2015, 20(11): 1446-1452. DOI: 10.11834/jig.20151103
      摘要:目前无参考图像质量评价算法的性能存在较大的提升空间,为了提高清晰度评价技术,提出了一种基于梯度信息与HVS滤波器的无参考清晰度评价算法(GI-F)。 该算法首先利用梯度算子计算各像素点的梯度信息,再通过HVS滤波器得到加权和作为图像的清晰度指标。 在公开数据库LIVE、TID2008和CSIQ上进行的实验,GI-F与S3(Spectral and Spatial Sharpness)、CPBD(Cumulative Probability of Blur Detection)和LPC-SI(Local Phase Coherence-based Sharpness Index)相比,性能指标RMSE(Root Mean Squared Error)、PLCC(Pearson Linear Correlation Coefficient)和SROCC(Spearman Rank-Order Correlation Coefficient)分别提升了20.66%、4.61%和3.33%;同时GI-F还具有更低的计算复杂度,即使与目前最好的BRISQUE(Blind/Referenceless Image Spatial QUality Evaluator)算法相比,耗时也降低了79.72%。 该算法只需耗费更少的时间即可计算出与人眼感知更加接近的客观清晰度指标,可广泛用于无参考图像情况下的清晰度指标计算场合,同时还可以通过并行计算进一步降低其计算时间。  
      关键词:图像质量评价;无参考清晰度评价;梯度信息;人眼视觉系统(HVS);高通滤波器;自动聚焦   
      3448
      |
      275
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56114790 false
      更新时间:2024-05-07
    • 消除halo效应和色彩失真的去雾算法

      刘兴云, 戴声奎
      2015, 20(11): 1453-1461. DOI: 10.11834/jig.20151104
      摘要:雾天条件下采集的图像存在低对比度和低场景可见度的问题,传统的去雾算法易产生halo效应和色彩失真问题。为此,结合大气散射光特性提出一种基于相对总变差的图像复原方法。 首先从大气散射光与纹理信息无关的角度出发,利用相对总变差分离图像主结构和图像纹理信息准确估计大气耗散函数,通过引入一个自适应保护因子来避免复原图像的色彩失真问题,最后由大气散射模型计算复原图像并进行图像的亮度调整,得到一幅清晰无雾的图像。 通过与经典的去雾算法比较,表明该方法可以有效避免halo效应和天空颜色失真等不足,并且在图像的深度突变处也能得到很好的去雾效果。 实验表明该算法的场景适应能力较强,时间复杂度与图像的大小成线性关系,相比于前人的算法在计算速度上有一定的提高。  
      关键词:相对总变差;大气耗散函数;去雾;大气散射模型   
      5199
      |
      333
      |
      6
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56116353 false
      更新时间:2024-05-07

      图像分析和识别

    • 融合多姿势估计特征的动作识别

      罗会兰, 冯宇杰, 孔繁胜
      2015, 20(11): 1462-1472. DOI: 10.11834/jig.20151105
      摘要:为了提高静态图像在遮挡等复杂情况下的动作识别效果和鲁棒性,提出融合多种姿势估计得到的特征信息进行动作识别的方法。 利用已得到的多个动作模型对任意一幅图像进行姿势估计,得到图像的多组姿势特征信息,每组特征信息包括关键点信息和姿势评分。将训练集中各个动作下所有图像的区分性关键点提取出来,并计算每一幅图像中区分性关键点之间的相对距离,一个动作所有图像的特征信息共同构成该动作的模板信息。测试图像在多个动作模型下进行姿势估计,得到多组姿势特征,从每组姿势特征中提取与对应模板一致的特征信息,将提取的多组姿势特征信息分别与对应的模板进行匹配,并通过姿势评分对匹配值优化,根据最终匹配值进行动作分类。 在两个数据集上,本文方法与5种比较流行的动作识别方法进行比较,获得了较好的平均准确率,在数据集PASCAL VOC 2011-val上较其他一些最新的经典方法平均准确率至少提高近2%。在数据集Stanford 40 actions上,较其他一些最新的经典方法平均准确率至少提高近6%。 本文方法融合了多个姿势特征,并且能够获取关键部位的遮挡信息,所以能较好应对遮挡等复杂环境情况,具有较高的平均识别准确率。  
      关键词:动作识别;多姿势估计;模板匹配;遮挡   
      2901
      |
      264
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56115433 false
      更新时间:2024-05-07
    • 融合检测和跟踪的实时人脸跟踪

      刘嘉敏, 梁莹, 孙洪兴, 段勇, 刘虓
      2015, 20(11): 1473-1481. DOI: 10.11834/jig.20151106
      摘要:在实时人脸跟踪过程中,因光照变化、目标被遮挡以及跟踪时间长等因素,导致的误差累积都会影响系统的整体性能。针对这些问题,提出一种融合检测和跟踪技术的方法,其中包含了检测、控制和跟踪3个模块(简称DCT)。 在检测模块中,利用AdaBoost算法提取人脸的相关信息,并将信息传递给跟踪模块进行跟踪处理;在跟踪模块中,采用在线随机蕨和SURF(speeded up robust features)算法对目标进行跟踪。同时,在每次检测到目标之后,会通过控制模块对当前跟踪目标准确性进行判断。 选取国际标准数据组并与LBP+Camshift+Kalman滤波算法、SEMI算法、TLD(tracking-learning-detection)算法比较,实验结果表明,DCT方法在目标发生尺度较大变化、目标遮挡、旋转、形变以及光照发生变化时都具有良好的跟踪识别效果,DCT方法识别准确率在95%以上,平均误识别率和漏识别率分别为0.86%和0.78%。 DCT方法具有消除误差累积,跟踪失败后自动恢复等特点,同时可以消除环境中光照、遮挡和仿射变换的影响并满足系统跟踪的实时性要求,运用于视频人脸跟踪系统中能够提高系统的实时性及鲁棒性。  
      关键词:人脸检测;跟踪;控制;AdaBoost;随机蕨   
      3285
      |
      303
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56115342 false
      更新时间:2024-05-07
    • 非凸加权核范数及其在运动目标检测中的应用

      周宗伟, 金忠
      2015, 20(11): 1482-1491. DOI: 10.11834/jig.20151107
      摘要:近年来,低秩矩阵分解被越来越多的应用到运动目标检测中。但该类方法一般将矩阵秩函数松弛为矩阵核函数优化,导致背景恢复精度不高;并且没有考虑到前景目标的先验知识,即区域连续性。为此提出一种结合非凸加权核范数和前景目标区域连续性的目标检测算法。 本文提出的运动目标检测模型以鲁棒主成分分析(RPCA)作为基础,在该基础上采用矩阵非凸核范数取代传统的核范数逼近矩阵低秩约束,并结合了前景目标区域连续性的先验知识。该方法恢复出的低秩矩阵即为背景图像矩阵,而稀疏大噪声矩阵则是前景目标位置矩阵。 无论是在仿真数据集还是在真实数据集上,本文方法都能够取得比其他低秩类方法更好的效果。在不同数据集上,该方法相对于RPCA方法,前景目标检测性能提升25%左右,背景恢复误差降低0.5左右;而相对于DECOLOR方法,前景目标检测性能提升约2%左右,背景恢复误差降低0.2左右。 矩阵秩函数的非凸松弛能够比凸松弛更准确的表征出低秩特征,从而在运动目标检测应用中更准确的恢复出背景。前景目标的区域连续性先验知识能够有效地过滤掉非目标大噪声产生的影响,使得较运动目标检测的精度得到大幅提高。因此,本文方法在动态纹理背景、光照渐变等较复杂场景中均能够较精确地检测出运动目标区域。但由于区域连续性的要求,本文方法对于小区域多目标的检测效果不甚理想。  
      关键词:运动目标检测;低秩矩阵分解;非凸加权核范数;区域连续性;矩阵恢复   
      3476
      |
      277
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56116301 false
      更新时间:2024-05-07

      图像理解和计算机视觉

    • OPTICS聚类与目标区域概率模型的多运动目标跟踪

      孙天宇, 孙炜, 薛敏
      2015, 20(11): 1492-1499. DOI: 10.11834/jig.20151108
      摘要:针对多运动目标在移动背景情况下跟踪性能下降和准确度不高的问题,本文提出了一种基于OPTICS聚类与目标区域概率模型的方法。 首先引入了Harris-Sift特征点检测,完成相邻帧特征点匹配,提高了特征点跟踪精度和鲁棒性;再根据各运动目标与背景运动向量不同这一点,引入了改进后的OPTICS加注算法,在构建的光流图上聚类,从而准确的分离出背景,得到各运动目标的估计区域;对每个运动目标建立一个独立的目标区域概率模型(OPM),随着检测帧数的迭代更新,以得到运动目标的准确区域。 多运动目标在移动背景情况下跟踪性能下降和准确度不高的问题通过本文方法得到了很好地解决,Harris-Sift特征点提取、匹配时间仅为Sift特征的17%。在室外复杂环境下,本文方法的平均准确率比传统背景补偿方法高出14%,本文方法能从移动背景中准确分离出运动目标。 实验结果表明,该算法能满足实时要求,能够准确分离出运动目标区域和背景区域,且对相机运动、旋转,场景亮度变化等影响因素具有较强的鲁棒性。  
      关键词:计算机视觉;图像处理;多运动目标跟踪;移动背景;聚类   
      3008
      |
      349
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56114629 false
      更新时间:2024-05-07
    • 具有仿反馈机制的图像模式分类认知

      陈克琼, 王建平, 李帷韬, 赵丽欣
      2015, 20(11): 1500-1510. DOI: 10.11834/jig.20151109
      摘要:模仿人类认知事物反复推敲比对的过程,探索了一种具有仿反馈机制的图像模式分类认知方法和计算模型,通过认知结果分析评价指标体系在不同认知需求下逐级优化特征空间,实现从全局到局部的仿反馈认知模式,并成功应用于回转窑火焰图像的烧成状态认知。 首先,提出了训练层和认知层耦合运行的具有仿反馈机制的图像模式分类认知模型,阐述了模型的目标、结构和功能;其次,设计了基于认知结果分析评价的仿反馈运行机制,建立了认知结果分析评价指标体系;然后,针对火焰图像烧成状态认知的应用,采用核主成分分析技术(KPCA)构建初始火焰图像特征空间,以建立最大认知信息量意义下的图像模式分类认知信息系统,继而基于属性核计算和马氏可分性评价指标建立压缩的认知信息系统;最后,在不同认知需求下,基于分析评价指标体系评估认知结果,更新压缩认知信息系统,实现烧成状态仿反馈智能认知。 对采集的火焰图像进行了仿真实验研究,平均认知精度达到91.78%。 实验结果表明,相对于已有的开环认知方法,本文方法可以通过仿反馈机制对难以区分相似样本进行反复认知,有效改进了认知精度。  
      关键词:图像模式分类认知;α熵;仿反馈机制;认知结果分析评价;烧成状态认知   
      3092
      |
      266
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56116070 false
      更新时间:2024-05-07

      计算机图形学

    • 带形状控制的自由曲线曲面参数样条

      彭丰富, 田良
      2015, 20(11): 1511-1516. DOI: 10.11834/jig.20151110
      摘要:样条曲线曲面的构造是工程制图中的一个重要部分。针对双曲抛物面上参数样条曲线的构造,在已有的研究基础上提出了一种样条方法使曲线曲面可以任意地逼近一个多边形或者一个网格。 在标准四面体内构造一个双曲抛物面,在该曲面上以基函数参数化的方法定义一种带形状参数的参数样条曲线曲面,样条基函数通过将双曲抛物面的有理参数化进行限定,生成单参数有理样条基函数。详细研究了样条的保形性及其端点性质。 样条曲线具有一个可变的形状控制因子,可以对曲线进行调整,能以任意精度逼近这个控制四边形或网格。对空间节点列,利用该样条可以生成-连续空间曲线,同样对于空间网格可以构造-连续的拟合曲面,它所对应的基函数可以是有理形式。 实验结果表明,本文在笔者已有的研究基础上提出的参数样条曲线可以通过重心坐标系变换适应为任意的四边形,除了空间四面体内的样条曲线,四面体退化成四边形同样可实现。  
      关键词:基函数;有理样条函数;逼近样条函数;-连续   
      2507
      |
      254
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56114620 false
      更新时间:2024-05-07

      遥感图像处理

    • 高分辨率SAR影像形态学层级分析的建筑物检测

      张恒, 余涛, 柳鹏, 张周威
      2015, 20(11): 1517-1525. DOI: 10.11834/jig.20151111
      摘要:现有基于结构分析的高分辨率SAR影像建筑物检测方法,只考虑了直线和L形结构建筑物,并且依赖建筑物高亮线条处阴影区作为建筑物识别的主要特征;当处于复杂场景时,阴影区受制于背景较暗或建筑物密集而无法准确得到,导致建筑物检测误差大、检测率低。针对上述问题,提出一种基于形态学层级分析的高分辨率SAR影像无监督建筑物检测算法。 该方法基于单幅单极化高分辨率SAR影像,首先利用改进的形态学交替滤波算子有效抑制其固有的斑点噪声,大大剔除了同质区背景噪声的干扰;然后利用层级分析形态学差分属性断面算法来实现对SAR影像建筑物的几何结构特征的提取;最后结合特征融合和属性阈值分割等后处理步骤得到复杂场景下建筑物提取信息。 将上述方法在建筑物密集的城区SAR影像中实验,通过与其他方法对比分析,具有检测率高、误差小的特点,准确率和召回率分别为95.38%、86.31%,并对降低虚警率方面有明显的优势。 将形态学交替滤波与形态学属性滤波的改进与结合,在对不同走向、尺寸和形状的高密度建筑物检测中具有较好的适应性。  
      关键词:建筑物检测;层级分析;形态学属性滤波;影像去噪;高分辨率SAR   
      3410
      |
      382
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56114718 false
      更新时间:2024-05-07
    • 利用邻域质心投票从分类后影像提取道路中心线

      丁磊, 姚红, 郭海涛, 刘志青
      2015, 20(11): 1526-1534. DOI: 10.11834/jig.20151112
      摘要:利用分类算法对高分辨率影像中的道路进行分割时,得到的二值图像往往混杂了许多非道路区域,且道路区域呈面状,无法直接应用于生产与研究。针对该问题,提出一种利用邻域质心投票提取道路中心线的算法。 首先检测像素在各方向上的连通距离以构建邻域多边形,随后进行质心投票来提取道路的中心线,与此同时估算道路宽度并判断出连通距离较长的方向数目,以排除非道路区域的干扰,最后经形态学处理得到细化的中心线。 选取测试图像及具有不同道路分布特征的高分辨率航空影像的分类结果进行实验,并将该算法与Zhang和Couloigner提出的算法进行了对比分析。结果显示,该算法的提取质量为80.6%和79.0%,且计算效率较高,处理实际影像的用时小于参考算法的20%,此外在稳定性及对不同路宽的适应性等多个方面均具有优势。 提出一种邻域质心投票算法,该算法能够同时实现传统方法中提纯与中心线提取两个步骤所对应的功能,从分类影像直接提取道路中心线。实验结果表明,该算法能够根据形状特征有效检测道路,且具备一定抗干扰能力,适用于对混杂了非道路区域的高分辨率影像的分类结果进行处理。  
      关键词:道路提取;中心线提取;邻域质心投票;形状特征;连通距离   
      3586
      |
      322
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56114670 false
      更新时间:2024-05-07
    • 单形体体积最小化的差分进化光谱解混算法

      覃事银, 罗文斐, 杨斌, 张锐豪
      2015, 20(11): 1535-1544. DOI: 10.11834/jig.20151113
      摘要:光谱解混是高光谱遥感图像处理的核心技术。当图像不满足纯像元假设条件时,传统算法难以适用,基于(单形体)体积最小化方法提供了一种有效的解决途径。然而这是一个复杂的约束最优化问题,更由于图像噪声等不确定性因素的存在,导致算法容易陷入局部解。 引入一种群智能优化技术-差分进化算法(DE),借助其较强的全局搜索能力以及优越的处理高维度问题的能力,并通过对问题编码,提出了一种体积最小化的差分进化(VolMin-DE)光谱解混算法。 模拟数据和真实数据实验的结果表明,与现有算法相比,该算法在15端元时精度(光谱角距离)可提高7.8%,当端元数目少于15个时,其精度普遍可以提高15%以上,特别是10端元时精度可以提高41.3%;在20~50 dB的噪声范围内,精度变化在1.9~3.2(单位:角度)之间,传统算法在2.2~3.5之间,表明该算法具有相对较好的噪声鲁棒性。 本文算法适用于具有纯像元以及不存在纯像元(建议最大纯度不低于0.8)这两种情况的高光谱遥感图像,并可在原始光谱维度进行光谱解混,从而避免降维所带来的累计误差,因此具有更好的适应范围和应用前景。  
      关键词:高光谱遥感;光谱解混;端元;非负矩阵分解;差分进化   
      3584
      |
      244
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56114766 false
      更新时间:2024-05-07

      地理信息技术

    • 突破环境限制的导盲方法

      张探, 陈超
      2015, 20(11): 1545-1551. DOI: 10.11834/jig.20151114
      摘要:目前的导盲机器人大都局限于特定的环境,难以适应环境变换,为使导盲机器人突破空间限制,在多种不同的环境中引导盲人,提出一种基于环境地图创建的导盲方法。 首先,根据同步定位与制图算法(SLAM)创建2维环境地图并同步定位;然后,采用A启发式算法在已知地图中进行静态全局路径规划,再结合人工势场法在导盲机器人行走过程中进行动态避障;最后,在机器人操作系统(ROS)框架下构建导盲机器人软件控制系统,各功能节点按照特定规则相互通讯,使控制系统更加有序高效。 在3种典型的环境下进行实验,结果表明,与其他导盲方法相比,本文方法不再拘泥于单一的空间或特定的环境,适用范围更广也更灵活;此外,导盲精度也更高,地图创建过程中,特征总数达30个时,特征估计误差仅为5~35 cm,行走多达12000步时,自身位置估计误差仅为0~3 m,在路径规划过程中,导盲机器人路径长达100 m时的轨迹误差仅在0.4 m以下;相较而言,此方法更能满足日常导盲需要。 本文提出的适用于多种环境的导盲方法,实验结果表明,该方法在多种环境中所创建的地图与实际场景相符,导盲机器人行走轨迹与规划路径基本一致,导盲精度相对较高,并且普遍地适用于视力障碍者日常活动的室内外区域,还能灵活地适应环境的变换,更具实用价值。  
      关键词:导盲机器人;多种环境;地图创建;路径规划   
      2496
      |
      539
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56115653 false
      更新时间:2024-05-07
    • MPI和OpenMP混合并行模型下的遥感编目信息检索

      曲海成, 梁雪剑, 刘万军, 籍瑞庆
      2015, 20(11): 1552-1560. DOI: 10.11834/jig.20151115
      摘要:空间位置检索是遥感影像检索中的关键步骤,为进一步提高海量遥感影像编目数据定位检索效率,降低误检率,提出一种基于MPI和OpenMP混合编程模型对射线法进行多层次并行化实现。 首先完善传统射线法处理点在多边形边上以及射线与边的端点相交的情况;其次采用MPI实现基于程序层面多机并行,OpenMP实现算法层面单机多线程并行,通过开启多个线程同时处理多边形的各个点,判断它们是否在另一个多边形的内部。 当系统中所有节点开启线程数之和等于主节点的最佳线程数时,全局计算速度达到最佳。混合并行算法相比串行算法检索时间减少50%以上,效率更高。 MPI+OpenMP混合并行比普通的串行执行、单纯MPI并行或单纯OpenMP并行执行空间定位检索算法效率显著提高,这种并行方案普遍适用于集群环境下的并行程序,并且可以进一步拓展到其他图像处理算法领域。  
      关键词:遥感;定位检索;射线法;混合并行;最佳线程数   
      3053
      |
      316
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56115592 false
      更新时间:2024-05-07
    0