最新刊期

    2015 20 2

      图像处理和编码

    • 引入神经网络中间神经元的快速小波图像压缩

      张海涛, 张永霖
      2015, 20(2): 159-168. DOI: 10.11834/jig.20150201
      摘要:针对自组织特征映射(SOFM)算法会出现严重的分块现象和快速小波变换在高压缩比的情况下图像恢复质量差的问题,提出引入神经网络中间神经元(relay neurons)的RSOFM-C矢量量化算法. 引入了中间神经元的概念,使用中间神经元有效解决了码字利用不均匀的问题,并在神经网络中间层给出了欧氏距离不等式判据,排除不满足失真测度的神经元,减少重复计算,加快学习速度.根据差分脉冲编码调制(DPCM)中的差值信号编码原理将RSOFM-C算法与快速小波变换结合,使用RSOFM-C算法对由快速小波变换得到的图像低频信号进一步压缩. 在仿真实验中,将本文算法与同类压缩方法进行对比,当压缩比为52%时,本文算法的峰值信噪比(PSNR)达到了39.28 dB,远远高于其他方法.结果表明,本文的压缩算法消除了分块现象,并且在保证高压缩比的同时获得高质量的重构图像. 实验结果表明,本文提出的引入了中间神经元的快速小波压缩方法,具有高压缩比、高保真、速度快等优点,可以高效地压缩图像.  
      关键词:图像压缩;中间神经元;快速小波变换;神经网络;自组织特征映射   
      3163
      |
      267
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118787 false
      更新时间:2024-05-07
    • 拟正态分布扩散的图像平滑

      周先春, 汪美玲, 周林锋
      2015, 20(2): 169-176. DOI: 10.11834/jig.20150202
      摘要:在传统的去噪模型中,若仅考虑去噪与边缘保护这两个方面,会导致纹理等细节信息丢失,为解决传统模型这方面的缺陷,提出了一种基于拟正态分布的图像去噪模型. 提出的模型是以经典的各向异性扩散模型为基础,首先分析了扩散系数在扩散过程中的作用,引入通量函数,做归一化处理,建立新的扩散系数,构造新的扩散模型;然后考虑新模型在去噪过程中,既要有效去噪,又要保护图像的边缘、纹理等细节信息,将扩散系数构造成拟正态分布函数. 实验结果表明,在同一实验条件下,新模型的峰值信噪比与经典模型相比提高了28 dB左右,均方差大幅度降低,图像的边缘更加清晰,对比度得到显著增强. 提出的新模型能够较稳定地控制扩散过程,使图像在去噪和保边缘、纹理等细节信息方面都达到令人满意的效果,峰值信噪比有了大幅提高,其去噪性能较经典模型更具优越性.  
      关键词:拟正态分布;通量函数;扩散系数;图像平滑   
      3143
      |
      275
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120402 false
      更新时间:2024-05-07
    • 可选特征的快速分形图像编码

      袁宗文, 鲁业频, 杨汉生
      2015, 20(2): 177-182. DOI: 10.11834/jig.20150203
      摘要:基本分形图像编码非常耗时,基于子块特征的方法在加快编码速度方面非常有效,提出了一个新的子块特征函数,加快编码速度,改善编码性能. 首先证明了一个定理,它统一了多个文献提出的理论方法,可以对子块任意定义特征.定理阐述了特征轨迹的长度、分布与编码性能的关系,比较了多个文献算法的优劣,并在定理的基础上定义了一个新的特征. 实验结果表明,提出的算法在编码性能上较主对角和算法和叉迹算法有一定程度的提高,在PSNR相同情况下该算法具有较短的编码时间,在编码时间相同情况下该算法具有较高的PSNR;在相同的搜索半径内,该算法可找到更多的最佳匹配块;基于子块特征的近邻只是匹配误差极小的必要而非充分条件,当搜索10%的码本容量时,该算法只有约25%的R块找到了其最佳匹配块,当搜索到一半码本容量时,这样的R块数量达到了约80%. 提出的新子块特征算法较主对角和算法和叉迹算法改善了编码性能,提高了图像质量.  
      关键词:分形图像编码;子块特征;搜索半径;编码性能;k-邻域   
      2941
      |
      358
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118629 false
      更新时间:2024-05-07

      图像分析和识别

    • 融合多尺度码本的全局编码图像分类

      董振宇, 赵杰煜, 祝军
      2015, 20(2): 183-192. DOI: 10.11834/jig.20150204
      摘要:词袋模型在图像分类领域中的分类效果主要受限于局部特征的量化误差.针对这一点,提出一种融合多尺度码本的全局编码图像分类方法,有效减少特征量化误差. 通过使用多尺度特征密集采样,构建多尺度码本,使码本具备一种层次结构,通过充分利用图像特征的流形结构,计算码本全局信息,实现全局编码.通过本文方法得到的编码系数比较平滑和准确.最后使用多路径方法,分别将不同尺度的特征表示进行级联,得到最终的图像特征表示.这种特征表示具备了一定程度上的尺度不变性. 在UIUC-8和Caltech-101两个常用的标准图像数据集上进行测试,分类准确率分别达到88.0%和83.2%. 实验结果表明,相比于基于固定尺度码本的局部编码方法,本文方法在分类识别率方面有了显著提升.  
      关键词:图像分类;特征编码;多尺度码本;全局编码   
      3588
      |
      306
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56119000 false
      更新时间:2024-05-07

      计算机图形学

    • 结合K-D树和Shell的快速动态等值面光线跟踪法

      罗月童, 石放放, 张伟, 朱会国
      2015, 20(2): 193-201. DOI: 10.11834/jig.20150205
      摘要:K-D树和Shell常被用于加速等值面光线跟踪法.如果Isovalue保持不变时,Shell方法效率更高,否则Shell方法需要重构Shell,而K-D树方法速度更快.提出一种结合K-D树和Shell的动态等值面光线跟踪方法,其关键是如何实现两者的平稳切换. 首先改进基于K-D树的等值面光线跟踪算法,使得该方法在绘制过程中渐进地构建Shell数据结构.在Isovalue发生变化后,首先使用改进的基于K-D树的等值面光线跟踪算法进行绘制,并在绘制过程中渐进地构建新的Shell数据结构,从而平滑地过渡到绘制效率更高的基于Shell的等值面光线跟踪算法. 实验中,在Isovalue动态变化时本文方法的效率接近K-D树方法;但用户在进行缩放、旋转等操作时,本文方法能达到Shell方法的速度.实验结果表明本文方法结合了两者的优点. 提出了一种快速Isovalue光线跟踪算法,综合运用K-D树和Shell两种数据结构,在Isovalue保持不变和动态变化两者场合都实现了较高的绘制速度.  
      关键词:体数据可视化;等值面;光线跟踪;K-D树;Shell数据结构   
      3151
      |
      256
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120276 false
      更新时间:2024-05-07
    • 多尺度活动网格在云场景仿真中的应用

      范晓磊, 张立民, 张建廷, 徐涛
      2015, 20(2): 202-210. DOI: 10.11834/jig.20150206
      摘要:已有的基于网格的流体仿真方法存在效率低的问题,不利于物体参与交互,提出一种多尺度活动网格方法用于云场景的仿真以及云与物体的交互仿真. 自动选择全局与局部网格的分辨率,对参与交互的物体建立OBB(oriented bounding box)层次包围盒以提高仿真效率.针对云的粘性系数非常小的特点,简化了它们的运动方程与热动力学方程.基于提出的方法对偏微分方程进行了离散化,在方程离散化处理过程中,采用迎风差分方法以保证仿真过程的稳定性.实现过程中,运用GPU的计算性能提高仿真速度. 通过云场景的仿真进行了实验,结果表明,可以较为真实地绘制不同时间段的云场景,能满足大规模云场景的仿真需求,实现了云场景以及云与刚性物体交互的实时绘制. 相比已有基于网格的方法,本文方法可以容易地在GPU上实现,且提高了仿真效率与绘制图像的真实感.  
      关键词:实时绘制;多尺度活动网格;云场景仿真;方程简化;迎风差分   
      3360
      |
      242
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118676 false
      更新时间:2024-05-07

      第十届和谐人机环境联合会议栏目

    • 低资源语言的无监督语音关键词检测技术综述

      杨鹏, 谢磊, 张艳宁
      2015, 20(2): 211-218. DOI: 10.11834/jig.20150207
      摘要:低资源(low-resource)语言的无监督的关键词检测技术近年来引起了广泛的研究兴趣.低资源语言由于缺乏足够的标注数据及相关的专家知识,使得传统的基于大词汇量语音识别系统的关键词检测技术无法使用.近年来,研究者试图寻找一种无监督的技术来完成针对低资源语言的语音关键词检测. 首先阐述了该技术目前面临的问题与挑战,然后介绍了该技术使用的主流的基于动态时间规整的算法框架,并从特征表示、模板匹配方法、效率提升等几个重要方面介绍了近几年来主要的研究成果,最后介绍了该任务常用的系统评价标准及目前所能达到的水平,讨论了未来可能的研究方向. 该任务的研究目前取得了很多成果,但仍处于实验室阶段,多系统融合策略导致系统庞大,而且目前还没有好的进行索引的方法,导致检测时间过长,对于低资源语音的关键词检测技术,还有很多研究工作要做. 期望通过对目前低资源语言的无监督的关键词检测技术做出一个全面的综述,从而给研究者的工作带来便利.  
      关键词:语音关键词检测;低资源;动态时间规整   
      5543
      |
      627
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118594 false
      更新时间:2024-05-07
    • 快速离散Curvelet变换域的图像融合

      杨勇, 童松, 黄淑英
      2015, 20(2): 219-228. DOI: 10.11834/jig.20150208
      摘要:单一图像往往难以捕获一个场景下所有的细节信息,针对这一问题,可以通过多传感器或同一传感器的不同方式来获取多幅图像,然后通过图像融合技术将获得的多幅图像进行融合.为了提高图像融合的质量,提出一种基于快速离散Curvelet变换(FDCT)的图像融合新方法. 不同于以往的方法,提出一组新的融合规则.分别采用基于局部能量和改进拉普拉斯能量和的方法,通过对FDCT分解得到的低频和高频系数进行系数选择,然后对得到的融合系数进行FDCT逆变换重构得到融合图像. 通过对大量的多模态医学图像、红外可见光图像以及多聚焦图像进行图像融合实验,无论是运用视觉的主观评价,还是均值、标准差、信息熵以及边缘信息保持度等客观评价标准,本文方法都优于传统的基于像素平均、小波变换、FDCT以及双边梯度等融合方法. 对比现有的方法,本文方法对多模态和多聚焦等形式的图像融合都表现出优越的融合性能.  
      关键词:图像融合;快速离散Curvelet变换;局部能量;改进拉普拉斯能量和   
      4735
      |
      303
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120240 false
      更新时间:2024-05-07
    • 高效视频编码中变换跳过模式的快速选择

      王宁, 张永飞, 樊锐
      2015, 20(2): 229-236. DOI: 10.11834/jig.20150209
      摘要:新一代高效视频编码(HEVC)标准采用了灵活的块结构和大量新颖的编码工具,有效提高了视频编码效率.变换跳过模式作为一种新增加的模式,可以有效地提高编码效率,但是也显著地增加了编码的复杂度,增加了实时编码应用的难度.因此提出一种针对变换跳过模式的提前剪枝算法. 通过分析不同率失真代价下是否选择变换跳过模式的残差块的分布情况,最终选取率失真代价的平方根作为阈值,并建立了量化参数与阈值之间的模型.之后可以根据量化参数提前计算得到阈值大小,减少变换跳过模式的编码次数,从而降低变换跳过模式的复杂度. 由于最终只需要对少量的块进行变换跳过模式编码,并且使用模型得到经验阈值并不会额外增加复杂度,因此能减少编码器的计算复杂度.实验结果表明,与标准编码器相比,该算法对于不同场景的标准测试序列平均峰值性噪比和平均比特率变化都非常小,平均减少了70%的变换跳过模式编码的次数. 该变换跳过模式的剪枝算法,选取率失真代价的平方根作为阈值,根据本文模型获取不同量化参数下的经验阈值,对是否需要进行变换跳过模式提前判断.实验结果表明,该算法能在保证视频编码质量的前提下有效地降低由于加入变换跳过模式增加的编码复杂度.  
      关键词:高效视频编码(HEVC);视频编码;变换跳过;率失真代价   
      5686
      |
      234
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118928 false
      更新时间:2024-05-07
    • 主动学习的多标签图像在线分类

      徐美香, 孙福明, 李豪杰
      2015, 20(2): 237-244. DOI: 10.11834/jig.20150210
      摘要:在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵.针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法. 基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器. 在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估.实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数. 本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的.  
      关键词:多标签分类;主动学习;在线学习;min-max理论   
      7178
      |
      309
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120467 false
      更新时间:2024-05-07
    • 自然环境视频中基于显著鲁棒轨迹的行为识别

      易云, 王瀚漓
      2015, 20(2): 245-253. DOI: 10.11834/jig.20150211
      摘要:人类行为识别是计算机视觉领域的一个重要研究课题.由于背景复杂、摄像机抖动等原因,在自然环境视频中识别人类行为存在困难.针对上述问题,提出一种基于显著鲁棒轨迹的人类行为识别算法. 该算法使用稠密光流技术在多尺度空间中跟踪显著特征点,并使用梯度直方图(HOG)、光流直方图(HOF)和运动边界直方图(MBH)特征描述显著轨迹.为了有效消除摄像机运动带来的影响,使用基于自适应背景分割的摄像机运动估计技术增强显著轨迹的鲁棒性.然后,对于每一类特征分别使用Fisher Vector模型将一个视频表示为一个Fisher向量,并使用线性支持向量机对视频进行分类. 在4个公开数据集上,显著轨迹算法比Dense轨迹算法的实验结果平均高1%.增加摄像机运动消除技术后,显著鲁棒轨迹算法比显著轨迹算法的实验结果平均高2%.在4个数据集(即Hollywood2、YouTube、Olympic Sports和UCF50)上,显著鲁棒轨迹算法的实验结果分别是65.8%、91.6%、93.6%和92.1%,比目前最好的实验结果分别高1.5%、2.6%、2.5%和0.9%. 实验结果表明,该算法能够有效地识别自然环境视频中的人类行为,并且具有较低的时间复杂度.  
      关键词:行为识别;显著轨迹;摄像机运动消除;Fisher vector   
      5587
      |
      487
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118509 false
      更新时间:2024-05-07
    • 特征变换和数据集分块的行人比对

      沈洋, 林巍峣, 殷惠清
      2015, 20(2): 254-263. DOI: 10.11834/jig.20150212
      摘要:随着监控摄像头的增多,基于多摄像头的智能分析显得很重要.基于此,提出一种新的基于特征变换和数据集分块的行人比对方法. 首先提出一种新的基于变换矩阵来消除特征差异的算法.这种算法能够在高维空间中,通过变换矩阵,让某特征向量逼近另一特征向量,从而消除了同一行人特征间的差异.与此同时,还提出一种新的将行人数据集中特征分块的算法,使每个分块中的行人特征具有相似的性质,从而能够共用某个变换矩阵,从而能更好地消除同一行人在不同镜头下的特征差异. 基于VIPeR数据集和复杂街道场景数据集设计了行人比对实验.实验结果表明,本文的比对方法具有较高的比对准确率,VIPeR数据集(50%训练,50%检测)的Rank1的比对准确率为22%.同时本文设计了特征变换和数据集分块这2个模块的对照实验.实验结果表明,特征变换和数据集分块模块对结果都有提升的效果. 本文新的行人比对方法通过恰当的特征变换让同一行人在多镜头下的特征互相接近.实验结果表明该方法能够较好地在多镜头下匹配行人.  
      关键词:行人比对;数据集分块;特征变换;聚类   
      4792
      |
      244
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56118570 false
      更新时间:2024-05-07
    • 移动手持环境下触摸式目标选择技术对比

      辛义忠, 李岩, 袁伟强, 郑谦
      2015, 20(2): 264-270. DOI: 10.11834/jig.20150213
      摘要:触摸输入方式存在"肥手指"、目标遮挡和肢体疲劳现象,会降低触摸输入的精确度.本文旨在探索在移动式触摸设备上,利用设备固有特性来解决小目标选择困难与触摸输入精确度低的具体策略,并对具体的策略进行对比. 结合手机等移动式触摸设备所支持的倾斜和运动加速度识别功能,针对手机和平板电脑等移动式触摸输入设备,实证地考察了直接触摸法、平移放大法、倾斜法和吸引法等4种不同的目标选择技术的性能、特点和适用场景. 通过目标选择实验对4种技术进行了对比,直接触摸法、平移放大法、倾斜法、吸引法的平均目标选择时间,错误率和主观评价分别为(86.06 ms,62.28%,1.95), (1 327.99 ms,6.93%,3.87), (1 666.11 ms,7.63%,3.46)和(1 260.34 ms, 6.38%, 3.74). 3种改进的目标选择技术呈现出了比直接触摸法更优秀的目标选择能力.  
      关键词:人机交互;触摸输入;交互技术;目标选择;移动手持触摸设备   
      4022
      |
      234
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120349 false
      更新时间:2024-05-07
    • 虚拟环境的用户意图捕获

      程成, 赵东坡, 卢保安
      2015, 20(2): 271-279. DOI: 10.11834/jig.20150214
      摘要:虚拟制造环境中需要复杂精确的3D人机交互.目前的虚拟环境(VE)的主要问题是人在交互过程中的认知和操作负荷太重,交互效率亟需提高.解决此问题的重要途径是提高机器的认知能力. 本文研究了用户意图的分析和抽取,并建立多通道用户意图理解的算法,以此来提高交互效率. 结合虚拟装配应用给出了典型意图的实验结果并给予分析.通过实验对多通道意图的可用性和可靠性,以及基于意图系统的实时性进行了评估.实验是虚拟装配空间中用户拾取对象意图的实验.当3维鼠标和对象距离为5 000 mm时,传统系统中操作平均耗时5.344 7 s,而基于意图的系统中平均耗时2.326 6 s.基于意图的系统极大地降低了操作的时间和复杂度. 采用意图驱动的系统情景转换能在虚拟环境工作中有效地降低人的认知负荷,并能很好地帮助系统开发者进行混成系统的建模和分析,降低开发的复杂度.实践结果表明用户意图理解的多通道模型和算法能极大地提高交互式系统的交互自然性和交互效率.该方法不仅适用于本文所用的虚拟装配系统,对于所有的虚拟环境应用场景都有同样的有效性.  
      关键词:意图;人机交互;虚拟环境;眼动跟踪;多通道   
      4452
      |
      233
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120501 false
      更新时间:2024-05-07
    • 虚拟手抓持力觉生成算法真实性的评价

      杨文珍, 许艳, 颜传武, 吴新丽, 张昊, 孟闯
      2015, 20(2): 280-287. DOI: 10.11834/jig.20150215
      摘要:虽然许多学者研发了多种虚拟手交互触力觉生成算法,但是如何评价虚拟手交互触力觉生成算法的真实性是一个富有挑战性的新问题,值得深入研究. 构建手指抓持力测量平台,设计3种抓持姿态下指尖静力抓持球体实验内容,测得各指尖作用力的实测值;通过虚拟手静力抓持力觉生成算法,求得这3种抓持姿态下各手指作用力的理论值;对实测值进行统计和分析,并与理论值进行对比和讨论; 日常抓持经验和实测值是完全相符的,实测值和理论值很接近且偏差均在可接受范围之内.单个手指作用力或多个手指合力的实测值与理论值的偏差均在1%6%. 本文实现了一种基于物理的实验方法,评价和分析了虚拟手静力抓持力觉生成算法的真实性,证实此算法可以逼真地生成虚拟手抓持力,可应用于具有力反馈的自然的虚拟手交互.  
      关键词:虚拟手;力觉算法;真实性;人机交互;虚拟现实   
      5049
      |
      222
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120557 false
      更新时间:2024-05-07
    • 交互式乐器演奏的六自由度力觉渲染方法

      童号, 史有姣, 王党校, 张玉茹
      2015, 20(2): 288-295. DOI: 10.11834/jig.20150216
      摘要:在进行虚拟乐器交互演奏时,需要模拟触力觉-视觉-听觉多通道同步反馈,其中触力觉反馈的难点在于模拟人手操作乐器的六自由度(6-DoF)力觉交互过程. 提出一种基于混合模型和单边约束优化的六自由度力觉合成方法,实现了虚拟人手和琴弦的多点多区域接触力觉模拟.虚拟人手采用层次化球树模型表达,古琴采用混合模型表达,其中琴体和琴弦分别采用层次化球树模型和直线解析模型.提出了基于混合模型的离散碰撞检测算法,实时检测虚拟手和琴弦是否产生碰撞;基于发生碰撞的几何元素对建立单边不可穿透约束方程,通过Active Set方法求解约束优化后方程,获得6维位姿变量保证图形显示场景中的虚拟手不会和琴弦产生穿透.为模拟琴弦变形,提出变直径的圆柱体模型来模拟琴弦在不同振动幅度下的动力学响应;提出交互状态敏感的力计算模型以刻画人手在弹奏不同状态琴弦(静态、振动态)的力觉感受差异. 基于力觉交互设备Phantom Premium 3.0建立了实验平台,实验结果表明,本文算法可以模拟单点、多点等不同接触状态,并能模拟6维力和力矩,操作者可以感受到琴弦振动时的细腻力感觉,力觉交互过程稳定,算法计算效率在1 kHz以上. 算法可模拟针对琴弦一类的超薄形状物体的多点接触力觉交互过程, 算法计算效率高,包含碰撞检测、约束优化、琴弦变形仿真等计算回路的更新频率也能达到要求,该混合模型能为后续复杂形状物体的碰撞响应研究提供思路.  
      关键词:力觉合成;约束优化;混合模型;乐器演奏   
      4804
      |
      272
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 56120338 false
      更新时间:2024-05-07
    0