最新刊期

    2018 23 7

      综述

    • 绘画特征提取方法与情感分析研究综述

      贾春花, 郭小英, 白茹意
      2018, 23(7): 937-952. DOI: 10.11834/jig.170626
      绘画特征提取方法与情感分析研究综述
      摘要:目的图像分类与情感分析是当前计算机视觉领域的研究热点,为人类绘画图像数字化研究提供了有效方法,在人类绘画艺术作品保护与作品创新中具有重要的应用价值。为更好地实现绘画作品的研究与创新,本文主要针对现阶段国内外的绘画分类与情感分析相关文献,进行详细地整理与分析。方法本文以广泛的文献研究为基础,分析中西方绘画的不同表征方式及形成原因,归纳总结支持向量机、决策树、人工神经网络和深度学习等绘画图像分类中常用机器学习方法,并概述各类方法的优劣;重点围绕绘画图像特征提取与分类,绘画情感分析两个方面,对当前文献进行了系统地分析和总结。结果系统概括了当前绘画图像研究中常用绘画数据库;以绘画图像的笔触特征、颜色特征、形状特征和纹理特征、留白特征等方面为依据,详细综述了中西方绘画特征提取技术与分类方法的研究现状及发展;简要梳理了绘画图像分类模型中常用的评价方法,并分析了当前研究中的常用评价指标;主要从颜色特征的角度出发,阐述了西方绘画情感分析的研究进展,为中国传统绘画情感分析提供了有效的思路;最后,提出了当前绘画分类和绘画情感研究中存在的问题和挑战,并探讨了存在问题的应对之策。结论 绘画作为人类重要的文化成果,未来会涌现出更多的研究算法与探索思路,本文内容对绘画图像分类的进一步研究,特别是中国传统水墨画情感分析和绘画艺术创作方面的研究,可以起到一定的启发和指导作用。  
      关键词:中西方绘画;绘画数据库;特征提取;分类方法;评价方法;绘画情感;颜色与情感分析   
      15
      |
      19
      |
      5
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678487 false
      更新时间:2024-05-07

      图像处理和编码

    • 多模式3维视频形状编码

      朱仲杰, 王玉儿, 蒋刚毅
      2018, 23(7): 953-960. DOI: 10.11834/jig.170533
      多模式3维视频形状编码
      摘要:目的具有立体感和高端真实感的3D视频正越来越受到学术界和产业界的关注和重视, 未来在3D影视、机器视觉、远程医疗、军事航天等领域将有着广泛的应用前景。对象基3D视频是未来3D视频技术的重要发展趋势, 其中高效形状编码是对象基3D视频应用中的关键问题。但现有形状编码方法主要针对图像和视频对象, 面向3D视频的形状编码算法还很少。为此, 基于对象基3D视频的应用需求, 提出一种基于轮廓和链码表示的高效多模式3D视频形状编码方法。方法对于给定的3D视频形状序列逐帧进行对象轮廓提取并预处理后, 进行对象轮廓活动性分析, 将形状图像分成帧内模式编码图像和帧间预测模式编码图像。对于帧内编码图像, 基于轮廓内链码方向约束和线性特征进行高效编码。对于帧间编码图像, 采用基于链码表示的轮廓基运动补偿预测、视差补偿预测、联合运动与视差补偿预测等多种模式进行编码, 以充分利用视点内对象轮廓的帧间时域相关性和视点间对象轮廓的空域相关性, 从而达到高效编码的目的。结果实验仿真结果显示所提算法性能优于经典和现有的最新同类方法, 压缩效率平均能提高9.3%到64.8%不等。结论 提出的多模式3D视频形状编码方法可以有效去除对象轮廓的帧间和视点间冗余, 能够进行高效编码压缩, 性能优于现有同类方法, 可广泛应用于对象基编码、对象基检索、对象基内容分析与理解等。  
      关键词:3D视频;形状编码;多模式编码;预测编码;链码   
      12
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678485 false
      更新时间:2024-05-07
    • 面向图像集分类的切空间稀疏表示算法

      陈凯旋, 吴小俊
      2018, 23(7): 961-972. DOI: 10.11834/jig.170572
      面向图像集分类的切空间稀疏表示算法
      摘要:目的在基于图像集的分类任务中, 用SPD (symmetric positive definite)矩阵描述图像集, 并考虑所得到的黎曼流形, 已被证明对许多分类任务有较好的效果。但是, 已有的经典分类算法大多应用于欧氏空间, 无法直接应用于黎曼空间。为了将欧氏空间的分类方法应用于解决图像集的分类, 综合考虑SPD流形的LEM (Log-Euclidean metric)度量和欧氏空间分类算法的特性, 实现基于图像集的分类任务。方法通过矩阵的对数映射将SPD流形上的样本点映射到切空间中, 切空间中的样本点与图像集是一一对应的关系, 此时, 再将切空间中的样本点作为欧氏空间中稀疏表示分类算法的输入以实现图像集的分类任务。但是切空间样本的形式为对称矩阵, 且维度较大, 包含一定冗余信息, 为了提高算法的性能和运行效率, 使用NYSTRÖM METHOD和(2D)2PCA (two-directional two-dimensional PCA)两种方法来获得包含图像集的主要信息且维度更低的数据表示形式。结果在实验中, 对人脸、物体和病毒细胞3种不同的对象进行分类, 并且与一些用于图像集分类的经典算法进行对比。实现结果表明, 本文算法不仅具有较高的识别率, 而且标准差也相对较小。在人脸数据集上, 本文算法的识别率可以达到78.26%, 比其他算法高出10%左右, 同时, 具有最小的标准差2.71。在病毒数细胞据集上, 本文算法的识别率可以达到58.67%, 在所有的方法中识别率最高。在物体识别的任务中, 本文算法的识别率可以达到96.25%, 标准差为2.12。结论 实验结果表明, 与一些经典的基于图像集的分类算法对比, 本文算法的识别率有较大的提高且具有较小的标准差, 对多种数据集有较强的泛化能力, 这充分说明了本文算法可以广泛应用于解决基于图像集的分类任务。但是, 本文是通过(2D)2PCA和NYSTRÖM METHOD对切空间中样本进行降维来获得更低维度的样本, 以提高算法的运行速度和性能。如何直接构建维度更低, 且具有判别性的SPD流形将是下一步的研究重点。  
      关键词:SPD流形;图像集分类;NYSTRÖM METHOD;双相2维主成分分析((2D)2PCA);稀疏表示   
      18
      |
      55
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678488 false
      更新时间:2024-05-07
    • 具有直线结构保护的网格化图像拼接

      何川, 周军
      2018, 23(7): 973-983. DOI: 10.11834/jig.170653
      具有直线结构保护的网格化图像拼接
      摘要:目的基于网格变形的图像配准方式, 针对待拼接图片重叠区域的视差具有一定的容忍性, 并且能够适应更复杂的图像拼接场景。在NISwGSP (natural image stitching with the global similarity prior)算法基础上提出了一种具有直线结构保护的图像拼接算法(MISwLP), 该算法通过提取图片中的直线结构并施加约束, 可以得到视觉效果自然、畸变较小的图像拼接结果。方法首先对图片进行网格划分, 建立网格优化模型, 针对网格顶点坐标集定义能量函数, 在保证图片重叠区域高度对齐的同时, 对网格进行相似性连续约束, 并辅以直线结构约束, 最后使用共轭梯度最小二乘法求解得到最优网格顶点集, 指导网格变形。结果针对不同场景下的图片进行拼接实验, 同时和几种比较流行的图像拼接软件和算法进行比较。结果表明, 同经典拼接算法, 比如Autostitch相比, 基于网格优化的图像拼接算法能够适应更加复杂的多平面场景, 在减小投影失真和对齐误差方面表现更好; 同现在比较好的几种网格拼接算法, 比如SPHP (shape-preserving half-projective warps for image stitching)、APAP (as-projective-as-possible image stitching with moving DLT)、NISwGSP等的比较, MISwLP算法不仅能够很好地对齐图像和避免投影失真, 并且能够保持图像重叠区域到非重叠区域的一致性, 即保护原图中的直线结构。结论提出了一种基于网格优化的直线约束方法, 对于具有显著几何结构的图像拼接场景, 能够较好地保护拼接后图像中原有的直线结构, 具有较好的应用价值。  
      关键词:图像拼接;网格变形;直线保护;能量函数;最优化;共轭梯度最小二乘法;投影失真   
      45
      |
      143
      |
      10
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678477 false
      更新时间:2024-05-07
    • 基于中间层监督卷积神经网络的图像超分辨率重建

      李现国, 孙叶美, 杨彦利, 苗长云
      2018, 23(7): 984-993. DOI: 10.11834/jig.170538
      基于中间层监督卷积神经网络的图像超分辨率重建
      摘要:目的基于学习的图像超分辨率重建方法已成为近年来图像超分辨率重建研究的热点。针对基于卷积神经网络的图像超分辨率重建(SRCNN)方法网络层少、感受野小、泛化能力差等缺陷,提出了基于中间层监督卷积神经网络的图像超分辨率重建方法,以进一步提高图像重建的质量。方法设计了具有中间层监督的卷积神经网络结构,该网络共有16层卷积层,其中第7层为中间监督层;定义了监督层误差函数和重建误差函数,用于改善深层卷积神经网络梯度消失现象。训练网络时包括图像预处理、特征提取和图像重建3个步骤,采用不同尺度因子(2、3、4)模糊的低分辨率图像交叉训练网络,以适应对不同模糊程度的图像重建;使用卷积操作提取图像特征时将参数$pad$设置为1,提高了对图像和特征图的边缘信息利用;利用残差学习完成高分辨率图像重建。结果在Set5和Set14数据集上进行了实验,并和双三次插值、A+、SelfEx和SRCNN等方法的结果进行比较。在主观视觉评价方面,本文方法重建图像的清晰度和边缘锐度更好。客观评价方面,本文方法的峰值信噪比(PSNR)平均分别提高了2.26 dB、0.28 dB、0.28 dB和0.15 dB,使用训练好的网络模型重建图像耗用的时间不及SRCNN方法的一半。结论实验结果表明,本文方法获得了更好的主观视觉评价和客观量化评价,提升了图像超分辨率重建质量,泛化能力好,而且图像重建过程耗时更短,可用于自然场景图像的超分辨率重建。  
      关键词:图像超分辨率重建;深度学习;中间层监督;卷积神经网络;梯度消失;残差学习   
      11
      |
      4
      |
      7
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678480 false
      更新时间:2024-05-07
    • 混合特性正则化约束的运动模糊盲复原

      李喆, 李建增, 张岩, 王哲
      2018, 23(7): 994-1004. DOI: 10.11834/jig.170599
      混合特性正则化约束的运动模糊盲复原
      摘要:目的为了提高运动模糊图像盲复原清晰度,提出一种混合特性正则化约束的运动模糊盲复原算法。方法首先利用基于局部加权全变差的结构提取算法提取显著边缘,降低了噪声对边缘提取的影响。然后改进模糊核模型的平滑与保真正则项,在保证精确估计的同时,增强了模糊核的抗噪性能。最后改进梯度拟合策略,并加入保边正则项,使图像梯度更加符合重尾分布特性,且保证了边缘细节。结果本文通过两组实验验证改进模型与所提算法的优越性。实验1以模拟运动模糊图像作为实验对象,通过对比分析5种组合步骤算法的复原效果,验证了本文改进模糊核模型与改进复原图像模型的鲁棒性较强。实验结果表明,本文改进模型复原图像的边缘细节更加清晰自然,评价指标明显提升。实验2以小型无人机真实运动模糊图像为实验对象,通过与传统算法进行对比,对比分析了所提算法的鲁棒性与实用性。实验结果表明,本文算法复原图像的标准差提升约11.4%,平均梯度提升约30.1%,信息熵提升约2.2%,且具有较好的主观视觉效果。结论针对运动模糊图像盲复原,通过理论分析和实验验证,说明了本文改进模型的优越性,所提算法的复原效果较好。  
      关键词:图像盲复原;运动模糊;混合特征;正则化约束;边缘检测;模糊核   
      12
      |
      5
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678673 false
      更新时间:2024-05-07
    • 加权核范数降噪算法在扩散加权图像中的应用

      易三莉, 李思洁, 贺建峰, 张桂芳
      2018, 23(7): 1005-1013. DOI: 10.11834/jig.170575
      加权核范数降噪算法在扩散加权图像中的应用
      摘要:目的扩散加权成像技术是一种能够检测活体组织内水分子扩散运动的无创方法,其对数据的准确度要求较高且对噪声较为敏感。扩散加权图像的自相似性程度高,纹理细节较多且纹理和结构具有重复出现的特性。而获取图像的过程中受到不可避免的噪声干扰会破坏图像的数据准确度,因此对扩散加权图像进行降噪是十分必要的。方法根据扩散加权图像的特点,提出将加权核范数降噪算法应用于扩散加权图像的降噪。加权核范数降噪算法由于能够利用图像的自相似性,通过对图像中的相似块进行处理从而实现对图像的降噪,该算法能够保存图像中大量的纹理细节信息。结果通过模拟数据实验和真实数据实验,将加权核范数降噪算法与传统的扩散加权图像降噪算法如各向异性算法进行比较,结果表明,加权核范数降噪算法相较于其他算法得到的峰值信噪比至少高出20 dB,结构相似性值也至少高出其他算法0.2~0.5,再将降噪后的图像进行神经纤维跟踪处理,得到的神经纤维平均长度较其他算法至少要长0.2~0.8且纤维更为平滑。结论加权核范数降噪算法不仅能够更好地减少扩散加权图像中的噪声,同时也能够最大限度地保存扩散加权图像的纹理细节,降噪效果理想,提高了数据的准确度及有效性。  
      关键词:扩散加权成像;加权核范数降噪算法;图像降噪;峰值信噪比;神经纤维跟踪;自相似性   
      18
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678675 false
      更新时间:2024-05-07
    • 指纹图像多尺度分类字典稀疏增强

      徐德琴, 卞维新, 丁新涛, 丁玉祥
      2018, 23(7): 1014-1023. DOI: 10.11834/jig.170632
      指纹图像多尺度分类字典稀疏增强
      摘要:目的自动指纹识别系统大多是基于细节点匹配的,系统性能依赖于输入指纹质量。输入指纹质量差是目前自动指纹识别系统面临的主要问题。为了提高系统性能,实现对低质量指纹的增强,提出了一种基于多尺度分类字典稀疏表示的指纹增强方法。方法首先,构建高质量指纹训练样本集,基于高质量训练样本学习得到多尺度分类字典;其次,使用线性对比度拉伸方法对指纹图像进行预增强,得到预增强指纹;然后,在空域对预增强指纹进行分块,基于块内点方向一致性对块质量进行评价和分级;最后,在频域构建基于分类字典稀疏表示的指纹块频谱增强模型,基于块质量分级机制和复合窗口策略,结合频谱扩散,基于多尺度分类字典对块频谱进行增强。结果在指纹数据库FVC2004上将提出算法与两种传统指纹增强算法进行了对比实验。可视化和量化实验结果均表明,相比于传统指纹增强算法,提出的方法具有更好的鲁棒性,能有效改善低质量输入指纹质量。结论通过将指纹脊线模式先验引入分类字典学习,为拥有不同方向类别的指纹块分别学习一个更为可靠的字典,使得学习到的分类字典拥有更可靠的脊线模式信息。块质量分级机制和复合窗口策略不仅有助于频谱扩散,改善低质量块的频谱质量,而且使得多尺度分类字典能够成功应用,克服了增强准确性和抗噪性之间的矛盾,使得块增强结果更具稳定性和可靠性,显著提升了低质量指纹图像的增强质量。  
      关键词:指纹;块质量评价;多尺度分类字典;稀疏表示;频谱扩散   
      11
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678677 false
      更新时间:2024-05-07

      图像分析和识别

    • 增强成对旋转不变的共生扩展局部二值模式

      高攀, 刘光帅, 马子恒, 于亚风
      2018, 23(7): 1024-1032. DOI: 10.11834/jig.170417
      增强成对旋转不变的共生扩展局部二值模式
      摘要:目的针对成对旋转不变的共生局部二值模式(PRICoLBP)算法对图像光照、旋转变化鲁棒性较差,且存在特征维度过大的问题,提出了一种可融合多种局部纹理结构信息的有效特征——增强成对旋转不变的共生扩展局部二值模式。方法首先,对图像各像素点的邻域像素点灰度值进行二值量化得到二值编码序列,并不断旋转二值序列得到以不同邻域点作为编码起始点对应的LBP值;然后,分别利用极大、极小LBP值对应的邻域起始编码点和中心像素点确定两个方向矢量,并沿这两个方向矢量在两个不同尺度图像上选取上下文共生点;其次,利用扩展局部二值模式(ELBP)算法的旋转不变均匀描述子来提取上下文共生点对的中心像素灰度级、邻域像素灰度级及径向灰度差异特征间的相关性信息;最后,用上下文共生点对的特征直方图训练卡方核支持向量机,检测纹理图像类别。结果通过对Brodatz、Outex(TC10、TC12)、Outex(TC14)、CUReT、KTH-TIPS和UIUC纹理库的分类实验,改进算法的识别率比原始的PRICoLBP算法识别率分别提高了0.32%、0.57%、5.62%、3.34%、2.1%、4.75%。结论利用像素点LBP特征极值对应的起始编码序列来选取上下共生点对,并用ELBP算法提取共生点对局部纹理信息,故本文方法能更好描述共生点对间的高阶曲率信息及更多局部纹理信息。在具光照、旋转变化的Outex、CUReT、KTH-TIPS纹理库图像分类实验中,所提方法比原始PRICoLBP算法取得了更高的识别率。实验结果表明,改进算法相比于原始算法能在较低的特征维度下对图像光照、旋转变化具有较好的鲁棒性。  
      关键词:机器视觉;模式识别;局部二值模式;空间上下文;成对旋转不变;极值;鲁棒性   
      12
      |
      4
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678679 false
      更新时间:2024-05-07
    • 结构相似性的水下偏振图像复原

      范新南, 陈建跃, 张学武, 史朋飞, 张卓
      2018, 23(7): 1033-1041. DOI: 10.11834/jig.180009
      结构相似性的水下偏振图像复原
      摘要:目的针对水下偏振图像存在雾状模糊和场景细节不明显的问题,以水体透射率图与目标反射光图像存在的相互独立性为基础,提出一种基于结构相似性的水下偏振图像复原方法,旨在提高水下偏振图像的清晰度、对比度和色彩真实度。方法首先,获取同一水下场景下具有正交偏振方向且分别具有最大和最小光强的两幅偏振图像;然后根据透射率图与目标反射光之间的统计无关性,使用结构相似性推导求解透射率的关系式,并通过偏振差分图像计算透射率的初始值,利用该关系式进行水体透射率的迭代求解;最后将透射率代入偏振成像模型得到目标反射光图像,进而进行颜色校正得到复原图像。结果选取多组正交的水下偏振图像作为研究对象,采用本文提出的方法与另两种偏振复原算法对其进行复原处理,使用对比度、信息熵、灰度平均梯度、峰值信噪比、增强量以及时间等量化指标进行评估。对比实验结果表明,本文算法在对比度、信息熵、灰度平均梯度、增强量以及颜色恢复上都优于另两种偏振图像复原方法,并有较大幅度的提高;灰度平均梯度和对比度较YY算法提高了一倍左右;本文复原图像的色彩分布较均匀使得图像的信息含量大,信息熵高;而突出的EME也证明本文算法的结果纹理清晰、对比度高以及图像复原程度好;提出算法的复原效果有显著的改善,但算法运行时间较长,实时性有待提高。结论本文基于水下偏振成像模型的分析以及透射率图与目标反射光图像之间的统计无关性,从水体透射率的估计出发进行图像复原,有效地解决了水下偏振图像细节模糊、对比度低的问题。通过对算法实验效果的主客观分析表明,本文算法能有效地复原水下偏振图像,得到对比度高、细节明显和色彩丰富的恢复图像。  
      关键词:水下偏振成像;图像复原;结构相似性;透射率;图像处理   
      26
      |
      11
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678693 false
      更新时间:2024-05-07
    • 正立和倒立面孔的混合识别

      王强, 范影乐, 武薇, 朱亚萍
      2018, 23(7): 1042-1051. DOI: 10.11834/jig.170474
      正立和倒立面孔的混合识别
      摘要:目的改变正立和倒立面孔只是一种简单倒置关系的观点,研究基于视觉神经整体和局部信息流的正立和倒立面孔混合识别。方法模拟视觉信息流在视通路中的传递和处理过程,首先构建底层神经网络,建立敏感纹理特征以及对称卷积核的机制,实现正立和倒立面孔图像的去除冗余和预处理;接着提出一种基于局部区域提取的池化神经网络层的概念,构建多局部特征融合的网络结构,实现局部信息的压缩提取和融合;最后根据高级视觉皮层中左右半脑协作的特点,提出一种融合整体和局部信息的预测函数。结果以AT & T数据库为例,本文方法在经典卷积神经网络模型上增加了多局部特征融合的网络结构,识别准确率从98%提高到100%,表明局部信息能够提高对正立面孔识别的能力;同时采用合适的训练数据集,调节融合时整体与局部信息的关系比,结合使用合适模型训练方式,该模型对正立和倒立面孔的识别率分别为100%和93%,表明对正立和倒立面孔识别具有良好的特性。结论本文方法说明了整体和局部特征的两条视觉通路虽然分别在正立和倒立面孔识别上起了决定性的作用,但它们并不是孤立存在的,两条通路所刻画的面孔信息应该是一种互补式的关系。不仅为面孔识别提供一种新思路,而且将有助于对视觉神经机制的进一步理解。  
      关键词:面孔识别;倒立面孔;多局部特征融合;多视通路;视觉机制;卷积神经网络   
      11
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678817 false
      更新时间:2024-05-07
    • 两路互补对称CNN结构的行人再识别

      朱福庆, 孔祥维, 付海燕, 田奇
      2018, 23(7): 1052-1060. DOI: 10.11834/jig.170557
      两路互补对称CNN结构的行人再识别
      摘要:目的行人再识别的任务是研究如何在海量监控数据中准确地识别出某个特定场合中曾经出现过的人,已成为公共安全领域中一项新的且具有挑战性的研究课题。其挑战在于,行人在图像中有较大的姿态、视角、光照等变化,这些复杂的变化会严重影响行人再识别性能。近年来,以卷积神经网络(CNN)为代表的深度学习方法在计算机视觉领域取得了巨大的成功,也带动了行人再识别领域的相关研究。CNN有效地克服了行人变化,取得较高的准确率。然而,由于行人再识别数据集中行人标注量小,利用现有的一路CNN模型,其训练过程并不够充分,影响了深度学习模型的鉴别能力。为了解决上述问题,通过对网络结构进行改进,提出一种两路互补对称的CNN结构用于行人再识别任务。方法本文方法每次同时输入两路样本,其中每路样本之间具有互补特性,此时在有限的训练样本下,输入的组合会更加多样化,CNN模型的训练过程更加丰富。结果对本文提出的方法在两个公开的大规模数据集(Market-1501和DukeMTMC-reID)上进行实验评估,相比于基线方法有稳定的提升,相比于现存的其他一些方法,其结果也有竞争力。在Market-1501数据集上,1选识别正确率和平均精度均值分别达到了73.25%和48.44%。在DukeMTMC-reID数据集上,1选识别正确率和平均精度均值分别达到了63.02%和41.15%。结论本文提出的两路互补对称CNN结构的行人再识别方法,能够在现有的有限训练样本下,更加充分地训练CNN模型,学习得到鉴别能力更强的深度学习模型,从而有效地提升行人再识别的性能。  
      关键词:公共安全;监控;行人再识别;卷积神经网络;深度学习;两路结构;互补对称   
      13
      |
      4
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678822 false
      更新时间:2024-05-07
    • Faster R-CNN在工业CT图像缺陷检测中的应用

      常海涛, 苟军年, 李晓梅
      2018, 23(7): 1061-1071. DOI: 10.11834/jig.170577
      Faster R-CNN在工业CT图像缺陷检测中的应用
      摘要:目的传统的缺陷图像识别算法需要手工构建、选择目标的主要特征,并选取合适的分类器进行识别,局限性较大。为此研究了一种基于Faster R-CNN(faster Regions with convolutional neural networks features)的缺陷检测方法,该方法采用卷积网络自动提取目标的特征,避免了缺陷检测依赖手工设计缺陷特征的问题。方法该方法基于卷积神经网络。首先,确定缺陷检测任务:选择工业CT(computed tomography)图像中主要存在的3种类型的缺陷:夹渣、气泡、裂纹为检测目标;其次,人工对缺陷图像采用矩形框(GT box)进行标注,生成坐标文件,并依据矩形框的长宽比选定42种类型的锚窗(anchor);在训练之前采用同态滤波对数据集做增强处理,增强后的图片经过卷积层与池化层后获得卷积特征图,并送入区域建议网络RPN(region proposal networks)中进行初次的目标(不区分具体类别)和背景判断,同时粗略地回归目标边框;最后经过RoI(region of interest)pooling层后输出固定大小的建议框,利用分类网络对建议区域进行具体的类别判断,并精确回归目标的边框。结果待检测数据集的图片大小在150×150到350×250之间,每张图片含有若干个不同类别的气泡、夹渣和裂纹。利用训练出来的模型对缺陷图片进行检测,可以有效识别到不同类别的缺陷目标,其中可以检测到面积最小的缺陷区域为9×9 piexl,并快速、准确地标出气泡、夹渣和裂纹的位置,检测准确率高达96%,平均每张图片的检测时间为86 ms。结论所提出的Faster R-CNN工业CT图像缺陷检测方法,避免了传统缺陷检测需要手动选取目标特征的问题,缺陷的识别与定位过程的自动化程度更高;该方法检测效果良好,如果需要检测更多种类的缺陷,只需要对网络进行微调训练即可获得新的检测模型。本文为工业CT图像缺陷检测提供了一种更高效的方法。  
      关键词:深度学习;Faster R-CNN;卷积神经网络;缺陷检测;工业CT   
      93
      |
      305
      |
      18
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678837 false
      更新时间:2024-05-07

      计算机图形学

    • 图形图像融合的海量建筑绘制

      周杨, 胡校飞, 靳彩娇, 张龙, 陈安东
      2018, 23(7): 1072-1080. DOI: 10.11834/jig.170501
      图形图像融合的海量建筑绘制
      摘要:目的城市3维模型数据海量且结构复杂,缺乏一个高效完善的可视化系统往往是影响数字城市应用的瓶颈之一。通常利用多层次细节(LOD)与调度算法减少每一帧绘制的数据量来提高绘制效率,当场景规模足够大时,即使采用复杂的优化算法也难以取得较好的效果。为此,本文在传统算法基础上,提出一种图形图像融合的海量建筑物场景绘制方法。方法提出并采用视域分级绘制策略,将视椎体平行分割为感兴趣区域、次感兴趣区域和非感兴趣区域,感兴趣区域采用图形实时绘制方法,使用离屏渲染技术将次感兴趣和非感兴趣区域绘制在纹理图像中,每一帧绘制完成后将二者进行顾及深度信息的融合,实现完整场景渲染。结果使用公开的纽约市区CityGML文件作为实验数据,数据包含了118 195个LOD1和LOD2级别的建筑物模型。分别构建多组不同建筑数量的场景进行帧率统计实验,绘制帧率都达到20帧/s以上。算法实现了视觉无损失的场景完整渲染,并与Cesium平台进行对比实验,证明算法有效且系统运行流畅。结论图形图像融合的绘制方法,既保持了图形渲染的漫游连续性,同时也具有图像渲染的场景复杂度无关的优点。实验结果表明,针对大规模的低分辨率建筑模型场景,算法可以有效提高系统的渲染能力,在性能相对较低的硬件条件下也能实现海量建筑物实体模型的流畅漫游,并达到视觉无损失的场景完整绘制。  
      关键词:城市3维;图形图像融合;大规模场景;海量数据;城市建筑   
      11
      |
      4
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678857 false
      更新时间:2024-05-07
    • 分组渐进迭代逼近算法拟合数据点集

      郑国, 张莉, 张世杰, 杜壮平, 刘逸, 檀结庆
      2018, 23(7): 1081-1090. DOI: 10.11834/jig.170559
      分组渐进迭代逼近算法拟合数据点集
      摘要:目的在计算机辅助设计领域里,曲线或曲面的渐进迭代逼近(PIA)性质在插值与拟合问题中有着广泛的应用。如果直接使用PIA方法对所有的数据点集进行拟合,那么在拟合大规模数据点时就缺少一定的灵活性。为了进一步提高渐进迭代逼近方法在拟合大规模点集时的灵活性,提出基于分组的渐进迭代逼近方法。方法首先对待拟合点集进行分组;其次对分组后的点集采用PIA方法或是基于最小二乘的渐进迭代逼近方法(LSPIA)来得到一组插值或拟合精度不断改善的曲线/曲面;最后运用曲线/曲面拼接算法保证曲线/曲面的连续性,得到1条/张插值或拟合于给定点集的曲线/曲面。结果给定相同的数据点集,分别采用分组PIA方法,PIA方法和LSPIA方法进行拟合。分组PIA方法与PIA方法相比误差减少的倍数与组数相当;分组PIA方法与LSPIA方法相比误差减少一半。结论本文将分组思想引入渐进迭代逼近方法之中,提出了基于分组的渐进迭代逼近方法。该分组算法适用于拟合大规模数据点集,在拟合过程中,可以提高渐进迭代逼近方法在拟合大规模点集时的灵活性;经过理论推导证明了曲线/曲面的迭代效率有所提高,且与PIA方法相比误差有较大的改善。  
      关键词:几何迭代法;分组迭代;拼接;G2连续性;迭代效率   
      11
      |
      4
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55678860 false
      更新时间:2024-05-07
    0