最新刊期

    2018 23 11

      图像处理和编码

    • 多媒体技术研究:2017——记忆驱动的媒体学习与创意

      吴飞, 韩亚洪, 廖彬兵, 于俊清
      2018, 23(11): 1617-1634. DOI: 10.11834/jig.180558
      多媒体技术研究:2017——记忆驱动的媒体学习与创意
      摘要:目的借鉴大脑的工作机理来发展人工智能是当前人工智能发展的重要方向之一。注意力与记忆在人的认知理解过程中扮演了重要的角色。由于"端到端"深度学习在识别分类等任务中表现了优异性能,因此如何在深度学习模型中引入注意力机制和外在记忆结构,以挖掘数据中感兴趣的信息和有效利用外来信息,是当前人工智能研究的热点。方法本文以记忆和注意力等机制为中心,介绍了这些方面的3个代表性工作,包括神经图灵机、记忆网络和可微分神经计算机。在这个基础上,进一步介绍了利用记忆网络的研究工作,其分别是记忆驱动的自动问答、记忆驱动的电影视频问答和记忆驱动的创意(文本生成图像),并对国内外关于记忆网络的研究进展进行了比较。结果调研结果表明:1)在深度学习模型中引入注意力机制和外在记忆结构,是当前人工智能研究的热点;2)关于记忆网络的研究越来越多。国内外关于记忆网络的研究正在蓬勃发展,每年发表在机器学习与人工智能相关的各大顶级会议上的论文数量正在逐年攀升;3)关于记忆网络的研究越来越热。不仅每年发表的论文数量越来越多,且每年的增长趋势并没有放缓,2015年增长了9篇,2016年增长了4篇,2017年增长了9篇,2018年增长了14篇;4)基于记忆驱动的手段和方法十分通用。记忆网络已成功地运用于自动问答、视觉问答、物体检测、强化学习、文本生成图像等领域。结论数据驱动的机器学习方法已成功运用于自然语言、多媒体、计算机视觉、语音等领域,数据驱动和知识引导将是人工智能未来发展的趋势之一。  
      关键词:多媒体;记忆网络;记忆驱动;知识引导;媒体学习;媒体创意   
      14
      |
      18
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675514 false
      更新时间:2024-05-07
    • 用于盗版追踪的格雷码加密域可逆水印研究

      石慧, 冯斌, 王相海, 李明楚, 宋传鸣
      2018, 23(11): 1635-1651. DOI: 10.11834/jig.180238
      用于盗版追踪的格雷码加密域可逆水印研究
      摘要:目的现有水印算法大多是基于明文域的,很容易被入侵、窃取。为了保护用户隐私、提高安全性,本文提出了一种用于盗版追踪的基于格雷码加密域的可逆水印方法,该方法支持对密文直接操作。方法首先提出了基于格雷码的同态加密系统(HESGC),并以此加密载体图像;然后依据整数小波变换(IWT)和人类视觉系统(HVS)特性,将图像分区并合理分类;再依据新提出的算法完成嵌入、可逆恢复及提取工作;最后利用首次提出的水印追踪联合策略(JWT)来进行盗版追踪。结果为了验证本文方法,选取USC-SIPI图像库中的6幅经典图像作为标准测试图像,与其他可逆水印算法相比,本文方法具有更高的PSNR值,PSNR高达50 dB,而且SSIM值均为1,实现了可逆功能;本文新提出的HESGC将使原始载体图像膨胀为原来的8倍,故容量较大。理论上,本文最大容量为3.75 bit/像素,目前大多可逆水印算法的最大容量不足1 bit/像素;本文方法不仅实现了盗版追踪功能,而且能够抵抗一些常见的攻击,如随机噪声、中值滤波、图像平滑和JPEG编码、LZW编码和卷积模糊等。通过比较原始追踪证明与攻击后图像的追踪证明可知,相似度在1左右的即为盗版,其他非盗版的相似度都远远低于1,大部分在0.6左右。结论本文提出了一种基于密文域的可逆水印方案,首次提出了HESGC和JWT,实现了密文域可逆水印技术和盗版追踪功能。该方案直接采用灰度图像作为水印图像,解除了以往以二值图像作为水印图像,或者将灰度图像二值化后作为水印图像的限制,而且采用基于级联混沌技术提高了灰度水印图像的安全性。此外,本文成功消除了图像分区分类中纹理/平滑区域中的平滑/纹理孤岛,使分类结果更加准确、合理。实验结果表明,本方案不仅能够抵抗一些常见攻击,而且容量大、安全性高,很好地保护了用户隐私。本文实现了密文域可逆水印技术,适用于隐私保护要求高的医学、军事等领域。  
      关键词:隐私保护;可逆水印;盗版追踪;基于格雷码的同态加密系统;水印追踪联合策略;大容量;高安全性   
      17
      |
      4
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675513 false
      更新时间:2024-05-07
    • 求解低秩矩阵融合高动态范围图像

      朱雄泳, 陆许明, 李智文, 吴炆芳, 谭洪舟, 陈强
      2018, 23(11): 1652-1665. DOI: 10.11834/jig.180059
      求解低秩矩阵融合高动态范围图像
      摘要:目的利用低秩矩阵恢复方法可从稀疏噪声污染的数据矩阵中提取出对齐且线性相关低秩图像的优点,提出一种新的基于低秩矩阵恢复理论的多曝光高动态范围(HDR)图像融合的方法,以提高HDR图像融合技术的抗噪声与去伪影的性能。方法以部分奇异值(PSSV)作为优化目标函数,可构建通用的多曝光低动态范围(LDR)图像序列的HDR图像融合低秩数学模型。然后利用精确增广拉格朗日乘子法,求解输入的多曝光LDR图像序列的低秩矩阵,并借助交替方向乘子法对求解算法进行优化,对不同的奇异值设置自适应的惩罚因子,使得最优解尽量集中在最大奇异值的空间,从而得到对齐无噪声的场景完整光照信息,即HDR图像。结果本文求解方法具有较好的收敛性,抗噪性能优于鲁棒主成分分析(RPCA)与PSSV方法,且能适用于多曝光LDR图像数据集较少的场合。通过对经典的Memorial Church与Arch多曝光LDR图像序列的HDR图像融合仿真结果表明,本文方法对噪声与伪影的抑制效果较为明显,图像细节丰富,基于感知一致性(PU)映射的峰值信噪比(PSNR)与结构相似度(SSIM)指标均优于对比方法:对于无噪声的Memorial Church图像序列,RPCA方法的PSNR、SSIM值分别为28.117 dB与0.935,而PSSV方法的分别为30.557 dB与0.959,本文方法的分别为32.550 dB与0.968。当为该图像序列添加均匀噪声后,RPCA方法的PSNR、SSIM值为28.115 dB与0.935,而PSSV方法的分别为30.579 dB与0.959,本文方法的为32.562 dB与0.967。结论本文方法将多曝光HDR图像融合问题与低秩最优化理论结合,不仅可以在较少的数据量情况下以较低重构误差获取到HDR图像,还能有效去除动态场景伪影与噪声的干扰,提高融合图像的质量,具有更好的鲁棒性,适用于需要记录场景真实光线变化的场合。  
      关键词:图像融合;高动态范围图像;低秩矩阵恢复;去伪影;拉格朗日乘子法   
      55
      |
      225
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675510 false
      更新时间:2024-05-07
    • 结合纹理梯度抑制与${L_0}$梯度最小化的纹理滤波

      邵欢, 刘春晓
      2018, 23(11): 1666-1675. DOI: 10.11834/jig.180280
      结合纹理梯度抑制与<inline-formula><tex-math id="M1">${L_0}$</tex-math></inline-formula>梯度最小化的纹理滤波
      摘要:目的纹理滤波是计算机视觉领域的一个基础应用工具,其目标是抑制图像中不必要的纹理细节和保持图像的主要结构。目前已有的纹理滤波方法多存在强梯度纹理无法被抑制或结构丢失的问题,为此提出一种结合纹理梯度抑制与${L_0}$梯度最小化的纹理滤波算法。方法首先,提出一种能够区分结构/纹理像素的方向性区间梯度算子,其中采取了局部对比度拉伸和尺度自适应策略,提升了弱梯度结构像素的识别能力。随后,利用区间梯度幅值对原始图像梯度进行抑制,并用抑制后的图像梯度进行图像重建,获得纹理像素梯度小于结构像素梯度的纹理抑制图像。最后,考虑到纹理梯度抑制时会对结构像素的梯度产生一定的衰减作用,本文采用具有梯度提升作用的${L_0}$梯度最小化方法对纹理抑制图像进行滤波,得到纹理抑制结构保持的纹理滤波图像。结果通过测试马赛克和自然风景等不同类型的图片,并与${L_0}$梯度最小化、滚动引导图像滤波、相对总变分、共现滤波等方法相比较,本文算法能够在抑制强梯度纹理的情况下对图像的主要结构得以保持,并且具有良好的普适性和鲁棒性。同时本文将纹理滤波应用于图像的边缘检测和细节增强,取得了不错的效果提升。结论本文算法在兼顾强梯度纹理的抑制和结构的保持方面已超越已有的方法,对于图像的目标识别、图像融合、边缘检测等易受强梯度纹理干扰的技术领域,具有较大的应用潜力。  
      关键词:纹理滤波;${L_0}$梯度最小化;强梯度纹理;结构保持;纹理抑制   
      15
      |
      5
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675512 false
      更新时间:2024-05-07

      图像分析和识别

    • 改进的非极大值抑制算法的目标检测

      赵文清, 严海, 邵绪强
      2018, 23(11): 1676-1685. DOI: 10.11834/jig.180275
      改进的非极大值抑制算法的目标检测
      摘要:目的 作为目标检测的后置处理算法,非极大值抑制(NMS)算法被用于移除多余的检测框。然而,NMS算法在每轮迭代中抑制所有与预选取检测框Intersection-over-Union(IoU)值大于给定阈值的检测框,容易造成目标的漏检和误检。此外,阈值的选取对整个算法的效果有着至关重要的影响。针对这个问题,本文提出了改进的NMS算法,分别为分段比例惩罚因子NMS算法和连续比例惩罚因子NMS算法。在连续比例惩罚因子NMS算法中,阈值对算法的运行效果仅有轻微的影响。方法 改进的NMS算法首先根据检测框与预选取检测框的IoU值大小计算出检测框对应的比例惩罚因子;然后将检测框置信度分数乘以比例惩罚因子,通过比例惩罚因子逐轮降低检测框的分数;最后经过多轮迭代后移除分数低于阈值的检测框。结果 基于分段比例惩罚因子NMS算法和连续比例惩罚因子NMS算法的Faster RCNN目标检测模型在PASCAL VOC 2007数据集下,Faster RCNN的检测平均精度均值(mAP)相较于传统的NMS算法分别提高了1.5%和1.6%。其中,以火车类为例,当准确率和召回率均为80%时,火车类检测的漏检率和误检率分别降低了1.8%和1.2%。与传统的NMS算法相比,本文所提出改进的NMS算法可以有效地保留目标检测框和移除目标的假正例检测框,从而降低NMS算法的漏检率和误检率。结论 在时间复杂度相同和运行效率一致的情况下,与传统的NMS算法相比,本文所提出的改进NMS算法mAP值得到了显著的提升,同时本文算法为其他目标检测模型提供了一个通用的解决方法。  
      关键词:目标检测;非极大值抑制算法;检测框;比例因子;假正例   
      18
      |
      41
      |
      19
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675511 false
      更新时间:2024-05-07

      图像理解和计算机视觉

    • 采用核相关滤波的快速TLD视觉目标跟踪

      王姣尧, 侯志强, 余旺盛, 廖秀峰, 陈传华
      2018, 23(11): 1686-1696. DOI: 10.11834/jig.170655
      采用核相关滤波的快速TLD视觉目标跟踪
      摘要:目的 如何对目标进行快速鲁棒的跟踪一直是计算机视觉的重要研究方向之一,TLD(tracking-learning-detection)算法为这一问题提供了一种有效的解决方法,为了进一步提高TLD算法的跟踪性能,从两个方面对其进行了改进。方法 首先在跟踪模块采用尺度自适应的核相关滤波器(KCF)作为跟踪器,考虑到跟踪模块与检测模块相互独立,本文算法使用检测模块对跟踪模块结果的准确性进行判断,并根据判断结果对KCF滤波器模板进行有选择地更新;然后在检测模块,运用光流法对目标位置进行初步预测,依据预测结果动态调整目标检测区域后,再使用分类器对目标进行精确定位。结果 为了验证本文算法的优越性,对其进行了两组实验,实验1在OTB2013和Temple Color128这两个平台上对本文算法进行了跟踪性能的测试,其结果表明本文算法在OTB2013上的跟踪精度和成功率分别为0.761和0.559,在Temple Color128上的跟踪精度和成功率分别为0.678和0.481,且在所有测试视频上的平均跟踪速度达到了27.92帧/s;实验2将本文算法与其他3种改进算法在随机选取的8组视频上进行了跟踪测试与对比分析,实验结果表明,本文算法具有最小的中心位置误差14.01、最大的重叠率72.2%以及最快的跟踪速度26.23帧/s,展现出良好的跟踪性能。结论 本文算法使用KCF跟踪器,提高了算法对遮挡、光照变化和运动模糊等场景的适应能力,使用光流法缩小检测区域,提高了算法的跟踪速度。实验结果表明,本文算法在多数情况下均取得优于参考算法的跟踪性能,在对目标进行长时间跟踪时表现出良好的跟踪鲁棒性。  
      关键词:视觉目标跟踪;TLD(tracking-learning-detection);核相关滤波;光流法;检测区域调整   
      12
      |
      4
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675623 false
      更新时间:2024-05-07

      计算机图形学

    • 渐进迭代逼近方法在曲线变形上的应用

      张世杰, 张莉, 于立萍, 刘文振
      2018, 23(11): 1697-1706. DOI: 10.11834/jig.180230
      渐进迭代逼近方法在曲线变形上的应用
      摘要:目的 随着几何造型、计算机动画等领域的快速发展,曲线的自由变形技术在近年来受到了广泛的关注。为了获得更多有趣、逼真的变形效果,提出基于渐进迭代逼近与主顶点方法的曲线局部变形算法。方法 给定数据点集,首先采用渐进迭代逼近方法或是基于最小二乘的渐进迭代逼近方法产生待变形曲线;其次对待变形区域使用延拓准则,基于主顶点方法与待变形曲线的形状信息选取控制顶点进行调整;最后对调整后的控制顶点运用局部渐进迭代逼近方法生成逼近曲线,得到期望的变形效果。结果 此变形操作借助于局部渐进迭代逼近方法,具有较好的灵活性。通过茶壶、面部轮廓、手等数值实例,表明了该方法可以得到良好的变形效果。进一步地,借助于叠加变形还可以得到整体的、周期的、伸缩的等各类更加丰富的变形效果。结论 本文研究渐进迭代逼近在曲线变形上的应用,将主顶点方法引入曲线的变形之中,把两者相结合提出了基于渐进迭代逼近与主顶点方法的曲线局部变形算法。该算法不仅具备渐进迭代逼近方法的收敛稳定性,且借助于主顶点方法,可以得到较好的变形效果。该方法适用于曲线的局部变形,丰富了曲线的变形效果。  
      关键词:渐进迭代逼近;曲线变形;局部曲率;变形效果;计算机辅助设计   
      12
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675676 false
      更新时间:2024-05-07
    • 路径追踪中出射光线方向的快速采样方法

      刘成浩
      2018, 23(11): 1707-1719. DOI: 10.11834/jig.180122
      路径追踪中出射光线方向的快速采样方法
      摘要:目的 基于双向反射分布函数的重要性采样方法在渲染物体材质表面时有极佳的拟真度,但采样方式存在复杂和高硬件存储开销的问题。针对上述问题,提出了一种基于权重生成和向量线性插值的采样方法用于解决该问题。方法 在对出射光线方向进行计算时,通过给定的入射光方向、法线方向与物体表面材质光滑度参数,首先计算镜面反射光线方向,再结合余弦与指数函数二者的函数特性生成具有一定分布特征的权重值,并将镜面反射方向与随机生成的漫反射方向进行线性插值,其插值权重即为上述生成的权重值,最后规范化得到具有一定分布特征的新的出射方向。结果 本文基于该快速采样方法,给出了路径追踪渲染算法的一套完整实现,并利用本文算法,从常见各类物体表面中抽取9种进行渲染,将所得实验结果与通过原始双向反射分布函数采样算法所渲染得到的实际结果进行比较,发现利用快速采样算法后渲染速度可提升1.521.99倍,且由于近似所造成的相对误差可控制在8%以内,并将原本用于描述物体表面的34 MB数据量降为仅几个浮点数的数据量,可知上述采样方法既具有极低硬件存储开销的特点,其渲染的图片又能保有较高的拟真度。随着光滑度参数的连续变化,可使得被渲染的物体表面由理想漫反射到理想镜面反射之间均匀过渡,从而统一了漫反射、高光反射与镜面反射三者的采样形式。结论 本文使用简化的出射光方向采样算法替代传统BRDF重要性采样算法,并配套给出基于新采样算法实现的一套完整的路径追踪渲染方法,使得在不失真实度的情况下使得计算机在模拟漫反射、高光反射与镜面反射的形式得以简化与统一。本文方法亦可作为现有诸多采样方法的替代方案,其极低的存储开销优势可用于渲染含有大量不同材质的复杂场景;在渲染一般的粗糙表面、瓷器以及金属等常见各向同性材质时也有较佳的表现力。上述的完整实现方式可以在需要的时候对静态场景做不失真实度的快速渲染。  
      关键词:计算机图形学;路径追踪;双向反射分布函数;双向反射分布函数BRDF采样算法;快速采样;图形处理器(GPU)   
      25
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675714 false
      更新时间:2024-05-07

      遥感图像处理

    • 黄冬梅, 李明慧, 宋巍, 王建
      2018, 23(11): 1720-1732. DOI: 10.11834/jig.180226
      卷积神经网络和深度置信网络在SAR影像冰水分类的性能评估
      摘要:目的 海冰分类是海冰监测的主要任务之一。目前基于合成孔径雷达SAR影像的海冰分类方法分为两类:一类是基于海冰物理特性与SAR成像特征等进行分类,这需要一定的专业背景;另一类基于传统的图像特征分类,需要人为设计特征,受限于先验知识。近年来深度学习在图像分类和目标识别方面取得了巨大的成功,为了提高海冰分类精度及海冰分类速度,本文尝试将卷积神经网络(CNN)和深度置信网络(DBN)用于海冰的冰水分类,评估不同类型深度学习模型在SAR影像海冰分类方面的性能及其影响因素。方法 首先根据加拿大海冰服务局(CIS)的冰蛋图构建海冰的冰水数据集;然后设计卷积神经网络和深度置信网络的网络架构;最后评估两种模型在不同训练样本尺寸、不同数据集大小和网络层数、不同冰水比例的测试影像以及不同中值滤波窗口的分类性能。结果 两种模型的总体分类准确率达到93%以上,Kappa系数0.8以上,根据分类结果得到的海冰区域密集度与CIS的冰蛋图海冰密集度数据一致。海冰的训练样本尺寸对分类结果影响显著,而训练集大小以及网络层数的影响较小。在本文的实验条件下,CNN和DBN网络的最佳分类样本尺寸分别是16×16像素和32×32像素。结论 利用CNN和DBN模型对SAR影像海冰冰水分类,并进行性能分析。发现深度学习模型用于SAR影像海冰分类具有潜力,与现有的海冰解译图的制作流程和信息量相比,基于深度学习模型的SAR影像海冰分类可以提供更加详细的海冰地理分布信息,并且减小时间和资源成本。  
      关键词:海冰的冰水分类;SAR影像;深度学习;卷积神经网络;深度置信网络;海冰解译图   
      15
      |
      4
      |
      9
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675715 false
      更新时间:2024-05-07
    • SAR图像目标识别的卷积神经网模型

      林志龙, 王长龙, 胡永江, 张岩
      2018, 23(11): 1733-1741. DOI: 10.11834/jig.180119
      SAR图像目标识别的卷积神经网模型
      摘要:目的合成孔径雷达图像目标识别可以有效提高合成孔径雷达数据的利用效率。针对合成孔径雷达图像目标识别滤波处理耗时长、识别精度不高的问题,本文提出一种卷积神经网络模型应用于合成孔径雷达图像目标识别。方法首先,针对合成孔径雷达图像特点设计特征提取部分的网络结构;其次,代价函数中引入L2范数提高模型的抗噪性能和泛化性;再次,全连接层使用Dropout减小网络的运算量并提高泛化性;最后研究了滤波对于网络模型的收敛速度和准确率的影响。结果实验使用美国运动和静止目标获取与识别数据库,10类目标识别的实验结果表明改进后的卷积神经网络整体识别率(包含变体)由93.76%提升至98.10%。通过设置4组对比实验说明网络结构的改进和优化的有效性。卷积神经网络噪声抑制实验验证了卷积神经网络的特征提取过程对于SAR图像相干斑噪声有抑制作用,可以省去耗时的滤波处理。结论本文提出的卷积神经网络模型提高了网络的准确率、泛化性,无需耗时的滤波处理,是一种合成孔径雷达图像目标识别的有效方法。  
      关键词:合成孔径雷达;自动目标识别;卷积神经网络;正则化;Dropout   
      14
      |
      8
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55675733 false
      更新时间:2024-05-07

      NCIG 2018会议专栏

    • 自适应卷积特征选择的实时跟踪算法

      熊昌镇, 车满强, 王润玲
      2018, 23(11): 1742-1750. DOI: 10.11834/jig.180252
      自适应卷积特征选择的实时跟踪算法
      摘要:目的针对深度卷积特征相关滤波跟踪算法因特征维度多造成的跟踪速度慢及其在目标发生形变、遮挡等情况时存在跟踪失败的问题,提出了一种自适应卷积特征选择的实时跟踪算法。方法该算法先分析结合深度卷积特征的相关滤波跟踪算法定位目标的特性,然后提出使用目标区域和搜索区域的特征均值比来评估卷积操作,选取满足均值比大于阈值的特征通道数最多的卷积层,减少卷积特征的层数及维度,并提取该卷积层的有效卷积特征来训练相关滤波分类器,最后采用稀疏的模型更新策略提高跟踪速度。结果在OTB-100标准数据集上进行算法测试,本文算法的平均距离精度值达86.4%,平均跟踪速度达29.9帧/s,比分层卷积相关滤波跟踪算法平均距离精度值提高了2.7个百分点,速度快将近3倍。实验结果表明,本文自适应特征选择的方式在保证跟踪精度的同时有效地提升了跟踪的速度,且优于当前使用主成分分析降维的方式;与现有前沿跟踪算法对比,本文算法的整体性能优于实验中对比的9种算法。结论该算法采用自适应卷积通道和卷积层选择的方式有效地减少了卷积层数和特征维度,降低了模型的复杂度,提升了跟踪速度,利用稀疏模型更新策略进一步提升了跟踪的速度,减少了模型漂移现象,当目标发生快速运动、遇到遮挡、光照变化等复杂场景时,仍可实时跟踪到目标,具有较强的鲁棒性和适应性。  
      关键词:机器视觉;目标跟踪;深度学习;通道裁剪;相关滤波;稀疏更新   
      104
      |
      0
      |
      1
      <HTML>
      <Meta-XML>
      <引用本文> <批量引用> 55675771 false
      更新时间:2024-05-07
    • 面向跨媒体检索的层级循环注意力网络模型

      綦金玮, 彭宇新, 袁玉鑫
      2018, 23(11): 1751-1758. DOI: 10.11834/jig.180259
      面向跨媒体检索的层级循环注意力网络模型
      摘要:目的跨媒体检索旨在以任意媒体数据检索其他媒体的相关数据,实现图像、文本等不同媒体的语义互通和交叉检索。然而,"异构鸿沟"导致不同媒体数据的特征表示不一致,难以实现语义关联,使得跨媒体检索面临巨大挑战。而描述同一语义的不同媒体数据存在语义一致性,且数据内部蕴含着丰富的细粒度信息,为跨媒体关联学习提供了重要依据。现有方法仅仅考虑了不同媒体数据之间的成对关联,而忽略了数据内细粒度局部之间的上下文信息,无法充分挖掘跨媒体关联。针对上述问题,提出基于层级循环注意力网络的跨媒体检索方法。方法首先提出媒体内-媒体间两级循环神经网络,其中底层网络分别建模不同媒体内部的细粒度上下文信息,顶层网络通过共享参数的方式挖掘不同媒体之间的上下文关联关系。然后提出基于注意力的跨媒体联合损失函数,通过学习媒体间联合注意力来挖掘更加精确的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程中的语义辨识能力,从而提升跨媒体检索的准确率。结果在2个广泛使用的跨媒体数据集上,与10种现有方法进行实验对比,并采用平均准确率均值MAP作为评价指标。实验结果表明,本文方法在2个数据集上的MAP分别达到了0.469和0.575,超过了所有对比方法。结论本文提出的层级循环注意力网络模型通过挖掘图像和文本的细粒度信息,能够充分学习图像和文本之间精确跨媒体关联关系,有效地提高了跨媒体检索的准确率。  
      关键词:跨媒体检索;注意力机制;循环神经网络;关联学习;语义辨识   
      12
      |
      0
      |
      1
      <HTML>
      <Meta-XML>
      <引用本文> <批量引用> 55675839 false
      更新时间:2024-05-07
    • 面向水下图像集的一致性增强评价方法

      孙晓帆, 刘浩, 张鑫生, 吴乐明, 况奇刚
      2018, 23(11): 1759-1767. DOI: 10.11834/jig.180255
      面向水下图像集的一致性增强评价方法
      摘要:目的在对整个水下图像集的质量进行评价时,现有方法是采用某一质量评价准则的质量分数平均值作为指标,以平均值的高低来说明质量增强算法的优劣,但是,非一致性增强的质量分数平均值会随着图像集的变化而产生较大的波动。为了解决上述问题,本文提出了一个更加具有普适性的水下图像质量评价方法:一致性增强质量评价(CEQA)方法。方法所提方法通过对比图像增强前后的质量分数差值,来判断增强算法性能的一致性,再通过改变选定的质量分数差值所占权重比例并统一分数制,求出一致性增强的图像集的一致性增强质量评价分数。结果虽然当图像集较小时,非一致性增强的图像质量增强算法得到的质量分数平均值最高,但当图像集扩大时,其增强后的质量分数平均值却低于原图的质量分数平均值;而在图像集扩展前后,一致性增强的图像质量增强算法能够稳定地增强图像质量,其得到的质量分数平均值一直高于原图的质量分数平均值。结论本文通过实验证明了所提方法的可行性,扩展应用能够通过本文方法得到有效的实验数据,以对比说明各种水下图像质量增强算法的优劣;本文的方法比平均值方法更加鲁棒有效地控制了大样本偏差。因此,本文为大规模应用中如何选取水下图像集的质量增强算法,提供了一个更好的评价标准。  
      关键词:图像集;一致性增强;图像质量;图像增强;质量评价   
      17
      |
      0
      |
      0
      <HTML>
      <Meta-XML>
      <引用本文> <批量引用> 55675886 false
      更新时间:2024-05-07
    • 荣楚君, 曹晓光, 白相志
      2018, 23(11): 1768-1776. DOI: 10.11834/jig.180258
      Facet方向导数特征与稀疏表示相结合的红外弱小目标检测算法
      摘要:目的红外弱小目标检测是红外图像处理领域中难度大且实际意义相当重要的一项研究热点问题,其在侦察预警系统、飞行器跟踪系统与导弹制导系统中都扮演了十分重要的角色。自然背景下的红外图像一般具有较低信噪比,其中背景占据着绝大部分面积,而目标尺寸很小且不具有明显形状和纹理信息,这为红外图像中弱小目标的检测增加了难度。本文提出一种将Facet方向导数特征与稀疏表示相结合的红外弱小目标检测算法。方法首先利用Facet模型提取原红外图像在0°、90°、45°和-45° 4个方向上的一阶导数特征,然后通过稀疏表示方法,在方向导数信息基础上对图像进行分块逐一处理,利用求解出的稀疏系数和导数图像块的重建残差构建检测数值图,最后分割出小目标所在具体位置。结果通过对4组不同红外图像序列进行实验验证,绘制了检测率与虚警率ROC曲线图。从结果可以看出,本文算法相较于对比算法在小目标检测中具有较高检测率。结论本文算法将Facet方向导数特征与稀疏表示相结合,在红外弱小目标检测上具有较高检测精度和较强抗噪声干扰能力,相比于传统检测算法具有一定优势,同时可根据不同检测背景训练出相应背景字典,从而得到较好检测效果,在实际工程应用中具有良好针对性。  
      关键词:红外图像;目标检测;小目标;方向导数;稀疏表示   
      22
      |
      0
      |
      3
      <HTML>
      <Meta-XML>
      <引用本文> <批量引用> 55675896 false
      更新时间:2024-05-07
    0