摘要:目的在智能监控视频分析领域中,行人重识别是跨无交叠视域的摄像头匹配行人的基础问题。在可见光图像的单模态匹配问题上,现有方法在公开标准数据集上已取得优良的性能。然而,在跨正常光照与低照度场景进行行人重识别的时候,使用可见光图像和红外图像进行跨模态匹配的效果仍不理想。研究的难点主要有两方面:1)在不同光谱范围成像的可见光图像与红外图像之间显著的视觉差异导致模态鸿沟难以消除;2)人工难以分辨跨模态图像的行人身份导致标注数据缺乏。针对以上两个问题,本文研究如何利用易于获得的有标注可见光图像辅助数据进行单模态自监督信息的挖掘,从而提供先验知识引导跨模态匹配模型的学习。方法提出一种随机单通道掩膜的数据增强方法,对输入可见光图像的3个通道使用掩膜随机保留单通道的信息,使模型关注提取对光谱范围不敏感的特征。提出一种基于三通道与单通道双模型互学习的预训练与微调方法,利用三通道数据与单通道数据之间的关系挖掘与迁移鲁棒的跨光谱自监督信息,提高跨模态匹配模型的匹配能力。结果跨模态行人重识别的实验在“可见光—红外”多模态行人数据集SYSU-MM01(Sun Yat-Sen University Multiple Modality 01)、RGBNT201(RGB, near infrared, thermal infrared, 201)和RegDB上进行。实验结果表明,本文方法在这3个数据集上都达到领先水平。与对比方法中的最优结果相比,在RGBNT201数据集上的平均精度均值mAP(mean average precision)有最高接近5%的提升。结论提出的单模态跨光谱自监督信息挖掘方法,利用单模态可见光图像辅助数据挖掘对光谱范围变化不敏感的自监督信息,引导单模态预训练与多模态有监督微调,提高跨模态行人重识别的性能。
摘要:目的深度学习在视频超分辨率重建领域表现出优异的性能,本文提出了一种轻量级注意力约束的可变形对齐网络,旨在用一个模型参数少的网络重建出逼真的高分辨率视频帧。方法本文网络由特征提取模块、注意力约束对齐子网络和动态融合分支3部分组成。1)共享权重的特征提取模块在不增加参数量的前提下充分提取输入帧的多尺度语义信息。2)将提取到的特征送入注意力约束对齐子网络中生成具有精准匹配关系的对齐特征。3)将拼接好的对齐特征作为共享条件输入动态融合分支,融合前向神经网络中参考帧的时域对齐特征和原始低分辨率(low-resolution,LR)帧在不同阶段的空间特征。4)通过上采样重建高分辨率(high-resolution,HR)帧。结果实验在两个基准测试数据集(Vid4(Vimeo-90k)和REDS4(realistic and diverse scenes dataset))上进行了定量评估,与较先进的视频超分辨率网络相比,本文方法在图像质量指标峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)方面获得了更好的结果,进一步提高了超分辨率的细节特征。本文网络在获得相同的PSNR指标的情况下,模型参数减少了近50%。结论通过极轴约束使得注意力对齐网络模型参数量大大减少,并能够充分捕获远距离信息来进行特征对齐,产生高效的时空特征,还通过设计动态融合机制,实现了高质量的重建结果。
摘要:目的图像修复技术虽然取得了长足进步,但是当图像中缺失区域较大时,非缺失区域提供的信息量非常有限,从而导致难以产生语义信息一致的内容来增强修复图像和真实图像的视觉一致性;同时图像修复常使用两阶段网络结构,基于该结构的模型不仅需要较长的训练时间,还会导致图像修复效果对第1阶段输出结果依赖性较强。针对上述问题,提出了一种基于双解码器的增强语义一致的图像修复方法。方法使用双解码器网络结构消除两阶段修复方法中存在的依赖性问题,同时有效缩短模型的训练时间;利用一致性损失、感知损失和风格损失,更好地捕获图像的上下文语义信息,解决图像修复任务中出现的视觉不一致的问题。此外,本文使用了跳跃连接,并引入多尺度注意力模块和扩张卷积,进一步提高了网络的特征提取能力。结果为了公正地评价,在CelebA、Stanford Cars和UCF Google Street View共3个数据集上对具有规则和不规则缺失区域的图像分别进行实验,采用客观评价指标:均方误差(L2)、峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)、FID(Fréchet inception distance)和IS (inception score)进行评价。实验结果表明本文方法修复的图像不仅在视觉上有明显的提升,而且取得了较优的数值。如规则缺失区域下,在CelebA数据集中,本文方法的FID(越小越好)比性能第2的模型在数值上减少了39.2%;在UCF Google Street View数据集中,本文方法的PSNR比其他模型在数值上分别提高了12.64%、6.77%、4.41%。结论本文方法有效减少了模型的训练时间,同时消除了两阶段网络模型中的依赖性问题,修复的图像也呈现出更好的视觉一致性。
摘要:目的基于视觉的车辆行驶安全性预警分析技术是目前车辆辅助驾驶的一个重要研究方向,对前方多车道快速行驶的车辆进行精准的跟踪定位并建立稳定可靠的安全距离预警模型是当前研究难点。为此,提出面向高速公路场景的车路视觉协同行车安全预警算法。方法首先提出一种深度卷积神经网络SF_YOLOv4(single feature you look only once v4)对前方车辆进行精准的检测跟踪;然后提出一种安全距离模型对车辆刹车距离进行计算,并根据单目视觉原理计算车辆间距离;最后提出多车道预警模型对自车行驶过程的安全性进行分析,并对司机给予相应安全提示。结果实验结果表明,提出的SF_YOLOv4算法对车辆检测的准确率为93.55%,检测速度(25帧/s)领先对比算法,有效降低了算法的时间和空间复杂度;提出的安全距离模型计算的不同类型车辆的刹车距离误差小于0.1 m,与交通法建议的距离相比,本文方法计算的安全距离精确度明显提升;提出的多车道安全预警模型与马自达6(ATENZA)自带的前方碰撞系统相比,能对相邻车道车辆进行预警,并提前0.7 s对前方变道车辆发出预警。结论提出的多车道预警模型充分考虑高速公路上相邻车道中的车辆位置变化发生的碰撞事故;本文方法与传统方法相比,具有较高实用性,其预警效果更加客观,预警范围更广,可以有效提高高速公路上的行车安全。
摘要:目的自编码器作为一种无监督的特征提取算法,可以在无标签的条件下学习到样本的高阶、稠密特征。然而当训练集含噪声或异常时,会迫使自编码器学习这些异常样本的特征,导致性能下降。同时,自编码器应用于高光谱图像处理时,往往会忽略掉空域信息,进一步限制了自编码器的探测性能。针对上述问题,本文提出一种基于空域协同自编码器的高光谱异常检测算法。方法利用块图模型优良的背景抑制能力从空域角度筛选用于自编码器训练的背景样本集。自编码器采用经预筛选的训练样本集进行网络参数更新,在提升对背景样本表达能力的同时避免异常样本对探测性能的影响。为进一步将空域信息融入探测结果,利用块图模型得到的异常响应构建权重,起到突出目标并抑制背景的作用。结果实验在3组不同尺寸的高光谱数据集上与5种代表性的高光谱异常检测算法进行比较。本文方法在3组数据集上的AUC(area under the curve)值分别为0.990 4、0.988 8和0.997 0,均高于其他算法。同时,对比了不同的训练集选择策略,与随机选取和使用全部样本进行对比。结果表明,本文基于空域响应的样本筛选方法相较对比方法具有较明显的优势。结论提出的基于空域协同自编码器的高光谱异常检测算法从空域角度筛选样本以提升自编码器区分异常与背景的能力,同时融合了光谱域和空域信息,进一步提升了异常检测性能。