摘要:目的针对已有图像拼接篡改检测方法中存在的真伪判断分类精度不高、拼接篡改区域定位不准确问题,本文设计了一种篡改边缘两侧和篡改区域内外不一致性引导下的重点关注篡改区域与篡改边缘的图像拼接篡改检测卷积神经网络。方法图像内容在篡改过程中,拼接物体的边缘都会留下篡改痕迹,这是图像拼接篡改检测的重要线索。因此,本文设计了一条篡改边缘提取分支,通过学习拼接物体边缘两侧的不一致性,重点提取拼接篡改区域的边缘轮廓。考虑到篡改边缘像素点过少会导致网络难以收敛,提出一个边缘加粗策略,形成一个边缘加粗的"甜甜圈",使得篡改边缘提取结果更具完整性。在不同图像采集过程中,所用相机设备和光线条件等因素不同,导致每幅图像包含的信息也不尽相同。对此,设计了一条篡改区域定位分支,重点学习来自不同图像拼接区域与周围区域之间不一致性的差异化特征,并将注意力机制引入图像拼接篡改检测的篡改区域定位分支,进一步提高对拼接篡改区域的学习关注程度。面向真伪判断设计了一条图像是否经过拼接篡改的二分类网络分支,不但可以快速有效地给出输入图像是否为篡改图像的判断结果,而且可以与上述两条分支的输出结果一起提供给用户,由用户结合视觉语义信息进行综合判断。结果本文算法与已有的4个代表性方法在4个专业数据集上进行算法实验和性能比较。在真伪判断分类的精确度方面,在Dresden、COCO(common objects in context)、RAISE(a raw images dataset for digital image forensics)和IFS-TC(information forensics and security technical committee)数据集上分别提高了8.3%、4.6%、1.0%和1.0%;在篡改区域定位的准确度方面,F1评分与重叠度IOU(intersection over union)指标较已有方法分别提升了9.4%和8.6%。结论本文算法将真伪判别分类、篡改区域定位和篡改边缘提取融合在一起,互相促进,较大提升了各分支任务的性能表现,在图像拼接篡改检测方面取得了优于已有方法的效果,为数字图像取证技术领域的研究工作拓展了思路。
摘要:目的卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。
摘要:目的激光雷达采集的室外场景点云数据规模庞大且包含丰富的空间结构细节信息,但是目前多数点云分割方法并不能很好地平衡结构细节信息的提取和计算量之间的关系。一些方法将点云变换到多视图或体素化网格等稠密表示形式进行处理,虽然极大地减少了计算量,但却忽略了由激光雷达成像特点以及点云变换引起的信息丢失和遮挡问题,导致分割性能降低,尤其是在小样本数据以及行人和骑行者等小物体场景中。针对投影过程中的空间细节信息丢失问题,根据人类观察机制提出了一种场景视点偏移方法,以改善三维(3D)激光雷达点云分割结果。方法利用球面投影将3D点云转换为2维(2D)球面正视图(spherical front view,SFV)。水平移动SFV的原始视点以生成多视点序列,解决点云变换引起的信息丢失和遮挡的问题。考虑到多视图序列中的冗余,利用卷积神经网络(convolutional neural networks,CNN)构建场景视点偏移预测模块来预测最佳场景视点偏移。结果添加场景视点偏移模块后,在小样本数据集中,行人和骑行者分割结果改善相对明显,行人和骑行者(不同偏移距离下)的交叉比相较于原方法最高提升6.5%和15.5%。添加场景视点偏移模块和偏移预测模块后,各类别的交叉比提高1.6% 3%。在公用数据集KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)上与其他算法相比,行人和骑行者的分割结果取得了较大提升,其中行人交叉比最高提升9.1%。结论本文提出的结合人类观察机制和激光雷达点云成像特点的场景视点偏移与偏移预测方法易于适配不同的点云分割方法,使得点云分割结果更加准确。
摘要:目的SLAM(simultaneous localization and mapping)是移动机器人在未知环境进行探索、感知和导航的关键技术。激光SLAM测量精确,便于机器人导航和路径规划,但缺乏语义信息。而视觉SLAM的图像能提供丰富的语义信息,特征区分度更高,但其构建的地图不能直接用于路径规划和导航。为了实现移动机器人构建语义地图并在地图上进行路径规划,本文提出一种语义栅格建图方法。方法建立可同步获取激光和语义数据的激光-相机系统,将采集的激光分割数据与目标检测算法获得的物体包围盒进行匹配,得到各物体对应的语义激光分割数据。将连续多帧语义激光分割数据同步融入占据栅格地图。对具有不同语义类别的栅格进行聚类,得到标注物体类别和轮廓的语义栅格地图。此外,针对语义栅格地图发布导航任务,利用路径搜索算法进行路径规划,并对其进行改进。结果在实验室走廊和办公室分别进行了语义栅格建图的实验,并与原始栅格地图进行了比较。在语义栅格地图的基础上进行了路径规划,并采用了语义赋权算法对易移动物体的路径进行对比。结论多种环境下的实验表明本文方法能获得与真实环境一致性较高、标注环境中物体类别和轮廓的语义栅格地图,且实验硬件结构简单、成本低、性能良好,适用于智能化机器人的导航和路径规划。目的SLAM(simultaneous localization and mapping)是移动机器人在未知环境进行探索、感知和导航的关键技术。激光SLAM测量精确,便于机器人导航和路径规划,但缺乏语义信息。而视觉SLAM的图像能提供丰富的语义信息,特征区分度更高,但其构建的地图不能直接用于路径规划和导航。为了实现移动机器人构建语义地图并在地图上进行路径规划,本文提出一种语义栅格建图方法。方法建立可同步获取激光和语义数据的激光-相机系统,将采集的激光分割数据与目标检测算法获得的物体包围盒进行匹配,得到各物体对应的语义激光分割数据。将连续多帧语义激光分割数据同步融入占据栅格地图。对具有不同语义类别的栅格进行聚类,得到标注物体类别和轮廓的语义栅格地图。此外,针对语义栅格地图发布导航任务,利用路径搜索算法进行路径规划,并对其进行改进。结果在实验室走廊和办公室分别进行了语义栅格建图的实验,并与原始栅格地图进行了比较。在语义栅格地图的基础上进行了路径规划,并采用了语义赋权算法对易移动物体的路径进行对比。结论多种环境下的实验表明本文方法能获得与真实环境一致性较高、标注环境中物体类别和轮廓的语义栅格地图,且实验硬件结构简单、成本低、性能良好,适用于智能化机器人的导航和路径规划。
摘要:目的随着图像检索所依赖的特征愈发精细化,在提高检索精度的同时,也不可避免地产生众多非相关和冗余的特征。针对在大规模图像检索和分类中高维度特征所带来的时间和空间挑战,从减少特征数量这一简单思路出发,提出了一种有效的连通图特征点选择方法,探寻图像检索精度和特征选择间的平衡。方法基于词袋模型(bag of words,BOW)的图像检索机制,结合最近邻单词交叉核、特征距离和特征尺度等属性,构建包含若干个连通分支和平凡图的像素级特征分离图,利用子图特征点的逆文本频率修正边权值,从各连通分量的节点数量和孤立点最近邻单词相关性两个方面开展特征选择,将问题转化为在保证图像匹配精度情况下,最小化特征分离图的阶。结果实验采用Oxford和Paris公开数据集,在特征存储容量、时间复杂度集和检索精度等方面进行评估,并对不同特征抽取和选择方法进行了对比。实验结果表明选择后的特征数量和存储容量有效约简50%以上;100 k词典的KD-Tree查询时间减少近58%;相对于其他编码方法和全连接层特征,Oxford数据集检索精度平均提升近7.5%;Paris数据集中检索精度平均高于其他编码方法4%,但检索效果不如全连接层特征。大量实验表明了大连通域的冗余性和孤立点的可选择性。结论通过构建特征分离图,摒弃大连通域的冗余特征点,保留具有最近邻单词相关性的孤立特征点,最终形成图像的精简特征点集。整体检索效果稳定,其检索精度基本与原始特征点集持平,且部分类别效果优于原始特征和其他方法。同时,选择后特征的重用性好,方便进一步聚合集成。