摘要:目的在目标检测领域,深度学习模型已经取得巨大成功。但是已有的基于深度学习的目标检测算法在小物体目标检测中仍然困难重重,原因在于航拍图像多是更复杂的高分辨率场景,其中一些常见问题,如稠密度高、不固定的拍摄角度、目标物体尺寸小和高变异性等给现有目标检测方法带来巨大挑战。切片策略是近年来用于高分辨率图像小目标检测任务的众多优秀方法之一,然而现有的切片方法存在冗余计算问题,因此提出一种新的自适应切片方法,称为自适应切片辅助超推断(adaptive slicing-assisted hyper inference,ASAHI)。方法该方法关注切片数量而非传统的切片大小,可以根据图像分辨率自适应调整切片数量以消除冗余计算带来的性能损耗。在推理阶段,首先根据ASAHI算法将输入图像分割为6或12个重叠的块;之后对每个图像块进行插值处理以保持长宽比;接下来考虑到小块切片在检测大物体时的明显缺陷,分别对切片图像块和完整输入图像进行目标检测前向计算;最后为了提高高密度场景下推理的准确性和检测速度,后处理阶段集成了一种更快和更高效的Cluster-NMS(non-maximum suppression)方法和DIoU(distance- intersection over union)惩罚项,即Cluster-DIoU-NMS(CDN),将ASAHI推理和全图推理结果进行合并,再转回原始图像尺寸。为了支持切片图像块的推理,本文在训练阶段构建的数据集也包括切片图像块。结果在广泛的实验中,ASAHI在VisDrone(vision meets drones)和xView数据集上表现出具有竞争力的性能。结果显示,与现有切片方法相比,本文方法将IoU值为0.5时的平均精确率均值(mean average precision,mAP)mAP50提高1.7%,计算时间减少20%~25%;在VisDrone2019-DET-val(vision meets drones 2019 for detection for validation)数据集上,mAP50的结果提高到56.8%。结论本文方法可以有效处理高分辨率场景下小物体稠密度高、拍摄角度不同以及变异性高等复杂的因素,实现高质量的小物体目标检测。
摘要:目的地点识别是机器人利用实时扫描到的点云数据进行定位和自主导航的核心。现有的针对大规模点云的地点识别方法往往忽略了真实驾驶中存在的旋转问题。当查询场景发生旋转时,这些方法的识别性能会显著下降,这严重阻碍了它们在复杂现实场景中的应用。因此,本文提出一种有效的面向三维点云的具有旋转感知的地点识别网络(efficient rotation-aware network for point cloud based place recognition,ERA-Net)。方法首先,利用自注意机制与邻域注意力机制,在捕获点与点之间全局依赖关系的同时,捕获每个点与其邻域点之间的局部依赖关系,充分提取点间的语义特征。同时,利用点与其k邻近点的坐标信息,计算距离、角度以及角度差等低维几何特征,并设计基于特征距离的注意力池化模块,通过在高维空间分析特征之间的相关性,提取具有较强区分性且具有旋转特性的几何特征。最后,将提取的语义特征以及几何特征进行有效融合,通过NetVLAD模块,产生更具判别性的全局描述符。结果将提出的ERA-Net在公共数据集Oxford Robotcar上进行验证并与当前先进的方法(state-of-the-art method,SOTA)进行比较。在Oxford数据集中,ERA-Net的前1%平均召回率(average recall@1%,AR@1%)指标可以达到96.48%,在U.S.(university sector)、R.A.(residential area)以及B.D.(business district)数据集上的识别效果均优于其他方法。特别地,当查询场景进行旋转时,ERA-Net的识别效果优于已有方法。结论ERA-Net能够充分考虑点间的上下文信息,以及特征间的相关性,提取具有较强独特性的场景特征,在面对旋转问题时能够展现出较好的鲁棒性,具有较强的泛化能力。
摘要:目的随着数字孪生、虚拟现实等技术的普及,人们对画质和流畅性的需求不断提高。然而,受到关键性能硬件的制约,个人电脑或移动设备往往需要通过调整游戏或渲染引擎中的各项参数来提高帧率,而这必然会造成渲染质量损失。如何设置合理的渲染参数,在降低时间开销的同时,实现更高的渲染质量,成为图形应用领域广泛关注的问题。方法提出一种通用的轻量级实时渲染自动参数优化方法,使用极致梯度提升(extreme gradient boosting,XGBoost)对虚拟场景渲染时不同参数的渲染时间和图像质量进行建模,在预计算后,模型被简化为查找表(look up table,LUT)。在实际渲染时根据硬件状态、场景信息等条件使用LUT自动调整渲染参数,在减少渲染时间的同时保证渲染质量。结果该方法能够应用于游戏、渲染引擎中的各类渲染技术。本文分别在次表面散射和环境光遮蔽效果进行应用和测试。结果表明,与最佳的渲染参数相比,使用本文方法的次表面散射渲染时间缩短40%左右,环境光遮蔽渲染时间减低70%左右,而图像误差均仅增加2%左右。结论本文方法在减少渲染时间的同时,能够保持较高的渲染质量,具有良好的实用性,适用于游戏和渲染引擎中的各类渲染技术。代码仓库:https://github.com/LightweightRenderParamOptimization/LightweightRenderParamOptimization。
摘要:目的针对遥感图像(remote sensing image,RSI)检测中目标尺寸小且密集、尺度变化大,尤其在复杂背景信息下容易出现漏检和误检问题,提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,以提升遥感图像的检测精度。方法首先,设计自适应大感受野机制(adaptive large receptive field,ALRF)用于特征提取。该机制通过级联不同扩张率的深度卷积进行分层特征提取,并利用通道和空间注意力对提取的特征进行通道加权和空间融合,使模型能够自适应地调整感受野大小,从而实现遥感图像上下文信息的有效利用。其次,为解决颈部网络特征融合过程中小目标语义信息丢失问题,设计多尺度特征序列融合架构(multi-scale feature fusion,MFF)。该架构通过构建多尺度特征序列,并结合浅层语义特征信息,实现复杂背景下多尺度全局信息的有效融合,从而减轻深层网络中特征模糊性对小目标局部细节捕捉的影响。最后,因传统交并比(intersection over union,IoU)对小目标位置偏差过于敏感,引入归一化Wasserstein距离(normalized Wasserstein distance,NWD)。NWD将边界框建模为二维高斯分布,计算这些分布间的Wasserstein距离来衡量边界框的相似性,从而降低小目标位置偏差敏感性。结果在NWPU VHR-10(Northwestern Polytechnical University very high resolution 10)和DIOR(dataset for object detection in aerial images)数据集上与10种方法进行综合比较,结果表明,提出的方法优于对比方法,平均精度(average precision,AP)分别达到93.15%和80.89%,相较于基准模型YOLOv8n(you only look once version 8 nano),提升了5.48%和2.97%,同时参数量下降6.96%。结论提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,该方法提升目标的定位能力,改善复杂背景下遥感图像检测中的漏检和误检问题。