摘要:目的在动态交通场景下,现有纯视觉3D交通目标检测仍面临两大瓶颈:一是固定的体素采样策略难以适应多变场景;二是时序信息利用不足导致模型对遮挡目标感知受限。针对上述问题,提出了一种面向动态交通场景的3D目标检测框架。方法首先,设计了自适应体素特征采样策略,通过端到端的流程评估场景复杂度(包括特征裁剪和统计量提取等),从而动态选择采样方式,实现了不同场景采样的自适应优化。其次,提出了时序分组融合模块,通过将连续多帧鸟瞰图(bird's-eye-view,BEV)特征分组融合,实现了高效的时空信息建模,增强了对动态目标的鲁棒性。结果在权威公开数据集上的实验表明,所提方法在轻量化配置(ResNet50)下相较于基线模型提高了0.8%的平均精度均值(mean average precision,mAP)和0.8%的nuScenes综合检测指标(nuScenes detection score,NDS),优于Fast-BEV等主流方法;在高性能配置(ResNet101)下进一步提升了1.6%的mAP和2.3%的NDS。消融实验验证了自适应体素特征采样策略和时序分组融合模块各自的有效性,可视化结果也表明该方法在遮挡和动态场景下具有更完整、更精准的检测能力。结论本文通过自适应采样策略与时序分组融合模块,有效提升了纯视觉3D目标检测在动态交通场景下的性能与适应性。未来工作将聚焦于增强短时序建模能力和引入更细粒度的局部自适应机制。https://www.scidb.cn/s/rA7ZFf
摘要:目的针对大视场监控视频中小目标检测存在的样本稀缺、特征微弱与定位不准等难题,本文提出一种用于大视场监控视频的小目标检测网络SOD-YOLO(small object detection - you only look once)。方法该方法从三个层面系统性地进行改进:a)提出结合SAM2语义指导与UE虚拟仿真的虚实融合样本生成策略,以低成本获取大量高质量标注数据;b)设计包含视频差分预处理、多尺度特征融合及双层路由注意力的特征增强机制,以提升模型对微小特征的感知与分辨能力;c)采用解耦头结构并创新α-CIoU损失函数,以优化小目标边界框的回归精度。结果在建设工地、高速公路服务区及大学校园三个真实场景数据集上的实验结果表明,SOD-YOLO的综合性能显著优于当前主流模型,在建筑工地场景取得最高AP75(13.5%)与AP50s(53.9%);在高速公路服务区场景获得最优AP(42.6%)与AP75(29.5%);尤其在极具挑战的大学校园场景(小目标像素占比约0.0075%),其AP、AP75与AP50s相较基准模型YOLOv7分别提升了4.1%、2.5%与5.0%。结论本研究为解决低分辨率监控视频下的小目标检测问题提供了一套有效且可靠的技术方案。
摘要:随着虚拟现实(Virtual Reality,VR)技术的迅速普及,VR360 o 全景图像(Omnidirectional Image,ODI)与全景视频(Omnidirectional Video, ODV)在娱乐、教育、医疗等领域展现出巨大的应用潜力。然而,由于全景内容具有球面畸变、视角分布不均以及实时交互等特有挑战,传统显著性检测方法难以有效应对VR全景场景的复杂性。本文综述了当前VR360o 全景图像/视频下显著性检测的研究进展,从传统机器学习方法到基于深度学习(如CNN、Transformer和LSTM架构)的方法进行了全面回顾。文章首先介绍了VR360 o 内容的成像原理与几何特性;随后,重点讨论了传统方法与深度学习技术在全景显著性检测中的应用与局限,特别是在全景环境中融合了多模态信息的相关研究;此外,综述还对现有数据集、评测指标及现有方法的性能进行了系统整理。本文还考察了全景显著性检测在图像质量评估和视频质量评估等领域中的实际应用案例,以揭示其在技术优化和用户体验提升方面的潜在价值。最后,文章展望了未来在VR360°全景显著性检测领域的前沿方向,旨在为后续研究和技术落地提供理论支持和实践指南。本文提及的算法、数据集已汇总至https://github.com/jiacongyu/PVSD。