摘要:独特的拍摄视角和多变的成像高度使得遥感影像中包含大量尺寸极其有限的目标,如何准确有效地检测这些小目标对于构建智能的遥感图像解译系统至关重要。本文聚焦于遥感场景,对基于深度学习的小目标检测进行全面调研。首先,根据小目标的内在特质梳理了遥感影像小目标检测的3个主要挑战,包括特征表示瓶颈、前背景混淆以及回归分支敏感。其次,通过深入调研相关文献,全面回顾了基于深度学习的遥感影像小目标检测算法。选取3种代表性的遥感影像小目标检测任务,即光学遥感图像小目标检测、SAR图像小目标检测和红外图像小目标检测,系统性总结了3个领域内的代表性方法,并根据每种算法使用的技术思路进行分类阐述。再次,总结了遥感影像小目标检测常用的公开数据集,包括光学遥感图像、SAR图像及红外图像3种数据类型,借助于3种领域的代表性数据集SODA-A(small object detection datasets)、AIR-SARShip和NUAA-SIRST(Nanjing University of Aeronautics and Astronautics, single-frame infrared small target),进一步对主流的遥感影像目标检测算法在面对小目标时的性能表现进行横向对比及深入评估。最后,对遥感影像小目标检测的应用现状进行总结,并展望了遥感场景下小目标检测的发展趋势。
摘要:开放环境下的模式识别与文字识别应用中,新数据、新模式和新类别不断涌现,要求算法具备应对新类别模式的能力。针对这一问题,研究者们开始聚焦开放集文字识别(open-set text recognition,OSTR)任务。该任务要求,算法在测试(推断)阶段,既能识别训练集见过的文字类别,还能够识别、拒识或发现训练集未见过的新文字。开放集文字识别逐步成为文字识别领域的研究热点之一。本文首先对开放集模式识别技术进行简要总结,然后重点介绍开放集文字识别的研究背景、任务定义、基本概念、研究重点和技术难点。同时,针对开放集文字识别三大问题(未知样本发现、新类别识别和上下文信息偏差),从方法的模型结构、特点优势和应用场景的角度对相关工作进行了综述。最后,对开放集文字识别技术的发展趋势和研究方向进行了分析展望。
摘要:随着元宇宙概念的兴起,以6自由度(six degree of freedom, 6DoF)视频为代表的新一代交互式媒体技术得到产业界和学术界的广泛关注。6DoF视频隶属于多媒体通信领域,通过计算重构的方式向用户提供包括视角、光照、焦距和视场范围等多个维度的媒体交互与内容变化,能使千里之外的用户有身临其境、千人千面之感,与元宇宙具有的感知、计算、重构、协同和交互等技术特征具有高度重合性。因此,6DoF视频涵盖的技术体系可作为实现元宇宙的替代技术框架。本文提出了6DoF视频10个方面的40个问题,并将6DoF视频端到端技术链条归纳为生成、分发和呈现3个宏观阶段,随后围绕这3个技术阶段分别从内容采集与预处理、编码压缩与传输优化以及交互与呈现等方面阐述国内外研究进展。其中,在内容采集与预处理阶段,阐述了多视点联合采集、多视点与深度联合采集、深度图与点云预处理;在视频压缩与传输阶段,阐述了多视点视频编码、多视点+深度视频编码、光场图像压缩、焦栈图像压缩、点云编码压缩、6DoF视频传输优化;在交互与显示阶段,阐述了解码后滤波增强和虚拟视点合成。最后,本文围绕该领域当下的挑战,对未来趋势进行了讨论。