最新刊期

2023 年第 28 卷 9 期

《中国图象图形学报》复杂场景图像目标智能检测专栏简介

焦李成,高新波,韩军伟,李云松,白翔,杨淑媛,孟德宇,任文琦,石争浩,陈秀妍
2023, 28(9): 2561-2562. DOI: 10.11834/jig.2300009

4

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41947369 false

发布时间：2024-05-07

复杂场景图像目标智能检测

无人机视角下的目标检测研究进展

冷佳旭,莫梦竟成,周应华,叶永明,高陈强,高新波
2023, 28(9): 2563-2586. DOI: 10.11834/jig.220836

摘要：在人工智能技术的支持下，无人机初步获得智能感知能力，在实际应用中展现出高效灵活的数据收集能力。无人机视角下的目标检测作为关键核心技术，在诸多领域中发挥着不可替代的作用，具有重要的研究意义。为了进一步展现无人机视角下的目标检测研究进展，本文对无人机视角下的目标检测算法进行了全面总结，并对已有算法进行了归类、分析和比较。1）介绍无人机视角下的目标检测概念，并总结无人机视角下目标检测所面临的目标尺度、空间分布、样本数量、类别语义以及优化目标等5大不均衡挑战。在介绍现有研究方法的基础上，特别整理并介绍了无人机视角下目标检测算法在交通监控、电力巡检、作物分析和灾害救援等实际场景中的应用。2）重点阐述从数据增强策略、多尺度特征融合、区域聚焦策略、多任务学习以及模型轻量化等方面提升无人机视角下目标检测性能的方法，总结这些方法的优缺点并分析了其与现存挑战之间的关联性。3）全面介绍基于无人机视角的目标检测数据集，并呈现已有算法在两个较常用公共数据集上的性能评估。4）对无人机视角下目标检测技术的未来发展方向进行了展望。

关键词：计算机视觉;深度学习;目标检测;航拍图像;综述

4

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945582 false

发布时间：2024-05-07
小目标检测研究综述

潘晓英,贾凝心,穆元震,高炫蓉
2023, 28(9): 2587-2615. DOI: 10.11834/jig.220455

摘要：随着计算机视觉和人工智能技术的快速发展，目标检测受到了更加广泛的关注。由于小目标像素占比小、语义信息少、易受复杂场景干扰以及易聚集遮挡等问题，导致小目标检测一直是目标检测领域中的一大难点。目前，视觉的小目标检测在生活的各个领域中日益重要。为了进一步促进小目标检测的发展，提高小目标检测的精度与速度，优化其算法模型，本文针对小目标检测中存在的问题，梳理了国内外研究现状及成果。首先，分别从小目标可视化特征、目标分布情况和检测环境等角度对小目标检测的难点进行了分析，同时从数据增强、超分辨率、多尺度特征融合、上下文语义信息、锚框机制、注意力机制以及特定的检测场景等方面系统总结了小目标检测方法，并整理了在框架结构、损失函数、预测和匹配机制等方面发展的较为成熟的单阶段小目标检测方法。其次，本文对小目标检测的评价指标以及可用于小目标检测的各类数据集进行了详细介绍，并针对部分经典的小目标检测方法在MS-COCO（Microsoft common objects in context）、VisDrone2021（vision meets drones2021）和Tsinghua-Tencent100K等数据集上的检测结果及其可视化检测效果进行了对比与分析。最后，对未来小目标检测面临的挑战，包括如何解决小目标定位困难、网络模型下采样对小目标的影响、交并比阈值的设置对小目标不合理等问题和其对应的研究方向进行了分析与展望。

关键词：目标检测;小目标检测;数据增强;超分辨率;多尺度特征融合

3

|

2

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41947037 false

发布时间：2024-05-07
航空遥感图像深度学习目标检测技术研究进展

石争浩,仵晨伟,李成建,尤珍臻,王泉,马城城
2023, 28(9): 2616-2643. DOI: 10.11834/jig.221085

摘要：航空遥感图像目标检测旨在定位和识别遥感图像中感兴趣的目标，是航空遥感图像智能解译的关键技术，在情报侦察、灾害救援和资源勘探等领域具有重要应用价值。然而由于航空遥感图像具有尺寸大、目标小且密集、目标呈任意角度分布、目标易被遮挡、目标类别不均衡以及背景复杂等诸多特点，航空遥感图像目标检测目前仍然是极具挑战的任务。基于深度卷积神经网络的航空遥感图像目标检测方法因具有精度高、处理速度快等优点，受到了越来越多的关注。为推进基于深度学习的航空遥感图像目标检测技术的发展，本文对当前主流遥感图像目标检测方法，特别是2020—2022年提出的检测方法，进行了系统梳理和总结。首先梳理了基于深度学习目标检测方法的研究发展演化过程，然后对基于卷积神经网络和基于Transformer目标检测方法中的代表性算法进行分析总结，再后针对不同遥感图象应用场景的改进方法思路进行归纳，分析了典型算法的思路和特点，介绍了现有的公开航空遥感图像目标检测数据集，给出了典型算法的实验比较结果，最后给出现阶段航空遥感图像目标检测研究中所存在的问题，并对未来研究及发展趋势进行了展望。

关键词：航空遥感图像;目标检测;特征融合;深度学习;卷积神经网络（CNN）;Transformer;注意力机制

3

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945197 false

发布时间：2024-05-07
图像级标记弱监督目标检测综述

陈震元,王振东,宫辰
2023, 28(9): 2644-2660. DOI: 10.11834/jig.220854

摘要：目标检测是计算机视觉领域的基本任务之一，根据标签信息的不同，可分为全监督目标检测、半监督目标检测和弱监督目标检测等。弱监督目标检测旨在仅利用图像级别的类别标记信息训练检测器，从而完成对测试图像中所有目标物体的定位和分类。因能够显著降低数据标记成本，弱监督目标检测愈发受到关注且已取得令人瞩目的进展。本文由弱监督目标检测的研究意义引入，首先介绍了弱监督目标检测的标签设置及问题定义、基于多示例学习的基础框架和面临的局部主导、实例歧义和计算消耗这3大难题，接着按核心网络架构将该领域的典型算法归纳为3大类，分别是基于优化候选框生成的算法、结合图像分割的算法和基于自训练的算法，并分别阐述各类算法的核心贡献。进一步地，本文通过实验在多种评估指标上对比了各类弱监督目标检测算法的检测效果。在VOC2007（visual object classes 2007）数据集中，平均精度均值（mean average precision，mAP）最高的方法为MIST（multiple instance self-training）算法（54.9%），正确定位率（correct localization，CorLoc）最高的方法为SLV（spatial likelihood voting）算法（71.1%）。在VOC2012数据集中，mAP最高的方法为NDI-WSOD（negative deterministic information weakly supervised object detection）算法（53.9%），CorLor最高的方法为P-MIDN（pyramidal multiple instance detection network）算法（73.3%）。在MSCOCO（Microsoft common objects in context）数据集中，在交并比（intersection over union， IoU）阈值为50%时验证集上的平均精度ValAP₅₀最高的方法为P-MIDN（pyramidal multiple instance detection network）（27.4%）。最后探讨了弱监督目标检测未来的研究方向。本文所总结的弱监督目标检测算法框架，对后续研究人员的网络设计、模型探究和优化方向等都具有一定的参考价值。

关键词：弱监督目标检测;弱监督语义分割;候选框生成器;自训练

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945227 false

发布时间：2024-05-07
Transformer驱动的图像分类研究进展

石争浩,李成建,周亮,张治军,仵晨伟,尤珍臻,任文琦
2023, 28(9): 2661-2692. DOI: 10.11834/jig.220799

摘要：图像分类是图像理解的基础，对计算机视觉在实际中的应用具有重要作用。然而由于图像目标形态、类型的多样性以及成像环境的复杂性，导致很多图像分类方法在实际应用中的分类结果总是差强人意，例如依然存在分类准确性低、假阳性高等问题，严重影响其在后续图像及计算机视觉相关任务中的应用。因此，如何通过后期算法提高图像分类的精度和准确性具有重要研究意义，受到越来越多的关注。随着深度学习技术的快速发展及其在图像处理中的广泛应用和优异表现，基于深度学习技术的图像分类方法研究取得了巨大进展。为了更加全面地对现有方法进行研究，紧跟最新研究进展，本文对Transformer驱动的深度学习图像分类方法和模型进行系统梳理和总结。与已有主题相似综述不同，本文重点对Transformer变体驱动的深度学习图像分类方法和模型进行归纳和总结，包括基于可扩展位置编码的Transformer图像分类方法、具有低复杂度和低计算代价的Transformer图像分类方法、局部信息与全局信息融合的Transformer图像分类方法以及基于深层ViT（visual Transformer）模型的图像分类方法等，从设计思路、结构特点和存在问题等多个维度、多个层面深度分析总结现有方法。为了更好地对不同方法进行比较分析，在ImageNet、CIFAR-10（Canadian Institute for Advanced Research）和CIFAR-100等公开图像分类数据集上，采用准确率、参数量、浮点运算数（floating point operations，FLOPs）、总体分类精度（overall accuracy，OA）、平均分类精度（average accuracy，AA）和Kappa（κ）系数等评价指标，对不同方法模型的分类性能进行了实验评估。最后，对未来研究方向进行了展望。

关键词：Transformer;自注意力机制;深度学习;图像分类;可扩展位置编码

2

|

1

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945762 false

发布时间：2024-05-07
夜间多场景的邻近感知实时行人检测算法

龚安,李中浩,梁辰宏
2023, 28(9): 2693-2705. DOI: 10.11834/jig.220834

摘要：目的行人检测是自动驾驶、监控安防等领域的关键技术，为了解决目标检测算法在夜间复杂场景以及遮挡情况下造成的行人检测精度降低的问题，本文提出将低光增强算法（low-light image enhancement）添加到夜间行人检测任务中进行联合训练，并引入邻近感知模块（nearby objects hallucinator，NOH），提出了一种改进的夜间监控场景下的邻近感知行人检测算法（nearby-aware surveillance pedestrian detection algorithm，NSPDet）。方法为了提升夜间检测行人的准确率，在基线模型中加入低光增强模块（zero-reference deep curve estimation，Zero-DCE）。为了降低密集人群、遮挡造成的漏检、误检，利用NOH建模周围行人分布信息，提出了行人检测头（PedestrianHead）。为了减少模型参数，提升推理速度，本文利用深度可分离卷积将模型进行轻量化。结果在NightSurveillance数据集上进行3组消融实验，相比基线模型YOLOX（exceeding YOLO （you only look once） series），精度最优的NSPDet算法的AP（average precision）和AR（average recall）指标分别提升了10.1%和7.2%。此外，轻量化后的NSPDet模型参数减少了16.4 M，AP和AR分别衰减了7.6%和6.2%，但仍优于基线模型。在Caltech（Caltech pedestrian dataset）、CityPersons（a diverse dataset for pedestrian detection）和NightOwls（a pedestrians at night dataset）数据集上，与其他方法的对比实验表明，提出的夜间行人检测算法具有较低的平均误检率。结论提出的夜间行人检测算法，提升了基线模型夜间行人检测的精度，具备实时推理性能，在夜间复杂场景下表现出良好的鲁棒性。

关键词：夜间行人检测;低光增强;YOLOX;邻近感知模块（NOH）;深度可分离卷积（DSC）

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945623 false

发布时间：2024-05-07
结合旋转框和注意力机制的轻量遥感图像检测模型

李朝辉,安金堂,贾红雨,方艳
2023, 28(9): 2706-2718. DOI: 10.11834/jig.220839

摘要：目的遥感图像目标检测在国防安全、智能监测等领域扮演着重要的角色。面对遥感图像中排列密集且方向任意分布的目标，传统水平框目标检测不能实现精细定位，大型和超大型的目标检测网络虽然有强大表征学习能力，但是忽略了模型准确率与计算量、参数量之间的性价比，也满足不了实时检测的要求，庞大的参数量和计算量在模型部署上也非常受限，针对以上问题，设计了一种轻量级的旋转框遥感图像目标检测模型（YOLO-RMV4）。方法对原MobileNetv3网络进行改进，在特征提取网络中加入性能更好的通道注意力机制模块（efficient channel attention，ECA），并且对网络规模进行适当扩展，同时加入路径聚合网络（path aggregation network，PANet），对主干网络提取特征进行多尺度融合，为网络提供更丰富可靠的目标特征。网络检测头中则采用多尺度检测技术，来应对不同尺寸的目标物体，检测头中的角度预测加入了环形圆滑标签（circular smooth label，CSL），将角度回归问题转换为分类问题，从而使预测角度和真实角度之间的距离可以衡量。结果将提出的检测模型在制备的AVSP（aerial images of vehicle ship and plane）数据集上进行实验验证，并对主流的7种轻量级网络模型进行了对比实验，相比RYOLOv5l，该模型大小（5.3 MB）仅为RYOLOv5l（45.3 MB）的1/8，平均精度均值（mean average precision，mAP）提高了1.2%，平均召回率（average recall，AR）提高了1.6%。并且mAP和AR均远高于其他的轻量级网络模型。同时也对各个改进模块进行了消融实验，验证了不同模块对模型性能的提升程度。结论本文提出的模型在轻量的网络结构下辅以多尺度融合和旋转框检测，使该模型在极有限参数量下实现实时推理和高精度检测。

关键词：深度学习;旋转框检测;轻量级;注意力机制;多尺度融合;遥感图像

2

|

0

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945201 false

发布时间：2024-05-07
结合环状原型空间优化的开放集目标检测

孙旭豪,沈阳,魏秀参,安鹏
2023, 28(9): 2719-2732. DOI: 10.11834/jig.220992

摘要：目的现有目标检测任务常在封闭集设定中进行。然而在现实问题中，待检测图片中往往包含未知类别目标。因此，在保证模型对已知类检测性能的基础上，为了提升模型在现实检测任务中对新增类别的目标检测能力，本文对开放集目标检测任务进行研究。方法区别于现有的开放集目标检测框架在检测任务中将背景类与未知类视为一个类别进行优化，本文框架在进行开放集类别识别的过程中，优先识别候选框属于背景类或是含待识别目标类别，而后再对含待识别目标类别进行已知类与未知类的判别。本文提出基于环状原型空间优化的检测器，该检测器可以通过优化待检测框的特征在高维空间中的稀疏程度对已知类、未知类与背景类进行环状序列判别，从而提升模型对开放集类别的检测性能。在（region proposal networks，RPN）层后设计了随机覆盖候选框的方式筛选相关的背景类训练框，避免了以往开放集检测工作中繁杂的背景类采样步骤。结果本文方法在保证模型对封闭集设定下检测性能的情况下，通过逐步增加未知类别的数量，在Visual Object Classes-Common Objects in Context-20 （VOC-COCO-20），Visual Object Classes-Common Objects in Context-40 （VOC-COCO-40）以及Visual Object Classes-Common Objects in Context-60 （VOC-COCO-60）数据集中的4个指标上均取得了具有竞争力的结果。同时，通过增加未知类目标的图片数量与包含已知类目标的图片数量的比值wilderness ratio （WR），所提方法在3个对比实验共12项结果中，有10项领先于对比方法。消融实验也证明了方法中每一个模块的有效性。结论本文提出的基于环状原型空间优化的开放集目标检测框架取得了较好的检测效果。通过在实际检测任务中的实验对比，证明了本文方法在不改变模型封闭集识别性能的情况下，有更强的开放集类别检测能力。

关键词：开放集目标检测（OSOD）;原型学习;开放集识别（OSR）;目标检测;深度神经网络

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945225 false

发布时间：2024-05-07
外观和运动模式感知的有丝分裂细胞检测

林凡超,谢洪涛,刘传彬,张勇东
2023, 28(9): 2733-2748. DOI: 10.11834/jig.220901

摘要：目的在癌症筛查和药物研发等医学研究和诊疗过程中，显微图像中的有丝分裂细胞检测可以提供重要的生物学判据。然而，不同培养条件下图像分布差异明显，且细胞密度逐渐增大导致场景变得复杂，常规预处理方法难以进行有效的区域筛选；不同阶段细胞外观相似、运动过程模糊，现有方法缺乏对区域特征编码的显式监督，容易因为语义区分能力不足导致错误预测。为此，本文提出基于外观和运动模式感知的检测框架，通过两阶段预处理和对细胞状态模式的判别性学习，实现复杂场景下的精准预测。方法本文方法采用3阶段检测框架：在预处理阶段结合区域分割网络和先验优化算法来充分精简候选区域；在预训练阶段构造基于图像分类和重构的两种辅助任务，为候选区域的外观和运动编码提供直接监督，使编码网络具备对不同细胞状态的语义感知能力；在全模型训练和预测阶段，以预处理得到的候选区域序列作为输入，用预训练的编码网络提取候选区域特征，最终通过时序网络融合序列上下文信息得到细胞检测结果。结果在C2C12-16数据集上的实验结果表明，本文方法的平均性能达到：验证集精准率85.3%，召回率89.3%，F得分87.2%；测试集精准率86.4%，召回率86.1%，F得分86.2%，时序检测误差0.221±0.536帧，空间检测误差3.321±2.461像素，在检测精度和稳定性上都超过了现有方法。结论本文提出了新的复杂场景下有丝分裂细胞检测框架。所采用的预处理策略可以有效精简候选区域，显著提高检测效率；针对编码网络的辅助任务预训练充分提升了模型对候选区域外观和运动特征的学习能力，最终能够克服电镜图像中复杂场景和细胞模式的干扰，准确且稳定地对有丝分裂细胞进行时空检测。

关键词：相衬显微图像;有丝分裂细胞检测;多阶段检测;时空特征编码;辅助训练

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945198 false

发布时间：2024-05-07

综述

类ChatGPT大模型发展、应用和前景

严昊,刘禹良,金连文,白翔
2023, 28(9): 2749-2762. DOI: 10.11834/jig.230536

摘要：生成式人工智能技术自ChatGPT发布以来，不断突破瓶颈，吸引了资本规模投入、多领域革命和政府重点关注。本文首先分析了大模型的发展动态、应用现状和前景，然后从以下3个方面对大模型相关技术进行了简要介绍：1）概述了大模型相关构造技术，包括构造流程、研究现状和优化技术；2）总结了3类当前主流图像—文本的大模型多模态技术；3）介绍了根据评估方式不同而划分的3类大模型评估基准。参数优化与数据集构建是大模型产品普及与技术迭代的核心问题；多模态能力是大模型重要发展方向之一；设立评估基准是比较与约束大模型的关键方法。此外，本文还讨论了现有相关技术面临的挑战与未来可能的发展方向。现阶段的大模型产品已有强大的理解能力和创造能力，在教育、医疗和金融等领域已展现出广阔的应用前景。但同时，它们也存在训练部署困难、专业知识不足和安全隐患等问题。因此，完善参数优化、优质数据集构建、多模态等技术，并建立统一、全面、便捷的评估基准，将成为大模型突破现有局限的关键。

关键词：人工智能（AI）;ChatGPT;多模态技术;自然语言处理;大模型（LLM）

3

|

0

|

2

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41947231 false

发布时间：2024-05-07
三维点云配准中的计算智能方法综述

武越,苑咏哲,向本华,绳金龙,雷佳熠,胡聪颖,公茂果,马文萍,苗启广
2023, 28(9): 2763-2787. DOI: 10.11834/jig.220727

摘要：随着三维数据采集设备的成熟与普及，由激光雷达、结构光传感器和立体相机等设备采集的点云数据引起了广泛关注，并以此研究出针对点云的配准、分类、分割和跟踪等算法，推动了点云相关研究领域的科研进展。点云配准是点云数据处理的一个重要研究方向，旨在找到一个刚性变换运动参数，使得运动参数作用于源点云后能够与参考点云对齐。传统的点云配准方法大多存在着对初始位姿、异常值敏感等问题，而计算智能方法在处理点云配准问题，例如去除孤立点或求解矩阵时可以有效解决这些问题，并且能够适用于点云重叠程度低的情况，表现出较强的鲁棒性和泛化性。这种方法不依赖于问题本身特性，也不需要建立精确的模型，只需要求出替代真值解的近似解，大幅简化了计算量。在计算智能中，深度学习因其强大的学习能力越来越多地应用于点云配准问题，同时由于进化计算的强大全局搜索能力以及模糊逻辑对不确定性的良好适应能力，许多研究也将这两种方法应用于配准问题。本文对点云配准领域中的计算智能方法进行全面讨论，分别从基于深度学习、进化计算和模糊逻辑的点云配准方法这3个方面展开论述，同时对传统的点云配准方法进行简要介绍，并对各种方法的优缺点进行了详细讨论，旨在以更全面、清晰的方式总结点云配准问题上的相关研究。

关键词：点云配准;计算智能;深度学习;进化计算;模糊逻辑

5

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945764 false

发布时间：2024-05-07
深度学习图像描述方法分析与展望

赵永强,金芝,张峰,赵海燕,陶政为,豆乘风,徐新海,刘东红
2023, 28(9): 2788-2816. DOI: 10.11834/jig.220660

摘要：图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句，实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用，图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上，将基于深度学习的图像描述算法研究分为两个层面，一是图像描述的基本能力构建，二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战，本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法，从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法，从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法，从内容控制和风格控制的角度分析了图像描述可控性的方法，从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外，本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍，并对图像描述中待解决的问题与未来研究趋势进行预测和展望。

关键词：图像描述;深度学习;基本能力;应用有效性;核心技术挑战

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946208 false

发布时间：2024-05-07
知识蒸馏方法研究与应用综述

司兆峰,齐洪钢
2023, 28(9): 2817-2832. DOI: 10.11834/jig.220273

摘要：随着深度学习方法的不断发展，其存储代价和计算代价也不断增长，在资源受限的平台上，这种情况给其应用带来了挑战。为了应对这种挑战，研究者提出了一系列神经网络压缩方法，其中知识蒸馏是一种简单而有效的方法，成为研究热点之一。知识蒸馏的特点在于它采用了“教师—学生”架构，使用一个大型网络指导小型网络进行训练，以提升小型网络在应用场景下的性能，从而间接达到网络压缩的目的。同时，知识蒸馏具有不改变网络结构的特性，从而具有较好的可扩展性。本文首先介绍知识蒸馏的由来以及发展，随后根据方法优化的目标将知识蒸馏的改进方法分为两大类，即面向网络性能的知识蒸馏和面向网络压缩的知识蒸馏，并对经典方法和最新方法进行系统的分析和总结，最后列举知识蒸馏方法的几种典型应用场景，以便加深对各类知识蒸馏方法原理及其应用的理解。知识蒸馏方法发展至今虽然已经取得较好的效果，但是各类知识蒸馏方法仍然有不足之处，本文也对不同知识蒸馏方法的缺陷进行了总结，并根据网络性能和网络压缩两个方面的分析，给出对知识蒸馏研究的总结和展望。

关键词：知识蒸馏;深度学习;计算机视觉;神经网络;模型压缩

2

|

0

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41947131 false

发布时间：2024-05-07

图像处理和编码

宏微观信息增强与色彩校正的高效色调映射

朱仲杰,崔伟锋,白永强,井维一,金敏红
2023, 28(9): 2833-2843. DOI: 10.11834/jig.220460

摘要：目的色调映射是一种在保持视觉效果基本不变的前提下将高动态范围图像映射到常规低动态显示设备上进行显示的技术。针对现有方法存在细节模糊、边缘光晕及色彩失真等不足，提出一种宏微观信息增强与色彩校正的色调映射新方法。方法将给定的高动态范围图像映射到HSV（hue， saturation， value）颜色空间，分离亮度信息与色彩信息。基于人类视觉感知机制，在亮度通道构建宏观一致性和微观显著性的亮度感知压缩模型，并进一步通过调节模型缩放因子消除边缘光晕现象。基于颜色恒常性原理，在色度通道构建自适应饱和度偏移模型，融合亮度压缩信息调整图像的饱和度信息，解决色调映射所造成的主观色彩失真问题。结果实验结果表明，所提算法在结构保真度、自然度和色调映射质量指数等客观评价方面均优于对比色调映射算法，同时主观平均意见值也取得了最高的4.3分（即好—非常好）。结论宏微观信息增强的亮度感知压缩模型，在确保场景亮度信息不变的情况下，可以有效增强图像纹理细节的完整性和保真性。融合亮度压缩的饱和度偏移模型可以有效解决亮度压缩导致的图像色彩失真等问题。该色调映射算法效率高、通用性强，可广泛应用于图像压缩、生物医学和视频编码等领域。

关键词：高动态范围图像;色调映射（TM）;宏微观信息增强;显著性图像;色彩校正

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946658 false

发布时间：2024-05-07
结合内外先验知识的低照度图像增强与去噪算法

都双丽,党慧,赵明华,石争浩
2023, 28(9): 2844-2855. DOI: 10.11834/jig.220707

摘要：目的现有大多数低照度图像增强算法会放大噪声，且用于极低照度图像时会出现亮度提升不足、色彩失真等问题。为此，提出一种基于Retinex（retina cortex）的增强与去噪方法。方法为了增强极低照度图像，首先利用暗通道先验原理估计场景的全局光照，若光照低于0.5，对图像进行初始光照校正；其次，提出一种Retinex顺序分解模型，使低照度图像中的噪声均体现在反射分量中，基于分解结果，利用Gamma校正求取增强后的噪声图像；最后，提出一种基于内外双重互补先验约束的去噪机制，利用非局部自相似性原理为反射分量构建内部先验约束，基于深度学习，为增强后的噪声图像构建外部先验约束，使内外约束相互制约。结果将本文算法与6种算法比较，在140幅普通低照度图像和162幅极低照度图像上（有正常曝光参考图像）进行主观视觉和客观指标评价比较，结果显示本文方法在亮度提升、色彩保真及去噪方面均有明显优势，对于普通低照度图像，BTMQI（blind tone-mapped quality index）和NIQE（natural image quality evaluator）指标均取得次优值，对于极低照度图像，NIQMC（no-reference image quality metric for contrast distortion）、峰值信噪比（peak signal-to-noise ratio，PSNR）和结构相似性（structural similarity index，SSIM）3种指标均取得最优值，其他算法的峰值信噪比在8～18.35 dB，结构相似度在0.3～0.78，而本文算法可达到18.94 dB和 0.82，优势明显。结论本文算法不仅可以增强不同光照条件下的低照度图像，还可以有效去除图像中的噪声，效果稳定。

关键词：Retinex分解;低照度图像增强;暗通道先验;环境光照估计;双重互补先验约束;去噪

2

|

0

|

2

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41945901 false

发布时间：2024-05-07

图像分析和识别

注意力增强和目标模型更新的红外目标跟踪算法

汲清波,陈奎丞,侯长波,李子琦,戚宇飞
2023, 28(9): 2856-2871. DOI: 10.11834/jig.220459

摘要：目的多数以深度学习为基础的红外目标跟踪方法在对比度弱、噪声多的红外场景下，缺少对目标细节信息的利用，而且当跟踪场景中有相似目标且背景杂乱时，大部分跟踪器无法对跟踪的目标进行有效的更新，导致长期跟踪时鲁棒性较差。为解决这些问题，提出一种基于注意力和目标模型自适应更新的红外目标跟踪算法。方法首先以无锚框算法为基础，加入针对红外跟踪场景设计的快速注意力增强模块以并行处理红外图像，在不损失原信息的前提下提高红外目标与背景的差异性并增强目标的细节信息，然后将提取的特征融合到主干网络的中间层，最后利用目标模型自适应更新网络，学习红外目标的特征变化趋势，同时对目标的中高层特征进行动态更新。结果本文方法在4个红外目标跟踪评估基准上与其他先进算法进行了比较，在LSOTB-TIR（large-scale thermal infrared object tracking benchmark）数据集上的精度为79.0%，归一化精度为71.5%，成功率为66.2%，较第2名在精度和成功率上分别高出4.0%和4.6%；在PTB-TIR（thermal infrared pedestrian tracking benchmark）数据集上的精度为85.1%，成功率为66.9%，较第2名分别高出1.3%和3.6%；在VOT-TIR2015（thermal infrared visual object tracking）和VOT-TIR2017数据集上的期望平均重叠与精确度分别为0.344、0.73和0.276、0.71，本文算法在前3个数据集的测评结果均达到最优。同时，在LSOTB-TIR数据集上的消融实验结果显示，本文方法对基线跟踪器有着明显的增益作用。结论本文算法提高了对红外目标特征的捕捉能力，解决了红外目标跟踪易受干扰的问题，能够提升红外目标长期跟踪的精度和成功率。

关键词：红外图像;目标跟踪;孪生网络;无锚框;高效注意力;自适应更新

4

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946842 false

发布时间：2024-05-07
融合显著性图像语义特征的人体相似动作识别

白忠玉,丁其川,徐红丽,吴成东
2023, 28(9): 2872-2886. DOI: 10.11834/jig.220028

摘要：目的基于骨骼的动作识别技术由于在光照变化、动态视角和复杂背景等情况下具有更强的鲁棒性而成为研究热点。利用骨骼/关节数据识别人体相似动作时，因动作间关节特征差异小，且缺少其他图像语义信息，易导致识别混乱。针对该问题，提出一种基于显著性图像特征强化的中心连接图卷积网络（saliency image feature enhancement based center-connected graph convolutional network，SIFE-CGCN）模型。方法首先，设计一种骨架中心连接拓扑结构，建立所有关节点到骨架中心的连接，以捕获相似动作中关节运动的细微差异；其次，利用高斯混合背景建模算法将每一帧图像与实时更新的背景模型对比，分割出动态图像区域并消除背景干扰作为显著性图像，通过预训练的VGG-Net（Visual Geometry Group network）提取特征图，并进行动作语义特征匹配分类；最后，设计一种融合算法利用分类结果对中心连接图卷积网络的识别结果强化修正，提高对相似动作的识别能力。此外，提出了一种基于骨架的动作相似度的计算方法，并建立一个相似动作数据集。结果实验在相似动作数据集与NTU RGB+D 60/120（Nanyang Technological University RGB+D 60/120）数据集上与其他方法进行比较。在相似动作数据集中，相比于次优模型识别准确率在跨参与者识别（X-Sub）和跨视角识别（X-View）基准分别提高4.6%和6.0%；在NTU RGB+D 60数据集中，相比于次优模型识别准确率在X-Sub和X-View基准分别提高1.4%和0.6%；在NTU RGB+D 120数据集中，相比于次优模型识别准确率在X-Sub和跨设置识别（X-Set）基准分别提高1.7%和1.1%。此外，进行多种对比实验，验证了中心连接图卷积网络、显著性图像提取方法以及融合算法的有效性。结论提出的方法可以实现对相似动作的准确有效识别分类，且模型的整体识别性能及鲁棒性也得以提升。

关键词：动作识别;骨架序列;相似动作;图卷积网络（GCN）;图像显著性特征

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41947139 false

发布时间：2024-05-07

图像理解和计算机视觉

融合多尺度特征的复杂手势姿态估计网络

贾迪,李宇扬,安彤,赵金源
2023, 28(9): 2887-2898. DOI: 10.11834/jig.220636

摘要：目的基于单幅RGB图像的手势姿态估计受手势复杂性、手指特征局部自相似性及遮挡问题的影响，导致手势姿态估计准确率低。为此，提出一种面向单目视觉手势姿态估计的多尺度特征融合网络。方法1）采用ResNet50（50-layer residual network）模块从RGB图像提取不同分辨率特征图，通过通道变换模块显式地学习特征通道间的依赖关系，增强重要的特征通道信息，弱化次要的特征通道信息。2）在全局回归模块中，通过设计节点间的连接方式融合不同分辨率特征图，以便充分利用图像的细节与整体信息。采用局部优化模块继续提取更深层的特征信息，获得手部关节点的高斯热图，以此修正遮挡等原因造成部分关节点回归不准确的问题。3）计算经通道变换模块处理后的最小特征图，通过全局池化和多层感知机处理该特征图以获得手势类别和右手相对于左手的深度。4）综合以上结果获得最终的手势姿态。结果采用InterHand2.6M和RHD（rendered handpose dataset）数据集训练多尺度特征融合网络，评估指标中根节点的平均误差和关节点的平均误差，均低于同类方法，且在一些复杂和遮挡的场景下鲁棒性更高。在InterHand2.6M数据集上，与InterNet方法相比，本文方法的交互手关节点的平均误差降低5.8%，单手关节点的平均误差降低8.3%，根节点的平均误差降低5.1%。从RHD数据集的测试结果看，与同类方法相比，本文方法在手部关节点的平均误差上获得最小值。结论本文提出的多尺度特征融合网络能够更准确地预测手部关节点位置，适用于复杂手势或遮挡条件下的手势姿态估计（本文方法代码网址：https：//github.com/cornersInHeart/hand-pose-esitmation.git）。

关键词：手势估计;深度学习;注意力机制;多尺度特征;图像处理

3

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946343 false

发布时间：2024-05-07
元迁移学习在少样本跨域图像分类中的研究

杜彦东,冯林,陶鹏,龚勋,王俊
2023, 28(9): 2899-2912. DOI: 10.11834/jig.220664

摘要：目的现有基于元学习的主流少样本学习方法假设训练任务和测试任务服从相同或相似的分布，然而在分布差异较大的跨域任务上，这些方法面临泛化能力弱、分类精度差等挑战。同时，基于迁移学习的少样本学习方法没有考虑到训练和测试阶段样本类别不一致的情况，在训练阶段未能留下足够的特征嵌入空间。为了提升模型在有限标注样本困境下的跨域图像分类能力，提出简洁的元迁移学习（compressed meta transfer learning，CMTL）方法。方法基于元学习，对目标域中的支持集使用数据增强策略，构建新的辅助任务微调元训练参数，促使分类模型更加适用于域差异较大的目标任务。基于迁移学习，使用自压缩损失函数训练分类模型，以压缩源域中基类数据所占据的特征嵌入空间，微调阶段引导与源域分布差异较大的新类数据有更合适的特征表示。最后，将以上两种策略的分类预测融合视为最终的分类结果。结果使用mini-ImageNet作为源域数据集进行训练，分别在EuroSAT（European Satellite）、ISIC（International Skin Imaging Collaboration）、CropDiseas（Crop Diseases）和Chest-X（Chest X-Ray）数据集上测试CMTL模型的跨域图像分类能力，在5-way 1-shot和5-way 5-shot跨域任务中，准确率分别达到68.87%和87.74%、34.47%和49.71%、74.92%和93.37%、22.22%和25.40%。与当前主流少样本跨域图像分类方法比较，提出的CMTL方法在各个数据集中都有较好的跨域图像分类能力。结论提出的CMTL方法综合了迁移学习和元学习方法各自在跨域任务上的优势，能有效解决少样本跨域图像分类问题。

关键词：图像分类;少样本跨域;元学习;迁移学习;少样本学习（FSL）

2

|

0

|

4

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946042 false

发布时间：2024-05-07
视觉—语义双重解纠缠的广义零样本学习

韩阿友,杨关,刘小明,刘阳
2023, 28(9): 2913-2926. DOI: 10.11834/jig.220486

摘要：目的传统的零样本学习（zero-shot learning，ZSL）旨在依据可见类别的数据和相关辅助信息对未见类别的数据进行预测分类，而广义零样本学习（generalized zero-shot learning，GZSL）中分类的类别既可能属于可见类也可能属于不可见类，这更符合现实的应用场景。基于生成模型的广义零样本学习的原始特征和生成特征不一定编码共享属性所指的语义相关信息，这样会导致模型倾向于可见类，并且分类时忽略了语义信息中与特征相关的有用信息。为了分解出相关的视觉特征和语义信息，提出了视觉—语义双重解纠缠框架。方法首先，使用条件变分自编码器为不可见类生成视觉特征，再通过一个特征解纠缠模块将其分解为语义一致性和语义无关特征。然后，设计了一个语义解纠缠模块将语义信息分解为特征相关和特征无关的语义。其中，利用总相关惩罚来保证分解出来的两个分量之间的独立性，特征解纠缠模块通过关系网络来衡量分解的语义一致性，语义解纠缠模块通过跨模态交叉重构来保证分解的特征相关性。最后，使用两个解纠缠模块分离出来的语义一致性特征和特征相关语义信息联合学习一个广义零样本学习分类器。结果实验在4个广义零样本学习公开数据集AWA2（animals with attributes2）、CUB（caltech-ucsd birds-200-2011）、SUN（SUN attribute）和FLO（Oxford flowers）上取得了比Baseline更好的结果，调和平均值在AwA2、CUB、SUN和FLO上分别提升了1.6%、3.2%、6.2%和1.5%。结论在广义零样本学习分类中，本文提出的视觉—语义双重解纠缠方法经实验证明比基准方法取得了更好的性能，并且优于大多现有的相关方法。

关键词：零样本学习（ZSL）;广义零样本学习（GZSL）;解纠缠表示;变分自编码器（VAE）;跨模态重构;总相关性（TC）

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946567 false

发布时间：2024-05-07

医学图像处理

融合隐向量对齐和Swin Transformer的OCTA血管分割

许聪,郝华颖,王阳,马煜辉,阎岐峰,陈浜,马韶东,王效贵,赵一天
2023, 28(9): 2927-2939. DOI: 10.11834/jig.220482

摘要：目的光学相干断层扫描血管造影（optical coherence tomography angiography，OCTA）是一种非侵入式的新兴技术，越来越多地应用于视网膜血管成像。与传统眼底彩照相比，OCTA技术能够显示黄斑周围的微血管信息，在视网膜血管成像邻域具有显著优势。临床实践中，医生可以通过OCTA图像观察不同层的血管结构，并通过分析血管结构的变化来判断是否存在相关疾病。大量研究表明，血管结构的任何异常变化通常都意味着存在某种眼科疾病。因此，对OCTA图像中的视网膜血管结构进行自动分割提取，对众多眼部相关疾病量化分析和临床决策具有重大意义。然而，OCTA图像存在视网膜血管结构复杂、图像整体对比度低等问题，给自动分割带来极大挑战。为此，提出了一种新颖的融合隐向量对齐和Swin Transformer的视网膜血管结构的分割方法，能够实现血管结构的精准分割。方法以ResU-Net为主干网络，通过Swin Transformer编码器获取丰富的血管特征信息。此外，设计了一种基于隐向量的特征对齐损失函数，能够在隐空间层次对网络进行优化，提升分割性能。结果在3个OCTA图像数据集上的实验结果表明，本文方法的AUC（area under curce）分别为94.15%，94.87%和97.63%，ACC（accuracy）分别为91.57%，90.03%和91.06%，领先其他对比方法，并且整体分割性能达到最佳。结论本文提出的视网膜血管分割网络，在3个OCTA图像数据集上均取得了最佳的分割性能，优于对比方法。

关键词：血管分割;光学相干断层扫描血管造影（OCTA）;深度学习;疾病量化分析;隐向量

2

|

0

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946656 false

发布时间：2024-05-07

遥感图像处理

用于遥感舰船细粒度检测与识别的关键子区域融合网络

张磊,陈文,王岳环
2023, 28(9): 2940-2955. DOI: 10.11834/jig.220671

摘要：目的遥感图像中的舰船目标细粒度检测与识别在港口海域监视以及情报搜集等应用中有很高的实际应用价值，但遥感图像中不同种类的舰船目标整体颜色、形状与纹理特征相近，分辨力不足，导致舰船细粒度识别困难。针对该问题，提出了一种端到端的基于关键子区域特征的舰船细粒度检测与识别方法。方法为了获得更适于目标细粒度识别的特征，提出多层次特征融合识别网络，按照整体、局部子区域两个层次从检测网络得到的候选目标区域中提取特征。然后结合候选目标中所有子区域的信息计算每个子区域的判别性显著度，对含有判别性组件的关键子区域进行挖掘。最后基于判别性显著度将子区域特征与整体特征进行自适应融合，形成表征能力更强的特征，对舰船目标进行细粒度识别。整个检测与识别网络采用端到端一体化设计，所有候选目标特征提取过程只需要经过一次骨干网络的计算，提高了计算效率。结果在公开的带有细粒度类别标签的HRSC2016（high resolution ship collection）数据集L3任务上，本文方法平均准确率为77.3%，相较于不采用多层次特征融合识别网络提升了6.3%；在自建的包含45类舰船目标的FGSAID（fine-grained ships in aerial images dataset）数据集上，本文方法平均准确率为71.5%。结论本文方法有效挖掘并融合了含有判别性组件的子区域的特征，解决了目标整体特征分辨力不足导致的细粒度目标识别困难问题，相较于现有的遥感图像舰船目标检测与识别算法准确性有明显提升。

关键词：遥感图像;舰船检测;细粒度识别;关键子区域;判别性显著度

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946040 false

发布时间：2024-05-07
结合全局上下文与融合注意力的干涉相位去噪

曾庆旺,董张玉,杨学志,种法亭
2023, 28(9): 2956-2968. DOI: 10.11834/jig.220562

摘要：目的干涉相位去噪是合成孔径雷达干涉测量（interferometric synthetic aperture radar，InSAR）技术中的关键环节，其效果对测量精度具有重要影响。针对现有的干涉相位去噪方法大多关注局部特征以及在特征提取方面的局限性，同时为了平衡去噪和结构保持两者之间的关系，提出了一种结合全局上下文与融合注意力的相位去噪网络GCFA-PDNet（global context and fused attention phase denoising network）。方法将干涉相位分离为实部和虚部依次输入到网络，先从噪声相位中提取浅层特征，再将其映射到由全局上下文提取模块和融合注意力模块组成的特征增强模块，最后通过全局残差学习生成去噪图像。全局上下文提取模块能提取全局上下文信息，具有非局部方法的优势；融合注意力模块既强调关键特征，又能高效提取隐藏在复杂背景中的噪声信息。结果所提出的方法与对比方法中性能最优者相比，在模拟数据结果的平均峰值信噪比（peak signal to noise ratio， PSNR）和结构相似性（structural similarity， SSIM）指标分别提高了5.72%和2.94%，在真实数据结果的平均残差点减少百分比（percentage of residual point reduction， PRR）和相位标准偏差（phase standard deviation，PSD）指标分别提高了 2.01% 和3.57%。结合定性与定量分析，所提出的方法优于其他5种不同类型的相位去噪方法。结论提出的去噪网络较其他方法具有更强大的特征提取能力，此外由于关注全局上下文信息和强调关键特征，网络能够在增强去噪能力的同时保持原始相位细节。

关键词：合成孔径雷达干涉测量（InSAR）;干涉相位去噪;残差学习;全局上下文;融合注意力

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 41946380 false

发布时间：2024-05-07

地址：北京市海淀区北四环西路19号中科院电子所主楼223室邮编：100190
联系电话：010-58887035/58887030/58887418 Email：jig@aircas.ac.cn
技术支持由北京北大方正电子有限公司提供京ICP备05080539号-4 京公网安备11010802024621
本系统建议在Chrome、 IE9+ 以上版本浏览器阅读本站内容，360浏览器请切换至极速模式
Cookies帮助我们提供服务并提供个性化体验。使用本网站，即表示您同意我们使用Cookies

⁰