最新刊期

2024 年第 29 卷 1 期

综述

沉浸式环境中多场景视觉提示信息可视化方法综述

任洋甫,李志强,张松海
2024, 29(1): 1-21. DOI: 10.11834/jig.221147

摘要：沉浸式环境是通过虚拟现实（virtual reality，VR）等技术为用户呈现趋近于真实的环境体验。虚拟现实是通过计算机生成现实世界的模拟环境，可以为用户提供丰富的沉浸感、交互性和想象力体验。用户在虚拟现实场景中，通过视觉可以快速熟悉环境，获取场景内外的信息，还可以通过视觉完成与场景的交互，增强用户的感知。增强现实（augmented reality，AR）会将虚拟信息放置在真实场景中，用户可以与真实场景中的虚拟信息进行交互。为了充分了解视觉提示信息在虚拟现实等不同沉浸式场景中的研究，探究视觉信息提示方法的本源，本文按照信息提示位置的不同、功能和应用的不同进行区分，首先综述近年来在普通二维场景中的方法，通过技术对比和改进深入讨论了在三维虚拟现实或增强现实环境下对视觉提示信息可视化方法的研究。分析在虚拟现实或增强现实环境下与普通二维场景中显示的异同，同时展开视觉提示信息在多场景下对用户注意力等使用功能方面的研究介绍，以及全景视频观看等实际场景中的应用研究说明。本文通过对二维和三维场景视野外、场景中标签布局和注意力引导，以及全景视频观看等实际应用中的讨论，可以更详细地展示视觉提示信息在沉浸式环境和多场景中的研究前景与发展方向。

关键词：沉浸式环境;虚拟现实（VR）;增强现实（AR）;多场景;视觉提示信息;全景视频;注意力引导

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621794 false

发布时间：2024-01-16
图像重定向质量评价的研究进展

胡波,谢国庆,李雷达,李静,杨嘉琛,路文,高新波
2024, 29(1): 22-44. DOI: 10.11834/jig.220722

摘要：随着移动显示设备的普及，人们可以使用不同的终端设备来获取图像信息。为了适配不同尺寸的设备，图像重定向技术应运而生，并成为当前研究的热点。尽管该技术在近年来取得了长足进步，但没有算法能够保证在不降低视觉内容质量的前提下满足多种显示设备的要求。换句话说，在图像重定向的过程中，不可避免地会引入失真，降低用户的视觉体验。因此，如何客观、准确地评价重定向图像质量对图像重定向算法的选择、优化及发展至关重要。当前，研究人员已针对图像重定向质量评价开展了一系列研究，并取得了一定的研究成果。但是缺乏对图像重定向质量评价的综述，因此本文对当前图像重定向质量评价的研究进展进行了较为全面的回顾和总结。首先简单介绍了图像重定向以及传统图像质量评价；然后分别介绍图像重定向质量评价的数据集和客观质量评价方法，将现有的客观质量评价分为基于传统特征相似性的方法和基于图像配准的方法两类，并分析了两类方法的优缺点；接着在3个数据集上对具有代表性的算法的性能进行了对比分析；最后，总结了当前图像重定向质量评价领域面临的问题和挑战，并指明了未来可能的发展方向。

关键词：图像质量评价（IQA）;图像重定向;图像配准;内容损失;几何失真

4

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621795 false

发布时间：2024-01-16
从图卷积网络到图散射网络：回顾与展望

柳世禹,戴文睿,李成林,熊红凯
2024, 29(1): 45-64. DOI: 10.11834/jig.230069

摘要：在图像与图形处理中，非欧氏空间数据与传统欧氏空间数据共同构成了数据的不同表达形式。随着面向图像、音频等传统信号的处理技术已经发展了数十年并趋于成熟，诸如图等非欧氏空间数据的兴起，对非欧氏空间的数据处理提取提出了更高的要求。图卷积网络的出现将面向传统信号的深度学习网络模型和卷积操作拓展到了图上，在一定程度上解决了学术界和工业界对图信号处理的需求。然而，空域特征聚合的图卷积网络容易产生过平滑问题。本文回顾了从图卷积网络到图散射网络的发展进程，分别梳理空域图卷积网络和谱域图卷积网络；并以图卷积网络为桥梁引出了图散射网络，比较和总结了图散射网络的前沿的理论和方法。传统的谱域图卷积网络虽然可以通过滤波器设计避免过平滑问题，但由于可训练参数较少、输出特征比较单一，往往存在表达能力不足的问题。图散射网络的提出很好地解决了图卷积网络中存在的问题。一方面，图散射变换将面向传统信号的散射变换操作拓展到图信号处理上，通过多尺度小波分解提取图信号的多分辨率特征，在保证网络稳定性的前提下解决了空域图卷积网络的特征过平滑问题；另一方面，相较于传统的谱域图卷积网络，图散射网络输出能够提取多尺度带通特征，增强模型的表达能力，提高了图分类等任务的结果。最后分析了现有图散射技术和理论的局限性，并提出了未来图散射网络可能的研究方向。

关键词：深度学习;图卷积网络（GCN）;图散射网络（GSN）;表征学习;稳定性;信号扰动;拓扑扰动

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621796 false

发布时间：2024-01-16

图像处理和编码

LLFlowGAN：以生成对抗方式约束可逆流的低照度图像增强

黄颖,彭慧,李昌盛,高胜美,陈奉
2024, 29(1): 65-79. DOI: 10.11834/jig.230063

摘要：目的现有低照度图像增强方法大多依赖于像素级重建，旨在学习低照度输入和正常曝光图像之间的确定性映射，没有对复杂的光照分布进行建模，从而导致了不适当的亮度及噪声。大多图像生成方法仅使用一种（显式或隐式）生成模型，在灵活性和效率方面有所限制。为此，改进了一种混合显式—隐式的生成模型，该模型允许同时进行对抗训练和最大似然训练。方法首先设计了一个残差注意力条件编码器对低照度输入进行处理，提取丰富的特征以减少生成图像的色差；然后，将编码器提取到的特征作为可逆流生成模型的条件先验，学习将正常曝光图像的分布映射为高斯分布的双向映射，以此来模拟正常曝光图像的条件分布，使模型能够对多个正常曝光结果进行采样，生成多样化的样本；最后，利用隐式生成对抗网络（generative adversarial network，GAN）为模型提供约束，改善图像的细节信息。特别地，两个映射方向都受到损失函数的约束，因此本文设计的模型具有较强的抗模式崩溃能力。结果实验在2个数据集上进行训练与测试，在低照度（low-light dataset，LOL）数据集与其他算法对比，本文算法在峰值信噪比（peak signal-to-noise ratio，PSNR）上均有最优表现、图像感知相似度（learned perceptual image patch similarity，LPIPS）、在结构相似性（structural similarity index measure，SSIM）上取得次优表现0.01，在无参考自然图像质量指标（natural image quality evaluator，NIQE）上取得较优结果。具体地，相较于18种现有显著性模型中的最优值，本文算法PSNR提高0.84 dB，LPIPS降低0.02，SSIM降低0.01，NIQE值降低1.05。在 MIT-Adobe FiveK（Massachu⁃setts Institute of Technology Adobe FiveK）数据集中，与5种显著性模型进行对比，相较于其中的最优值，本文算法PSNR提高0.58 dB，SSIM值取得并列第一。结论本文提出的流生成对抗模型，综合了显式和隐式生成模型的优点，更好地调整了低照度图像的光照，抑制了噪声和伪影，提高了生成图像的视觉感知质量。

关键词：低照度图像增强;流模型;生成对抗网络（GAN）;双向映射;复杂光照分布

6

|

5

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621953 false

发布时间：2024-01-16
几何联合分段亮度的线阵图像配准

房磊,史泽林,刘云鹏,李晨曦,赵恩波,张英迪
2024, 29(1): 80-94. DOI: 10.11834/jig.230113

摘要：目的以非平行于目标的姿态成像时，线阵相机采集的图像的几何变换规律与面阵相机不同，这导致面阵图像的几何变换模型及其直接配准方法无法实现线阵图像的配准；同时，亮度恒常假设无法解决大视场镜头引起的图像亮度衰减问题。因此，提出了一种几何联合分段亮度的线阵图像直接配准方法。方法根据线阵图像的几何变换模型和分段增益—偏置亮度模型，将线阵图像的配准问题表示为一个非线性最小二乘问题。采用高斯—牛顿法对配准问题中的几何变换参数和亮度变换参数联合进行优化；此外，针对以单位变换为初始值时配准图像存在较大几何误差致使优化不收敛，设计了一种初始值快速搜索策略。结果实验数据包含本文采集的线阵图像数据集和真实列车线阵图像。配准结果表明，采用本文方法配准后的标注点坐标均方根误差均小于1个像素，优于采用面阵图像几何变换模型的直接配准方法。算法对亮度变化具有更强的鲁棒性，提高了线阵图像配准的成功率。结论本文提出的几何联合分段亮度线阵图像配准方法可以精确、鲁棒地对齐非平行姿态线阵相机所采集的图像。

关键词：线阵相机;线阵图像;直接配准方法;几何变换;亮度变换

7

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621790 false

发布时间：2024-01-16
利用可变预测的密文域可逆信息隐藏

陈佳妮,徐达文
2024, 29(1): 95-110. DOI: 10.11834/jig.221182

摘要：目的随着云计算和云存储场景中用户隐私保护的需求日益增加，密文域图像可逆信息隐藏（reversible data hiding in encrytpted images，RDHEI）受到了广泛关注。然而大多数RDHEI算法以提升嵌入率和保障图像加密安全性为目的，复杂化图像的预处理操作。为此，提出一种基于可变预测和多MSB（most significant bit）替换的密文域图像可逆信息隐藏算法。方法提出可变预测位平面翻转策略，用相邻像素值迭代预测当前像素值的多位最高有效位。若预测值比翻转值更接近目标像素值，则当前预测位平面可以用于信息隐藏，将其比特值修改为0。同时，用位置图自适应地标记可嵌入像素点。所生成的位置图具有稀疏特征，可以使用算术编码无损压缩。最后，对预留空间后的图像进行加密，通过多MSB替换的策略嵌入隐秘信息和压缩位置图。结果经实验测试，本文算法在BOWS-2（break our watermarking system 2nd）数据集上平均嵌入率为2.953 bit/像素，并记录了1 000幅图像在预处理前后的每个位平面信息熵，其中最高位平面的信息熵比原始MSB下降了0.76，说明可变预测位平面翻转将多个高位平面翻转为0，使其处于稀疏状态，有效增加了嵌入空间。结论本文算法利用明文图像的空间相关性，对高位平面进行翻转与替换，从而为隐秘信息预留了更多的嵌入空间。所提方法可无损恢复原始图像，且无差错提取隐秘信息。

关键词：可逆信息隐藏;图像加密;可变预测;多MSB替换;自适应位置图

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621793 false

发布时间：2024-01-16

图像分析和识别

注意力引导的三流卷积神经网络用于微表情识别

赵明华,董爽爽,胡静,都双丽,石程,李鹏,石争浩
2024, 29(1): 111-122. DOI: 10.11834/jig.230053

摘要：目的微表情识别在心理咨询、置信测谎和意图分析等多个领域都有着重要的应用价值。然而，由于微表情自身具有动作幅度小、持续时间短的特点，到目前为止，微表情的识别性能仍然有很大的提升空间。为了进一步推动微表情识别的发展，提出了一种注意力引导的三流卷积神经网络（attention-guided three-stream convolutional neural network， ATSCNN）用于微表情识别。方法首先，对所有微表情序列的起始帧和峰值帧进行预处理；然后，利用TV-L1（total variation-L1）能量泛函提取微表情两帧之间的光流；接下来，在特征提取阶段，为了克服有限样本量带来的过拟合问题，通过3个相同的浅层卷积神经网络分别提取输入3个光流值的特征，再引入卷积块注意力模块以聚焦重要信息并抑制不相关信息，提高微表情的识别性能；最后，将提取到的特征送入全连接层分类。此外，整个模型架构采用SELU（scaled exponential linear unit）激活函数以加快收敛速度。结果本文在微表情组合数据集上进行LOSO（leave-one-subject-out）交叉验证，未加权平均召回率（unweighted average recall， UAR）以及未加权F1-Score（unweighted F1-score， UF1）分别达到了0.735 1和0.720 5。与对比方法中性能最优的Dual-Inception模型相比，UAR和UF1分别提高了0.060 7和0.068 3。实验结果证实了本文方法的可行性。结论本文方法所提出的微表情识别网络，在有效缓解过拟合的同时，也能在小规模的微表情数据集上达到先进的识别效果。

关键词：微表情识别;光流;三流卷积神经网络;卷积块注意力模块（CBAM）;SELU激活函数

2

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621871 false

发布时间：2024-01-16
融合ViT与对比学习的面部表情识别

崔鑫宇,何翀,赵宏珂,王美丽
2024, 29(1): 123-133. DOI: 10.11834/jig.230043

摘要：目的面部表情识别是计算机视觉领域中的重要任务之一，而真实环境下面部表情识别的准确度较低。针对面部表情识别中存在的遮挡、姿态变化和光照变化等问题导致识别准确度较低的问题，提出一种基于自监督对比学习的面部表情识别方法，可以提高遮挡等变化条件下面部表情识别的准确度。方法该方法包含对比学习预训练和模型微调两个阶段。在对比学习预训练阶段，改进对比学习的数据增强方式及正负样本对对比次数，选取基于Transformer的视觉Transformer（vision Transformer，ViT）网络作为骨干网络，并在ImageNet数据集上训练模型，提高模型的特征提取能力。模型微调阶段，采用训练好的预训练模型，用面部表情识别目标数据集微调模型获得识别结果。结果实验在4类数据集上与13种方法进行了比较，在RAF-DB（real-world affective faces database）数据集中，相比于Face2Exp（combating data biases for facial expression recognition）模型，识别准确度提高了0.48%；在FERPlus（facial expression recognition plus）数据集中，相比于KTN（knowledgeable teacher network）模型，识别准确度提高了0.35%；在AffectNet-8数据集中，相比于SCN（self-cure network）模型，识别准确度提高了0.40%；在AffectNet-7数据集中，相比于DACL（deep attentive center loss）模型，识别准确度略低0.26%，表明了本文方法的有效性。结论本文所提出的人脸表情识别模型，综合了对比学习模型和ViT模型的优点，提高了面部表情识别模型在遮挡等条件下的鲁棒性，使面部表情识别结果更加准确。

关键词：表情识别;对比学习;自监督学习;Transformer;正负样本对

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621955 false

发布时间：2024-01-16
融合注意力机制与多检测层结构的伪装目标检测

赖杰,彭锐晖,孙殿星,黄杰
2024, 29(1): 134-146. DOI: 10.11834/jig.221189

摘要：目的伪装目标是目标检测领域一类重要研究对象，由于目标与背景融合度较高、视觉边缘性较差、特征信息不足，常规目标检测算法容易出现漏警、虚警，且检测精度不高。针对伪装目标检测的难点，基于YOLOv5（you only look once）算法提出了一种基于多检测层与自适应权重的伪装目标检测算法（algorithm for detecting camouflage targets based on multi-detection layers and adaptive weight，MAH-YOLOv5）。方法在网络预测头部中增加一个非显著目标检测层，提升网络对于像素占比极低、语义信息不足这类目标的感知能力；在特征提取骨干中融合注意力机制，调节卷积网络对特征信息不足目标的权重配比，使其更关注待检测的伪装目标；在网络训练过程中使用多尺度训练策略，进一步提升模型鲁棒性与泛化能力；定义了用于军事目标检测领域的漏警、虚警指标，并提出伪装目标综合检测指数。结果实验在课题组采集的伪装数据集上进行训练和验证。结果表明，本文方法在自制数据集上的平均精度均值（mean average precision，mAP）达到76.64%，较YOLOv5算法提升3.89%；漏检率8.53%、虚警率仅有0.14%，较YOLOv5算法分别降低2.75%、0.56%；伪装目标综合检测能力指数高达88.17%。与其他对比算法相比，本文方法的综合检测能力指数仅次于最先进的YOLOv8等算法。结论本文方法在识别精度、漏检率等指标上均有较大改善，具有最优的综合检测能力，可为战场伪装目标的快速高精度检测识别提供技术支撑和借鉴参考。

关键词：伪装目标检测;非显著目标检测层;注意力机制;多尺度训练;综合检测指数

3

|

2

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47621957 false

发布时间：2024-01-16
合成数据驱动目标姿态追踪的快速收敛网络

彭泓,王骞,贾迪,赵金源,庞宇恒
2024, 29(1): 147-162. DOI: 10.11834/jig.230096

摘要：目的受遮挡与累积误差因素的影响，现有目标6维（6 dimensions， 6D）姿态实时追踪方法在复杂场景中表现不佳。为此，提出了一种高鲁棒性的刚体目标6D姿态实时追踪网络。方法在网络的整体设计上，将当前帧彩色图像和深度图像（red green blue-depth map，RGB-D）与前一帧姿态估计结果经升维残差采样滤波和特征编码处理获得姿态差异，与前一帧姿态估计结果共同计算目标当前的6D姿态；在残差采样滤波模块的设计中，采用自门控swish（searching for activation functions）激活函数保留目标细节特征，提高目标姿态追踪的准确性；在特征聚合模块的设计中，将提取的特征分解为水平与垂直两个方向分量，分别从时间和空间上捕获长程依赖并保留位置信息，生成一组具有位置与时间感知的互补特征图，加强目标特征提取能力，从而加速网络收敛。结果实验选用YCB-Video（Yale-CMU-Berkeley-video）和YCBInEoAT（Yale-CMU-Berkeley in end-of-arm-tooling）数据集。实验结果表明，本文方法追踪速度达到90.9 Hz，追踪精度模型点平均距离（average distance of model points，ADD）和最近点的平均距离（average closest point distance，ADD-S）分别达到93.24及95.84，均高于同类相关方法。本文方法的追踪精度指标ADD和ADD-S在追踪精度和追踪速度上均领先于目前其他的刚体姿态追踪方法，与se（3）-TrackNet网络相比，本文方法在6 000组少量合成数据训练的条件下分别高出25.95和30.91，在8 000组少量合成数据训练的条件下分别高出31.72和28.75，在10 000组少量合成数据训练的条件下分别高出35.57和21.07，且在严重遮挡场景下能够实现对目标的高鲁棒6D姿态追踪。结论本文网络在合成数据驱动条件下，可以更好地完成实时准确追踪目标6D姿态，网络收敛速度快，实验结果验证了本文方法的有效性。

关键词：6D姿态估计;实时追踪;合成数据;图像处理;特征融合

2

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622120 false

发布时间：2024-01-16
图像与点云多重信息感知关联的三维多目标跟踪

刘祥,李辉,程远志,孔祥振,陈双敏
2024, 29(1): 163-178. DOI: 10.11834/jig.221003

摘要：目的三维多目标跟踪是一项极具挑战性的任务，图像和点云的多模态融合能够提升多目标跟踪性能，但由于场景的复杂性以及多模态数据类型的不同，融合的充分性和关联的鲁棒性仍是亟待解决的问题。因此，提出图像与点云多重信息感知关联的三维多目标跟踪方法。方法首先，提出混合软注意力模块，采用通道分离技术对图像语义特征进行增强，更好地实现通道和空间注意力之间的信息交互。然后，提出语义特征引导的多模态融合网络，将点云特征、图像特征以及逐点图像特征进行深度自适应持续融合，抑制不同模态的干扰信息，提高网络对远距离小目标以及被遮挡目标的跟踪效果。最后，构建多重信息感知亲和矩阵，利用交并比、欧氏距离、外观信息和方向相似性等多重信息进行数据关联，增加轨迹和检测的匹配率，提升跟踪性能。结果在KITTI和NuScenes两个基准数据集上进行评估并与较先进跟踪方法进行对比。KITTI数据集上，HOTA（higher order tracking accuracy）和MOTA（multi-object tracking accuracy）指标分别达到76.94%和88.12%，相比于对比方法中性能最好的模型，分别提升1.48%和3.49%。NuScenes数据集上，AMOTA（average multi-object tracking accuracy）和MOTA指标分别达到68.3%和57.9%，相比于对比方法中性能最好的模型，分别提升0.6%和1.1%，两个数据集上的整体性能均优于先进的跟踪方法。结论提出的方法能够准确地跟踪复杂场景下的目标，具有更好的跟踪鲁棒性，更适合处理自动驾驶场景中的三维多目标跟踪任务。

关键词：点云;三维多目标跟踪;注意力;多模态融合;数据关联

2

|

1

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622203 false

发布时间：2024-01-16
遮挡条件下的步态图像时空修复网络及其应用

阳强,罗坚,黄宇琛
2024, 29(1): 179-191. DOI: 10.11834/jig.221142

摘要：目的当前，基于视觉的步态识别方法多基于完整的步态序列图像。然而，现实场景拍摄下的行人难免被遮挡，以至于获取的步态图像不完整，对识别结果有很大影响。如何处理大面积遮挡是步态识别中一个具有挑战性且重要的问题。针对此，提出了一种步态时空序列重建网络（gait spatio-temporal reconstruction network，GSTRNet），用于修复被遮挡的步态序列图像。方法使用基于3D卷积神经网络和Transformer的GSTRNet来修复步态序列，在修复每一帧步态图像的空间信息的同时保持帧与帧之间的时空连贯性。GSTRNet通过引入YOLOv5（you only look once）网络来检测步态图像的局部遮挡区域，并将其作为先验知识为遮挡修复区域分配更高的修复权值，实现遮挡区域的局部修复，将局部修复步态图与原始遮挡图像进行融合，生成完整的修复步态图。同时，在GSTRNet中引入三元组特征损失和重建损失组成的联合损失函数来优化修复网络，提升修复效果。最终，以修复完整的步态序列图像为特征进行身份识别。结果本文在大规模步态数据集OU_MVLP（the OU-ISIR gait database，multi-view large population dataset）中人工合成遮挡步态序列数据来进行修复实验。结果表明，该方法在面对步态轮廓大面积遮挡时，识别准确率比现有的步态修复和遮挡识别方法有一定的提升，如在未知遮挡模式时比三元组视频生成对抗网络（sequence video wasserstein generative adversarial network based on triplet hinge loss，sVideoWGAN-hinge）最高提升6.7%，非单一模式遮挡时比Gaitset等方法识别率提高40%左右。结论本文提出的GSTRNet对各种遮挡模式下的步态图像序列有较好的修复效果，使用修复后图像进行步态识别，可有效改善识别率。

关键词：步态识别;步态轮廓修复;先验知识;三维卷积神经网络（3DCNN）;Transformer

2

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622201 false

发布时间：2024-01-16
融合边缘与灰度特征的形变工件精准定位方法

李思聪,朱枫,吴清潇
2024, 29(1): 192-204. DOI: 10.11834/jig.221183

摘要：目的工业机器人视觉领域经常需要对一些由拼装、冲压或贴合等工艺造成的形变工件进行精准定位，工件的大部分特征表现出一定程度的非刚性，其他具备良好一致性的部分通常特征简单，导致一些常用的目标检测算法精度不足或鲁棒性不强，难以满足实际需求。针对这一问题，提出融合边缘与灰度特征的形变工件精准定位方法。方法第1阶段提出多归一化互相关的模板匹配MNCC（multi normalized cross correlation）方法检测形变目标，利用余弦距离下的灰度聚类获得均值模板，通过滑动窗口的方式，结合金字塔跟踪，自顶向下地优先搜索类均值模板，得到类匹配候选，然后进行类内细搜索获得最佳位置匹配。第2阶段提出一种改进的形状匹配方法T-SBM（truncated shape-based matching），通过改变原始SBM（shape-based matching）的梯度方向内积的计算方式，对负梯度极性方向截断，削弱目标背景不稳定导致局部梯度方向反转时对整体评分的负贡献，改善边缘稀疏或特征简单导致检测鲁棒性低的问题。最后提出二维高斯条件密度评价，将灰度特征、形状特征和形变量进行综合加权，获得理想目标评价，实现序贯检测。结果实验部分分别与SBM、归一化互相关匹配算法（normalized cross correlation，NCC）、LINE2D（linearizing the memory 2D）算法和YOLOv5s（you only look once version 5 small）算法在5种类型工件的472幅真实工业图像上进行了对比测试，在检出分值大于0.8（实际常用的阈值区间）时，提出算法的召回率优于其他几种测试算法；在IoU（intersection over union）阈值0.9时的平均检测准确率为81.7%，F1-Score为95%，两组指标相比其他测试算法分别至少提升了10.8%和8.3%。在平均定位精度方面，提出算法的定位偏差在IoU阈值0.9时达到了2.44像素，在5种测试算法中的表现也为最佳。结论提出了一种两阶段的定位方法，该方法适用于检测工业场景中由拼装、冲压和贴合等工艺制成的形变工件并能够进行精准定位，尤其适用于工业机器人视觉引导定位应用场景，并在实际项目中得到了应用。

关键词：机器视觉;目标定位;二阶段检测;归一化互相关匹配;形状匹配（SBM）

2

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622122 false

发布时间：2024-01-16

图像理解和计算机视觉

大场景双视角点云特征融合语义分割方法

孙刘杰,曾腾飞,樊景星,王文举
2024, 29(1): 205-217. DOI: 10.11834/jig.220943

摘要：目的点云语义分割在无人驾驶、城市场景建模等领域中具有重要意义，为了提升大场景条件下点云特征的提取效率，提出一种大场景双视角点云特征融合的语义分割方法（double-view feature fusion network for LiDAR semantic segmentation，DVFNet）。方法大场景双视角点云特征融合的语义分割方法由两个部分组成，分别为双视角点云特征融合模块和基于非对称卷积的点云特征整合模块。双视角点云特征融合模块将柱状体素特征与关键点全局特征相结合，减少降采样导致的特征损失；基于非对称卷积的点云特征整合模块将双视角点云特征使用非对称卷积进行处理，并使用多维度卷积与多尺度特征整合来实现局部特征优化。结果本文提出的大场景双视角点云特征融合语义分割方法，在SemanticKITTI大场景点云数据集上达到63.9%的准确率，分割精度在已开源的分割方法中处于领先地位。结论通过文中的双视角点云特征融合语义分割方法，能够实现大场景条件下点云数据的高精度语义分割。

关键词：深度学习;语义分割;点云;柱状体素;上下文信息

4

|

2

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622205 false

发布时间：2024-01-16
几何属性引导的三维语义实例重建

万骏辉,刘心溥,陈莉丽,敖晟,张鹏,郭裕兰
2024, 29(1): 218-230. DOI: 10.11834/jig.230106

摘要：目的语义实例重建是机器人理解现实世界的一个重要问题。虽然近年来取得了很多进展，但重建性能易受遮挡和噪声的影响。特别地，现有方法忽视了物体的先验几何属性，同时忽视了物体的关键细节信息，导致重建的网格模型粗糙，精度较低。针对这种问题，提出了一种几何属性引导的语义实例重建算法。方法首先，通过目标检测器获取检测框参数，并对每个目标实例进行检测框盒采样，从而获得场景中对应的残缺局部点云。然后，通过编码器端的特征嵌入层和Transformer层提取物体丰富且关键的细节几何信息，以获取对应的局部特征，同时利用物体的先验语义信息来帮助算法更快地逼近目标形状。最后，本文设计了一种特征转换器以对齐物体全局特征，并将其与前述局部特征融合送入形状生成模块，进行物体网格重建。结果在真实数据集ScanNet v2上，本文算法与现有最新方法进行了全面的性能比较，实验结果证明了本文算法的有效性。与性能排名第2的RfD-Net相比，本算法的实例重建指标提升了8%。此外，本文开展了详尽的消融实验以验证算法中各个模块的有效性。结论本文所提出的几何属性引导的语义实例重建算法，更好地利用了物体的几何属性信息，使得重建结果更为精细、准确。

关键词：场景重建;三维点云;语义实例重建;网格生成;目标检测

3

|

2

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622207 false

发布时间：2024-01-16
隐特征监督的孪生网络弱光光流估计

肖照林,苏展,左逢源,金海燕
2024, 29(1): 231-242. DOI: 10.11834/jig.230093

摘要：目的弱光照条件下成像存在信噪比低、运动模糊等问题，这对光流估计带来了极大挑战。与现有“先增强—再估计”的光流估计方法不同，为了避免在弱光图像增强阶段损失场景的运动信息，提出一种隐特征监督的弱光光流估计孪生网络学习方法。方法首先，该方法采用权重共享的孪生网络提取可映射的弱光光流和正常光照光流特征；进而，计算弱光邻帧图像的K近邻相关性卷表，以解决计算4D全对相关性卷表的高时空复杂度问题；在全局运动聚合模块中引入针对二维运动特征的注意力机制，以降低弱光条件下强噪声、运动模糊及低对比度对光流估计的不利影响。最后，提出隐特征监督的光流估计模块，采用正常光照光流特征监督弱光照光流特征的学习，实现高精度的光流估计。结果与3种最新光流估计方法的对比实验表明，在正常光照条件下，本文方法取得了与现有最佳光流估计方法相近的性能。在FCDN（flying chairs dark noise）数据集上，本文方法光流估计性能最优，相较于次优方法端点误差精度提升了0.16；在多亮度光流估计（various brightness optical flow，VBOF）数据集上，本文方法端点误差精度提升了0.08。结论本文采用权重共享的双分支孪生网络，实现了对正常光照和弱光照光流特征的准确编码，并采用监督学习方式实现了高精度的弱光照光流估计。实验结果表明，本文方法在弱光光流估计精度及泛化性方面均具有显著优势。本文代码可在https://github.com/suzhansz/LLCV-net.git下载。

关键词：光流估计;孪生网络;相关性卷表;全局运动聚合;弱光图像增强

2

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622247 false

发布时间：2024-01-16

计算机图形学

等几何连续介质弹性模型的带厚度布料仿真方法

任靖雯,戴俊飞,蔺宏伟
2024, 29(1): 243-255. DOI: 10.11834/jig.221199

摘要：目的布料仿真是计算机动画领域的一个研究热点和难点，基于粒子系统的模型快速高效却难以准确描述布料真实的物理特性，这些物理属性可以由连续介质的弹性模型利用有限元方法来实现，但所需网格单元较多，求解复杂且耗时。现有方法通常将布料建模为曲面和壳模型，对较厚布料的仿真能力较弱。针对这些常用模型在几何建模、物理真实性和仿真速度上难以兼顾的问题，提出了一种带厚度的布料仿真模型，能够更真实地表达不同厚度布料的形变行为，并利用等几何分析方法进行基于物理的快速动态仿真模拟。方法将有厚度的布料建模为三变量B样条体表示的薄板模型，利用等几何—伽辽金方法，推导出在给定边界条件下三维连续介质线弹性力学方程的弱形式，将B样条体的控制网格作为计算网格进行仿真分析，最后在隐式动力系统框架下对线性方程组直接求解。结果对本文布料模型进行了多方面的讨论和分析。首先，与几种主流的离散模型下的模拟效果进行了光滑度的对比，本文方法的NURBS（nonuniform rational B-splines）建模有着明显的光滑性优势；并在不同自由度下比较了与经典有限元连续介质模型的计算时间，结果表明模拟结果的平方根误差（root mean squared error，RMSE）小于0.04时，本文方法至多能减少90.23%的自由度和99.43%的计算时间；与同厚度面料的连续介质壳模型相比，计算时间减少约30%。其次，对于经典场景如悬布、旗帜和接触问题，实现了逼真快速的动态模拟效果。此外，还展示和讨论了控制网格的密度、基函数的阶数和物理参数等的选择对模拟效果的影响，验证了通过适当的几何参数和物理参数，使用更高分辨率的控制网格或更高阶的基函数将会促进更多的模拟细节效果。结论本文提出的等几何方法模拟的厚布料模型是同时满足仿真效果和速度基本要求的有效方法，并且样条基能保持布料的光滑度，实现了更高的动态模拟效率。

关键词：等几何分析（IGA）;有限元方法（FEM）;弹性力学;物理仿真;布料仿真

2

|

1

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622370 false

发布时间：2024-01-16

医学图像处理

融合局部与全局特征的DCE-MRI乳腺肿瘤良恶分类

赵小明,廖越辉,张石清,方江雄,何遐遐,汪国余,卢洪胜
2024, 29(1): 256-267. DOI: 10.11834/jig.230092

摘要：目的基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像（dynamic contrast-enhanced magnetic resonance imaging，DCE-MRI）检测和分类存在着准确度低、缺乏可用数据集等问题。方法针对这些问题，建立一个乳腺DCE-MRI影像数据集，并提出一种将面向局部特征学习的卷积神经网络（convolutional neural network， CNN）和全局特征学习的视觉Transformer（vision Transformer，ViT）方法相融合的局部—全局跨注意力融合网络（local global cross attention fusion network，LG-CAFN），用于实现乳腺肿瘤DCE-MRI影像自动诊断，以提高乳腺癌的诊断准确率和效率。该网络采用跨注意力机制方法，将CNN分支提取出的图像局部特征和ViT分支提取出的图像全局特征进行有效融合，从而获得更具判别性的图像特征用于乳腺肿瘤DCE-MRI影像良恶性分类。结果在乳腺癌DCE-MRI影像数据集上设置了两组包含不同种类的乳腺DCE-MRI 序列实验，并与VGG16（Visual Geometry Group 16-layer network）、深度残差网络（residual network，ResNet）、SENet（squeeze-and-excitation network）、ViT以及Swin-S （swin-Transformer-small）方法进行比较。同时，进行消融实验以及与其他方法的比较。两组实验结果表明，LG-CAFN在乳腺肿瘤良恶性分类任务上分别取得88.20%和83.93%的最高准确率（accuracy），其ROC（receiver operating characteristic）曲线下面积（area under the curve，AUC）分别达到0.915 4和0.882 6，均优于其他方法并最接近1。结论提出的LG-CAFN方法具有优异的局部—全局特征学习能力，可以有效提升DCE-MRI乳腺肿瘤影像良恶性分类性能。

关键词：乳腺肿瘤;动态对比增强磁共振成像（DCE-MRI）;视觉Transformer （ViT）;卷积神经网络（CNN）;注意力融合

2

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622305 false

发布时间：2024-01-16
采用多尺度视觉注意力分割腹部CT和心脏MR图像

蒋婷,李晓宁
2024, 29(1): 268-279. DOI: 10.11834/jig.221032

摘要：目的医学图像分割是计算机辅助诊断和手术规划的重要步骤，但是由于人体器官结构复杂、组织边缘模糊等问题，其分割效果还有待提高。由于视觉Transformer（vision Transformer，ViT）在计算机视觉领域取得了成功，受到医学图像分割研究者的青睐。但是基于ViT的医学图像分割网络，将图像特征展平成一维序列，忽视了图像的二维结构，且ViT所需的计算开销相当大。方法针对上述问题，提出了以多尺度视觉注意力（multi scale visual attention，MSVA）为基础、Transformer作为主干网络的U型网络结构MSVA-TransUNet。其采用的多尺度视觉注意力是一种由多个条状卷积实现的注意力机制，采用一个条状卷积对近似一个大核卷积的操作，采用不同的条状卷积对近似不同的大核卷积，从不同的尺度获取图像的信息。结果在腹部多器官分割和心脏分割数据集上的实验结果表明：本文网络与基线模型相比，平均Dice分别提高了3.74%和1.58%，其浮点数运算量是多头注意力机制的1/278，网络参数量为15.31 M，是TransUNet的1/6.88。结论本文网络媲美当前较先进的网络TransUNet和Swin-UNet，采用多尺度视觉注意力代替多头注意力，在减少计算开销的同时在分割性能上同样具有优势。本文代码开源地址：https://github.com/BeautySilly/VA-TransUNet。

关键词：医学图像分割;视觉注意力;Transformer;注意力机制;腹部多器官分割;心脏分割

2

|

1

|

1

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622403 false

发布时间：2024-01-16

遥感图像处理

多任务的高光谱图像卷积稀疏编码去噪网络

涂坤,熊凤超,傅冠夷蛮,陆建峰
2024, 29(1): 280-292. DOI: 10.11834/jig.221109

摘要：目的高光谱图像由于其成像机理、设备误差和成像环境等因素导致采集到的数据存在噪声。传统稀疏表示方法需要把高光谱图像划分为一系列的重叠局部图像块进行表示，通过对重叠图像块去噪结果进行平均，实现整体图像去噪。这种局部—整体去噪方法不可避免地会破坏高光谱图像空间关系，产生较差的去噪效果和视觉瑕疵。本文利用卷积算子的平移不变性，采用卷积稀疏编码（convolutional sparse coding，CSC）对高光谱图像进行整体表示，保留不同图像块之间的空间关系，提升高光谱图像去噪性能。方法将每个波段去噪看做单任务，采用卷积稀疏编码描述单波段的局部空间结构关系。通过共享稀疏编码系数，实现不同波段之间的全局光谱关联关系建模，形成多任务卷积稀疏编码模型。多任务卷积稀疏编码模型一方面可以实现高光谱图像的空间—光谱关系联合建模；另一方面，对高光谱图像进行整体处理，有效地利用图像块之间的关系，因此具有很强的去噪能力。借鉴深度学习强大的表征能力，将多任务卷积稀疏编码模型的算法迭代过程通过深度展开（deep unfolding）方式转化为端到端可学习深度神经网络，即多任务卷积稀疏编码网络（multitask convolutional sparse coding network，MTCSC-Net），进一步提升模型去噪能力和运行效率。结果在ICVL和CAVE（Columbia Imaging and Vision Laboratory）数据集上进行了仿真实验，在Urban数据集上进行了真实数据实验，并与8种方法进行比较，表明了本文算法的有效性。与传统基于图像块的稀疏去噪算法相比，在CAVE数据集上本文算法的峰值信噪比（peak signal-to-noise ratio，PSNR）提升1.38 dB；在ICVL数据集上提升0.64 dB。结论提出的多任务卷积稀疏编码网络能有效利用高光谱图像的空间—光谱关联信息，具有更强的去噪能力。

关键词：高光谱图像（HSI）;图像去噪;卷积稀疏编码（CSC）;多任务学习;深度展开

3

|

1

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 47622401 false

发布时间：2024-01-16

地址：北京市海淀区北四环西路19号中科院电子所主楼223室邮编：100190
联系电话：010-58887035/58887030/58887418 Email：jig@aircas.ac.cn
技术支持由北京北大方正电子有限公司提供京ICP备05080539号-4 京公网安备11010802024621
本系统建议在Chrome、 IE9+ 以上版本浏览器阅读本站内容，360浏览器请切换至极速模式
Cookies帮助我们提供服务并提供个性化体验。使用本网站，即表示您同意我们使用Cookies

⁰