最新刊期

    郝雯, 吕炎, 金海燕, 石争浩

    DOI:10.11834/jig.240593
    img
    摘要:目的地点识别是机器人利用实时扫描到的点云数据进行定位和自主导航的核心。现有的针对大规模点云的地点识别方法往往忽略了真实驾驶中存在的旋转问题。当查询场景发生旋转时,这些方法识别性能会显著下降,这严重阻碍了它们在复杂现实场景中的应用。因此,本文提出一种有效的面向三维点云的具有旋转感知地点识别网络(Efficient Rotation-Aware Network for Point Cloud based Place Recognition,ERA-Net)。方法首先,利用自注意机制与邻域注意力机制,在捕捉点与点之间的全局依赖关系的同时,捕捉每个点与其邻域点之间的局部依赖关系,充分提取点间的语义特征。同时,利用点与其k邻近点的坐标信息,计算距离、角度以及角度差等低维几何特征,并设计基于特征距离的注意力池化模块,通过在高维空间分析特征之间的相关性,提取具有较强区分性且具有旋转特性的几何特征。最后,将提取的语义特征以及几何特征进行有效融合,通过NetVLAD模块,产生更具判别性的全局描述符。结果将提出的ERA-Net在公共数据集Oxford Robotcar上进行验证并与最先进的方法(state-of-the-art methods,SOTA)进行比较。在Oxford数据集中,ERA-Net的Average Recall@1%指标可以达到96.48%,在University Sector(U.S.)、Residential Area(R.A.)以及Business District(B.D.)数据集上的识别效果均优于其它方法。特别的,当查询场景进行旋转时,ERA-Net的识别效果优于已有方法。结论实验结果表明,ERA-Net能够充分考虑点间的上下文信息,以及特征间的相关性,提取具有较强独特性的场景特征,在面对旋转问题时能够展现出较好的鲁棒性,具有较强的泛化能力。  
    关键词:点云场景;地点识别;旋转感知;注意力机制;特征距离   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428416 false
    更新时间:2025-03-04

    王龙标, 江宇, 王天锐, 王晓宝, 党建武

    DOI:10.11834/jig.240607
    img
    摘要:目的本文探讨了一种基于语音信息解耦策略的语音预训练大模型,旨在利用海量无标注语音数据训练模型,从中提取出语言信息、副语言信息和非语言信息,并促使各个表征相互独立。该模型能够为下游的大语言模型和生成模型提供完备且可控的语音信息,从而支持言语交互系统的研发。方法本文提出了一种基于信息解耦的自监督语音表征学习大模型方案,利用海量无标注数据,实现了高质量语音信息解耦。在编码器风格的自监督预训练策略的基础上,引入了两个轻量化模块,以增强韵律和说话人信息的提取能力。同时为避免已提取的信息干扰内容信息的学习,模型通过残差的方式将其从主分支中去除,并采用语音掩码预测机制训练主分支,以保证模型的深层特征在语言处理任务上的优越表现。通过这种方式,模型能够逐步地提取输入语音中的韵律、说话人和内容特征。通过结合多层特征并调整权重,模型能够获取适用于各类下游任务的特定特征。此外,文中提出的渐进式解码器优化了预训练大模型在语音生成任务中的适应性。结果实验结果表明,本文方法在不同数量音频训练出的两个版本模型(Base和Large),对语音识别、说话人验证、情感识别以及情感音色转换等任务中均表现出显著的优势。与HuBERT模型相比,Base版本在语音识别、说话人验证和情感识别任务中的准确率分别提高了5.65%、13.02%和2.43%;Large版本则分别提高了2.53%、5.76%和1.78%。在情感音色转换任务中,本文模型相较于基线模型ConsistencyVC和wav2vec-vc展示了更优的性能,具体表现为在说话人相似度、情感相似度、词错率和感知质量评分等指标上均有所提升,进一步验证了模型的有效性。结论这一成果通过将信息解耦思路融入自监督预训练特征提取大模型,有效提升了模型对语音信息的解析与重构能力,为言语交互大模型提供了新的研究视角与实用工具。  
    关键词:信息解耦;自监督学习;语音编解码;言语交互大模型;语音合成   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428295 false
    更新时间:2025-03-04

    邹茂扬, 伍玉兰, 高琳, 王钟渭, 陈燃

    DOI:10.11834/jig.240566
    img
    摘要:状态空间模型(state-space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间模型在医学图像处理领域的研究和应用,本文进行了全面的调查,首先对状态空间模型的发展历程和各种基于SSM的基础模型进行总结,然后按照图像分割、分类、配准和融合、重建,以及疾病预测、医学图像合成、放射治疗剂量预测任务进行分类研究,探讨了每种任务中SSM模型的改进和应用,最后讨论了状态空间模型面临的挑战和今后的研究方向。此外,本文讨论的研究及其开源实现汇编在了GitHub中,地址为:https://github.com/wyl32123/ssm-medical-paper/tree/main。  
    关键词:状态空间模型;Mamba;医学图像分割;医学图像分类;医学图像配准和融合;医学图像重建   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428186 false
    更新时间:2025-03-04

    苏兆品, 魏玉洋, 张国富, 廉晨思, 岳峰

    DOI:10.11834/jig.240686
    img
    摘要:随着文本到语音(Text To Speech,TTS)、语音转换(Voice Conversion,VC)等克隆语音技术的快速发展,如何在司法实践中准确识别克隆语音,即克隆语音是否来源于目标说话人特征,成为了一个极具挑战性的难题。虽然现有说话人识别技术可以通过声纹特征比对确认自然语音的说话人身份,但由于克隆语音不仅与目标说话人音色相似,但又包含源说话人的特点,使得传统说话人识别技术难以去除原说话人音色的干扰,难以直接应用于深度克隆语音。基于此,本文研究了一种面向克隆语音的目标说话人鉴别方法。具体来说,首先基于Res2Block设计组渐进信道融合模块(Group Progressive Channel Fusion, GPCF),以有效提取自然语音与克隆语音之间的公共有效声纹特征信息;其次,设计基于K独立的动态滤波器组(Dynamic global filter, DGF),以有效抑制源说话人的影响,提高模型表征和泛化能力;然后,设计了基于多尺度层注意力的特征融合机制,以有效融合不同层次GPCF模块和DGF模块的深浅层特征;最后,设计注意力统计池(Attentive Statistics Pooling,ASP)层,进一步增强表示特征张量中的目标说话人信息。实验在所设计的数据集上与3种较新的方法进行了比较,相对于其他3种方法,EER分别降低了1.38%、0.92%、0.61%,minDCF分别降低了0.0125、0.0067、0.0445。在FastSpeech2、TriAANVC、FreeVC和KnnVC四种语音克隆数据集的对比实验结果表明,所提方法在处理面向克隆语音的声纹认定任务时更具有优势,可以有效提取克隆语音中的目标说话人特征,为克隆语音的声纹认定提供方法指导。  
    关键词:克隆语音;声纹认定;组渐进信道融合;动态全局滤波器;多尺度层注意力机制   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428084 false
    更新时间:2025-03-04

    万航, 吴晓群

    DOI:10.11834/jig.240550
    img
    摘要:三维点云是空间中的一组数据点,主要包括刚性点云和非刚性点云,是表达物体或场景几何信息的重要数据形式,广泛应用于计算机视觉、机器人导航、自动驾驶、增强现实等领域。但是由于传感器移动、噪声遮挡等原因导致数据产生偏移、不完整和不准确等问题,给后续处理带来挑战,因此,如何实现精确、高效、鲁棒的三维点云配准显得尤为重要。点云配准是对从同一场景的不同位置采集的两个或多个三维点云进行配准的过程,需要找到源点云和目标点云之间的对应关系,然后求解他们之间的变换矩阵。经过配准后可以使点云数据能够在同一个坐标系下进行对齐,方便进行处理。本文将点云配准方法进行梳理并按照求解对应关系和求解变换矩阵进行分类,更直观地对点云配准方法进行介绍与对比。本文分别介绍了刚性点云配准方法和非刚性点云配准方法,总结了目前基于优化的学习方法与基于深度学习方法的概况,介绍了一些代表性的点云配准方法,为进一步的研究提供帮助。此外,本综述总结了基准数据集。最后,提出了今后在这一专题上可能产生的问题以及进行研究的建议。  
    关键词:三维点云;配准;刚性点云;非刚性点云;优化方法;深度学习   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85427980 false
    更新时间:2025-03-04

    胡馨悦, 石雨, 刘羽

    DOI:10.11834/jig.250028
    img
    摘要:目的阿尔茨海默症(Alzheimer's disease, AD)作为一种常见的老年性痴呆疾病,近年来已成为全球公共卫生面临的重大挑战,设计一种有效且精确的阿尔茨海默症早期诊断模型具有重要的临床意义和迫切需求。目前,阿尔茨海默症的临床诊断通常依赖于正电子发射断层扫描(Positron Emission Tomography, PET)和核磁共振成像(Magnetic Resonance Imaging, MRI)两种医学影像数据。然而,由于这两种模态间存在信息差异大,未精确配准等问题,现有的基于人工智能(Artificial Intelligence, AI)的诊断模型大多仅使用单一的MRI数据。这在一定程度上限制了多模态影像信息的充分利用和分类性能的进一步提升,制约了其临床实用性。针对上述问题,提出一种结合DenseNet和Mamba的多模态医学脑影像阿尔茨海默症早期诊断模型——DenseMamba。方法该方法以经过标准预处理流程后的PET和MRI数据为输入,预处理流程包括:颅骨剥离、配准、偏置场校正、归一化。MRI和PET级联后首先经过卷积层和激活层进行初步特征提取,提取到的特征再依次经过若干个交替的Denseblock和TransMamba模块分别进行局部和全局的特征提取,Denseblock内的密集连接结构,增强了局部特征的提取和传播,从而能够捕捉影像中的细节信息;而TransMamba模块则基于状态空间模型,高效地建模全局依赖关系,交替的Denseblock和TransMamba使得模型能够更全面地理解多模态数据信息,充分挖掘多模态数据在临床诊断任务上的潜力。最后,将提取到的特征送入分类器得到疾病预测结果。结果为验证方法的有效性,实验在公开的ADNI(Alzheimer’s Disease Neuroimaging Initiative)数据集上对其进行了评估。最终模型的准确率(accuracy)、精确度(precision)、召回率(recall)和F1值分别为92.42%、92.5%、92.42%、92.21%。DenseMamba在阿尔茨海默症分类任务中较其他算法表现优异,与现有先进的方法相比准确率提升0.42%。结论实验结果表明,与现有的基于单模态影像数据的分类方法相比,DenseMamba能够充分发挥PET和MRI数据的潜力,显著提升分类性能,为阿尔茨海默症的早期诊断提供更精准的支持。  
    关键词:阿尔茨海默症;多模态医学图像;密集连接神经网络;状态空间模型;Mamba   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85427875 false
    更新时间:2025-03-04

    程龙昊, 李常颢, 胡瑞珍, 刘利刚

    DOI:10.11834/jig.240598
    img
    摘要:目的使用低光图片训练神经渲染模型进行新视角合成无法得到正常光照条件下的图片,目标检测、语义分割等在处理低光照片时会产生明显的性能退化,面临着严峻的挑战,并且现有的方法在渲染速度和图像高频细节上存在问题。针对现有问题,本文提出一种对三维高斯泼溅模型进行低光增强的方法。方法首先利用一个轻量化的光照预测网络将三维高斯泼溅模型中三维高斯分布的颜色属性分解为物体本征颜色和光照两个部分,利用本征颜色渲染得到正常光照场景图片,同时使用多种损失函数从结构和颜色上改善图像质量;为了提高图片中高频细节的清晰度,采用固定几何的优化方案。结果实验在低光场景的新视角合成数据集LOM上与主流方法进行了比较,与现有最佳方法相比,在峰值信噪比指标上平均提升了0.12dB,在结构相似性指标(Structural Similarity Index, SSIM)上平均提升了1.3%,在学习感知图像块相似度指标(Learned Perceptual Image Patch Similarity, LPIPS)上平均提高了5.5%,训练时间仅有以往方法的1/5,渲染速度则达到以往方法的1000倍以上。结论本文所提出的方法能够更快地进行训练和渲染,同时也具有更高的图像质量,图像的高频细节和结构更加清晰,并通过全面的对比实验验证了方法的有效性与先进性。  
    关键词:低光增强;新视角合成;机器学习;神经渲染;三维高斯泼溅   
    9
    |
    8
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84439047 false
    更新时间:2025-02-27

    罗霜, 钱文华, 刘朋

    DOI:10.11834/jig.240601
    img
    摘要:目的东巴画是纳西族传统艺术的瑰宝,其画面视觉元素丰富、色彩分明,具有鲜明的地域文化特色和民族特征。针对现有图像描述方法在东巴画描述中存在的领域偏移问题,本文提出了一种结合提示学习和视觉语义-生成融合的东巴画图像描述方法。该方法引入内容提示模块和视觉语义-生成融合损失,旨在引导模型学习东巴画的主题信息,提升描述的准确性和文化表达能力。方法采用编-解码器(encoder-decoder)架构实现东巴画图像描述的生成。编码器采用卷积神经网络(convolutional neural networks,CNN)捕获图像中关键的语义信息,并将这些特征整合到解码器编码层中的归一化层,控制文本描述的生成过程。解码器采用Transformer结构实现,利用自注意力机制有效地捕捉输入序列中的长距离依赖关系,使模型关注输入序列中的关键信息。此外,本文在解码器之前引入了内容提示模块。该模块通过图像特征向量得到图像的主体、动作等信息,并将其构建成提示信息作为描述文本的后置提示。通过后置提示信息,解码器能有效地关注描述文本中具体的文化场景和细节特征,增强对东巴画特定图案和场景的识别与理解能力。同时,本文引入了视觉语义-生成融合损失,通过优化该损失,引导模型提取东巴画中的关键信息,从而生成与图像保持高度一致的描述文本。结果实验结果表明,在东巴画测试集上,本文所提方法在BLEU(bilingual evaluation understudy)_1到BLEU_4、METEOR(metric for evaluation with explicit ordering)、ROUGE(recall-oriented understudy for gisting evaluation)和CIDEr(consensus-based image description evaluation)评价指标上分别达到了0.603、0.426、0.317、0.246、0.256、0.403和0.599,东巴画图像描述文本在主观质量也得到了更好的效果。结论本文所提方法显著增强了模型对东巴画图像主题和民族文化特征的捕捉能力,有效提升了生成描述在准确性、语义关联性和表达流畅性方面的表现。  
    关键词:东巴画;图像描述;提示学习;视觉语义-生成融合;领域偏移   
    8
    |
    5
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84439005 false
    更新时间:2025-02-27

    贾迪, 刘洋, 李维, 韩雪峰, 宋慧伦, 孟晓华, 刘宇琪

    DOI:10.11834/jig.240673
    img
    摘要:目的基于点云的神经渲染方法受点云质量及特征提取的影响,易导致新视角合成图像渲染质量下降,为此本文提出一种融合局部空间信息的新视角合成方法。方法针对点云质量及提取特征不足的问题,本文首先给出一种神经点云特征对齐模块,将点云与图像匹配区域的特征进行对齐,融合后构成神经点云,提升其特征的局部表达能力。其次,提出一种神经点云Transformer模块,用于融合局部神经点云的上下文信息,在点云质量不佳的情况下仍能提取可靠的局部空间信息,有效增强了点云神经渲染方法的合成质量。结果实验结果表明,在真实场景数据集中,对于只包含单一物品的数据集Tanks and Temples,本文方法在峰值信噪比(peak signal to noise ratio, PSNR)指标上与NeRF方法相比提高19.2%,相较于使用点云输入的方法Tetra-NeRF和Point-NeRF分别提升6.4%、3.8%,即使在场景更为复杂的ScanNet数据集中,与NeRF方法及Point-NeRF相比分别提升34.6%和2.1%。结论本文方法能够更好地利用点云的局部空间信息,有效改善了稀疏视角图像输入下因点云质量和提取特征导致的渲染质量下降,实验结果验证了本文方法的有效性。  
    关键词:神经辐射场;点云;神经渲染;三维重建;体积密度   
    8
    |
    6
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84438950 false
    更新时间:2025-02-27

    魏思, 杨文璐

    DOI:10.11834/jig.240600
    img
    摘要:目的可见光-红外行人重识别(VI-ReID)因可见光与红外图像间的模态差异而面临挑战,现有方法在特征分辨力方面存在不足。本研究旨在设计一种全新算法以获取高分辨力的行人特征,弥补跨模态识别任务中的不足。方法本研究提出一种融合结构与视觉特征的VI-ReID算法,通过双流分支进行处理。首先,借助姿态估计提取骨骼关键点来生成结构特征图,通过图卷积网络(GCN)学习骨骼的结构化信息,以构建结构特征提取分支;同时,以ResNet50作为视觉提取分支获取图像视觉特征。在此基础上,提出结构-视觉跨模态注意力机制(SVIAM),融合骨骼和视觉特征,得到高分辨力的联合特征表示。此外,为增强骨骼特征的一致性,提出结构内聚损失(SCLoss)函数,持续优化骨骼特征,有效减少模态内差异,保障算法的稳定性与准确性。结果实验结果表明,所提出算法在SYSU-MM01数据集上表现卓越,相较于基线DEEN,在all search模式下,Rank-1准确率提高4.21%,mAP提高3.52%;在indoor search模式下,Rank-1准确率提高7.39%,mAP提高2.56%。结论本研究提出融合结构与视觉特征的VI-ReID算法,有效提升跨模态行人重识别的识别精度,并在复杂场景中展现较高的鲁棒性和准确性。  
    关键词:可见光-红外行人重识别;层次化特征提取;骨骼结构特征;结构-视觉跨模态注意力机制;结构内聚损失   
    7
    |
    5
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84438923 false
    更新时间:2025-02-27

    孙巍, 王乾宙, 陈雪凌, 丁晨, 闫庆森, 张磊, 张艳宁

    DOI:10.11834/jig.240775
    img
    摘要:高分辨率的视觉感知对场景的理解、分析等工作十分重要,但在真实场景下受限于拍摄条件、成像设备成本和系统光学器件、电路噪声和传感器的灵敏度等因素,图像往往伴随着各种降质因素影响,表现出模糊、低分辨率等特性。因此,挖掘和利用低分辨率图像中包含的相关信息,利用超分辨重建的方式提高成像分辨率具有十分重要的研究价值。为此,本文系统地分析了国际国内近年来在真实场景下图像超分辨重建领域的重要研究进展,包括问题构造和降质建模、超分辨领域常用数据集与评价指标、传统真实场景下超分辨重建、真实场景下基于监督学习的超分辨重建以及真实场景下基于无监督学习的超分辨重建技术等。其中,问题构造和降质建模部分讨论了降质成像过程及模型化方法。数据集与评价指标部分讨论了超分辨领域常见的合成数据集、真实场景数据集以及定量和定性评价方法。传统超分辨重建部分探讨了早期的超分辨重建方法,包括内插法和基于重建的方法等。基于监督学习的超分辨重建部分则以退化形式为区分,从退化未知与退化已知两个角度进行梳理,探讨如何利用监督信息指导模型参数学习。基于无监督学习的超分辨重建部分则从无监督角度分析讨论低分辨率图像信息的利用,以及退化模型的建模与估计。论文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了真实场景下图像超分辨技术的发展方向。  
    关键词:真实场景;超分辨重建;退化模型;有监督学习;无监督学习   
    13
    |
    8
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437942 false
    更新时间:2025-02-27

    陆霆洋, 吕凡, 周涛, 姚睿, 胡伏原

    DOI:10.11834/jig.240739
    img
    摘要:目的持续测试时适应(Continual Test-Time Adaption)旨在不使用任何源数据的情况下,使源预训练模型适应持续变化的目标域。目前持续测试时适应主要依赖于自训练方法,在基于平均教师模型框架下将数据增强后样本的预测值作为伪标签,构建一致性损失函数实现模型的自训练。然而,本文通过实验发现,现有方法中使用随机数据增强策略忽视了域间差异的重要性,导致模型稳定性和泛化性失衡等问题,使得在某些域间进行知识转移变得更具挑战性。为此,本文提出了一种面向域间差异的持续测试时适应方法,聚焦于计算机视觉领域中的图像分类任务,探讨如何通过持续测试时适应技术提升模型对新域的适应能力。方法首先,提出一种基于域间差异的弹性数据增强策略。通过构建表示域间特征风格的Gram矩阵,计算相邻域间的差异,选取合适的弹性因子控制数据增强的强度,在数据预处理层面考虑域间差异性,使模型能更好地适应域复杂多变的情况。其次,提出一种全局弹性对称交叉熵损失函数。将基于域间差异计算取得的弹性因子应用于伪标签生成以及一致性损失函数的构建中,在模型优化层面考虑域间差异性,增强模型对不同域变化下的理解和适应能力。最后,提出一种基于置信度的伪标签自纠错策略。在弹性数据增强下,强数据增强是通过对原始数据进行较大程度的变换来实现,模型在预测过程中可能面临预测偏差的问题,而弱数据增强涉及较小程度的变换,不会显著改变基本特征,模型对其预测的置信度较高。该策略利用高置信度的弱数据增强预测值对强数据增强的预测值进行自纠错,减少误差积累现象。结果本文在CIFAR10-C、CIFAR100-C和ImageNet-C三个数据集上与多种先进算法进行比较。在CIFAR10-C数据集上,本文算法相较于基线方法Cotta,错误率降低了约2.3%;在CIFAR-100数据集上,算法相较于基线方法Cotta,错误率降低了约2.7%;在ImageNet-C数据集上,算法在对比实验中错误率降低了约3.6%。同时本文在CIFAR10-C数据集中进行了消融实验,进一步验证各个模块的有效性。此外,为了符合更实际的域变化场景,本文在CIFAR100-C设计了域随机输入实验,结果显示本文的方法在域随机输入的情况下错误率低于现有方法,对比基线平均错误率降低了3.9%,证明了本文方法可以有效地评估域间关系,并部署灵活策略以提升模型对持续变化目标域的适应能力。结论本文算法平衡了模型在持续测试时适应场景中的泛化性和稳定性,并且有效减少了误差积累现象。  
    关键词:持续测试时适应;Gram矩阵;域间差异;全局对称交叉熵;弹性数据增强;伪标签自纠错;持续学习   
    8
    |
    7
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437894 false
    更新时间:2025-02-27

    张广运, 张荣庭, 张余, 王麒雄, 冯家齐, 姜鸿翔

    DOI:10.11834/jig.240778
    img
    摘要:城市3D Mesh模型解译是城市级实景三维建设的重要环节,有助于建筑设施、交通设施等城市设施的数字化和智能化、精细化管理,在城市更新、环境整治、城市仿真等城市行动中发挥积极作用。当前城市3D Mesh模型的语义化、单体化仍主要由人工勾勒实体轮廓,通过实体边界将每一个单独地物从城市3D Mesh模型中切割出来并赋予语义信息,然而城市3D Mesh模型通常是以瓦块的形式表达,在进行跨瓦块切割时容易让模型出现破碎、接缝、割裂等问题。为此,学者们开始研究基于深度神经网络的城市3D Mesh模型智能解译。然而,城市3D Mesh模型的智能解译却面临着巨大挑战,如城市3D Mesh模型不规则/非水密,传统卷积网络难以直接应用;城市3D Mesh模型多尺度特征获取困难等。虽然深度神经网络在城市3D Mesh模型解译方面的应用起步较晚,但该领域的研究依然取得了迅猛的发展。因此,本文以城市3D Mesh模型智能解译为主线,系统地回顾和总结了现有面向城市3D Mesh模型解译的深度神经网络方法,根据城市3D Mesh模型表达方式的不同,将面向城市3D Mesh模型解译的深度神经网络方法分为三类,即面向多视图表示的方法、面向质心点云表示的方法、面向3D Mesh模型元素的方法,并对这三类方法进行了详细比较和总结了当前面临的挑战;其次,梳理了城市3D Mesh模型智能解译常用的6个基准数据集,比较了多种方法在这些基准数据集中针对城市3D Mesh模型语义分割任务的性能表现;最后,对城市3D Mesh模型解译未来的发展方向和潜在应用前景进行了深入分析和讨论。  
    关键词:数字中国;实景三维;深度学习;场景解译;城市三维网格   
    6
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437857 false
    更新时间:2025-02-27

    封筠, 孟旭静, 尚玉全, 牛超凡

    DOI:10.11834/jig.240663
    img
    摘要:目的传统异常检测方法在工业产品缺陷判别中仅关注当前任务,从而导致在接受新任务训练时会灾难性地遗忘以前学过的知识。鉴于现实工业场景中对异常检测模型的灵活性和持续适应性的需求,结合连续学习方法提出一种适配器增强的双阶段连续缺陷判别方法(adapter-enhanced two-stage continual defect detection,AETS)以实现连续异常检测任务。方法首先,在AdaptFormer基础上引入外部注意力机制,增强模型对顺序任务中的全局依赖关系的捕捉能力,以提升对新任务的泛化性能。其次,在视觉转换器(vision Transformer,ViT)预训练模型的基础上结合高效微调技术,采用双阶段训练策略,即在适应阶段,通过全量微调缓解自然图像与工业图像之间的域差异;在高效微调阶段,通过适配器增强模块提升模型对新任务的适应性,同时冻结大部分参数以保留对旧任务的记忆,从而缓解灾难性遗忘问题。此外,还提出遗忘波动率(forgetting fluctuation rate, FFR)这一新的连续学习评价指标,用于量化模型在整个学习过程中遗忘波动情况,以检验模型在工业场景中的适用性和稳定性。结果在MVTec-MCIL、MVTec-SCIL和MVTec+MTD数据集上进行实验,AETS的ACC值分别达到84.21%、89.16%和78.49%,相较于5种连续学习方法,AETS具有最佳的ACC、FM值和最小的训练参数量,相较于6种先进高效微调方法其FFR值达到最佳。消融实验选取缩放因子及确定适配器增强模块结构,以实现模型可塑性与稳定性的最佳平衡。结论所提出的AETS方法通过构建适配器增强模块,充分利用预训练模型的特征表达能力,双阶段训练策略能够捕捉与任务相关的特征,显著增强模型在连续工业缺陷判别任务中的适应性和泛化性。  
    关键词:连续学习;工业产品缺陷判别;异常检测;适配器增强;双阶段训练;参数高效调整;遗忘波动率   
    3
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437819 false
    更新时间:2025-02-27

    贾迪, 何德堃, 韩雪峰, 杨柳, 程硕, 刘宇琪

    DOI:10.11834/jig.240672
    img
    摘要:目的针对目前三维人体姿态估计方法未能有效地处理时间序列冗余,难以捕获人体关节上的微小变化的问题,本文提出一种融合多关节特征的单目视觉三维人体姿态估计网络。方法在关节运动特征提取模块中,采用多分支操作提取关节在时间维度上的运动特征,并将不同特征融合形成具有高度表达力的特征表示。关节特征融合模块整合了不同关节组和中间帧的全局信息,通过矩阵内积的方式表达不同关节组在高纬度空间的相对位置及相互联系,得到中间3D姿态的初估值。关节约束模块引入中间帧的2D关节点空间位置关系作为隐式约束,与中间帧3D姿态初估值融合,减少不合理的姿态输出,提高最终3D姿态估计的准确性。结果实验结果表明,与MHFormer方法相比,本方法在Human3.6M数据集上的平均关节位置误差(mean per joint position error,MPJPE)结果为29.0mm,误差降低4.9%,在复杂动作,如SittingDown和WalkDog,误差降低了7.7%和8.2%。在MPI-INF-3DHP数据集上,MPJPE指标降低36.2%,曲线下面积(area under the curve,AUC)指标上提升12.9%,正确关节点百分比(percentage of correct keypoints,PCK)指标上提升3%。体现出,在面对复杂动作问题时,网络利用各分支提取了不同的关节时序运动特征,将不同关节组的位置信息进行融合交互,结合当前帧的关节姿态信息加以约束,得到更高的精度。在HumanEva数据集上的实验结果验证了本方法适用不同数据集,消融实验进一步验证了各个模块的有效性。结论本文提出的网络由于有效地融合了人体多关节特征,可以更好地提高单目视觉三维人体姿态估计的准确性,且具备较高的泛化性。  
    关键词:三维人体姿态估计;人体拓扑结构;多分支网络;特征融合;姿态约束   
    5
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437776 false
    更新时间:2025-02-27

    吕凡, 王亮, 李玺, 郑伟诗, 张彰, 周涛, 胡伏原

    DOI:10.11834/jig.240661
    img
    摘要:持续学习(continual learning, CL)是机器学习领域的一个关键问题,旨在使模型在不断学习新任务的同时,避免灾难性遗忘,保持对先前任务的记忆。持续学习已在多个实际应用中扮演重要角色,如自动驾驶、机器人控制和医疗诊断系统等。本文旨在为学界提供持续学习领域的最新研究进展综述,并对未来可能的研究方向进行展望。为实现持续学习中新旧知识学习的“可塑性-稳定性”平衡,国内外研究者们提出了多种方法,根据方法的发展路径可以分为传统持续训练方法和基于预训练模型的方法。首先,本文介绍了传统持续训练的关键技术和方法,包括记忆重放法、正则化法和动态结构法。记忆重放法通过将先前任务的样本存储并重放,以帮助模型回忆过去的知识。正则化法则通过对模型参数的更新进行约束,防止新任务对旧任务的干扰。动态结构法通过调整模型结构或引入新的模型模块以应对新任务的挑战,避免灾难性遗忘的发生。接着,本文进一步探讨了基于预训练模型的持续学习方法的进展。随着大规模预训练模型的广泛应用,这类预训练模型展示了强大的泛化能力和知识迁移能力。基于预训练模型的持续学习方法可以分为基于微调和基于提示的方法。微调方法可以通过冻结部分预训练模型参数,仅对特定层进行更新,或者采用学习率调节等技术,避免对预训练模型的过度修改。基于提示的方法通过设计和输入提示来引导模型处理新任务,而无需大规模调整模型参数。本文提供的实验结果建议,当前持续学习任务应优先考虑采用基于预训练模型的方法。最后,本文对当前持续学习领域的挑战与未来发展方向进行了展望,重点讨论了各种实际约束条件下,如何结合预训练模型和经典持续学习方法,构建新的架构设计和优化策略,以应对日益复杂的现实任务需求。  
    关键词:持续学习;灾难性遗忘;记忆重放;正则化;动态结构;预训练模型   
    5
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437594 false
    更新时间:2025-02-27

    李姝, 王怀远, 胡瑞敏

    DOI:10.11834/jig.240784
    img
    摘要:公共场所中的社交群体检测旨在分析监控视频数据,采用社交互动、时空位置关系或计算机视觉等技术手段去表达人类的社交行为特征,进而识别交互群体。挖掘人类的社交行为模式并识别正在交互的行人群组对于轨迹预测、群体异常活动识别、人机交互等研究领域意义重大,已成为计算机视觉领域的热门研究课题。尽管取得了一些进展,群体交互现象仍然缺乏正式的规则和精确的社会解释。且由于数据采集困难,社交群体检测面临着轻量化网络设计与小样本学习困难。在这篇文章中,我们全面回顾了现有的社交行为理解与群体检测工作:首先,我们依据不同的社交行为建模角度,将公共场所中的群体检测方法分为基于启发式规则与基于学习的方法两大类,其中重点介绍了基于空间、视觉内容、行为模式的方法与主流深度学习框架;其次,我们归纳总结了评价指标、数据集与检测性能;最后,我们讨论了当前研究所面临的挑战和局限性,以及该领域未来可能的研究方向。通过对主要期刊/会议论文的调查分析,结果表明图神经网络与Transformer等的融合模型仍是主要发展趋势,但最近的基于行为模式的方法报告了最优的检测性能。因此,如何挖掘人类的本质社交模式将极具发展潜力。同时还应探索此前未被关注的隐式交互模式挖掘:隐秘犯罪团体发现。  
    关键词:社交群体检测;社交行为理解;交互检测;F-formation;行为模式   
    3
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437556 false
    更新时间:2025-02-27

    李春升, 徐华平, 张家伟, 孙兵, 尤亚楠, 刘慧

    DOI:10.11834/jig.240771
    img
    摘要:星载合成孔径雷达(SAR)一直是空间遥感信息获取手段的主旋律之一。凭借全天时、全天候、穿透性等优势,星载SAR已成为国防建设和国民经济的重要技术支撑,在军事侦察、应急保障和信息服务等方面均具有广泛应用。星载SAR信号主要涉及回波获取、成像处理和图像应用等环节,本文以星载SAR数据链路为主线,综合分析了星载SAR领域的发展现状、前沿动态、热点问题等。首先,回顾了星载SAR系统及其数据集的发展现状,对比了国内外星载SAR系统的关键参数,梳理了不同空间分辨率、极化分式和频段的星载SAR数据集。其次,分析了成像技术体制的创新,重点阐述了星载SAR在多维度观测和高分宽幅成像方面的进展。最后,介绍了智能处理技术与SAR图像应用的融合,探讨了机器学习和深度学习在SAR数据处理和分析的潜力。本文总结了星载SAR技术的现状、未来发展趋势以及面临的主要挑战。  
    关键词:星载SAR;成像体制;成像处理;图像应用;SAR数据集   
    5
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84436841 false
    更新时间:2025-02-27

    尹继豪, 赵欣语, 崔林艳, 魏晓东

    DOI:10.11834/jig.240776
    img
    摘要:小行星是太阳系中重要的天体,保留了早期形成和演化的历史信息,可能提供地球生命与水起源的线索。自20世纪90年代以来,针对小行星的科学探测和在轨处置活动逐渐增多,成为深空探测领域的热点。在小行星抵近探测任务中,探测器在不同距离拍摄的图像数据是研究小行星表面特征和物理特性的主要来源。然而,小行星表面复杂的地貌结构、动态变化的光照条件以及探测器与目标之间不断变化的姿态,导致获取的图像数据具有高度的独特性和多样性,使传统图像处理技术在适应性上存在不足。引入图像智能技术进行自动化处理与分析,将增强小行星探测任务对深空环境的认知能力,提升科学效益和成功率。本报告将系统综述小行星抵近探测任务中图像智能处理技术的研究现状与发展趋势,围绕表面地物识别、三维形貌重建和物理特性反演三个关键方向,全面分析了现有技术的优势与局限,结合深度学习、多源数据融合等最新技术,讨论了其在小行星复杂表面环境中的适应性与应用潜力。本文还对国内外产业界和学术界的成功经验与技术路径进行了总结,剖析了当前技术在数据标准化、模型泛化性及实际任务应用中的不足。最后,探讨了未来研究的发展趋势,为推进小行星探测任务的技术创新提供参考。  
    关键词:小行星探测;图像处理;人工智能;地物识别;形貌感知;物理特性分析   
    4
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84436810 false
    更新时间:2025-02-27

    黎宇哲, 伏凌, 朱泠皞, 罗琪頔, 涂来

    DOI:10.11834/jig.240610
    img
    摘要:目的电子文档视觉问答数据生成技术旨在结合电子文档图像的文字内容与视觉信息,以生成问题及其对应答案。利用高质量的视觉指令微调数据集,可以显著提升多模态大型语言模型的文档阅读性能。目前,人工或模板方法生成的数据集存在数量不足和质量不高的问题。因此,本文设计了一种基于多模态大语言模型的电子文档图像问答数据生成方法。方法提出了一种基于多模态大型语言模型的大规模数据生成流程,该流程包括四个关键步骤:自我提问与回答、数量与格式检查、数据过滤和一致性检验。在第一阶段,通过输入电子文档图像及相应指令至多模态大型语言模型,初步生成多个问答对。第二步,进行数量与格式的检查。第三步,将合格的问答对及其对应图像和指令输入至多模态大型语言模型,以过滤掉与图像内容无关、回答错误或未使用外部知识的问答对。最后一步,针对同一问答对,利用多模态大型语言模型生成多个不同表述的问题,并检查回答的一致性,以剔除回答不一致的问答对。结果本文构建了一个高质量的数据集,包含324,546张图像和2,036,263个问答对。通过对问答对正确率的随机抽样统计,结果显示正确率为91.34%。此外,本文还在DocVQA等文档类问答数据集上测试了该数据集对多模态大语言模型性能的提升作用。微调实验结果表明,在LLaVA-OV和Deepseek-VL模型上,基于本数据集的微调能够提升DocVQA数据集上的平均归一化编辑相似度,分别提高了1.4%和2.6%。消融实验进一步表明,去除数据过滤步骤后,模型性能下降了1.3%。通过与人工标注数据DocVQA的互补性实验,结果表明,在DocVQA训练集基础上加入部分视觉问答数据集进行训练后,模型性能比仅使用DocVQA训练集微调时提升了1.3%。此外,与现有方法生成的数据集进行性能对比时,本文方法生成的数据集在模型性能提升方面表现最为显著。后续的后处理实验也进一步证明了所提出的数据集在生成问答对时仍具有一定的提升空间。结论本文提出的基于多模态大型语言模型的电子文档图片视觉问答数据生成方法,有效解决了现有数据集数量少、质量差的问题,显著提升了多模态大型语言模型的文档阅读理解能力。  
    关键词:多模态大模型;电子文档图像;视觉指令微调数据集;视觉感知理解;视觉文字   
    3
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84436315 false
    更新时间:2025-02-27
0