最新刊期

  • 王静,熊皓然,黄惠

    DOI:10.11834/jig.240508
    摘要:目的户型平面图的矢量化是一项关键技术,用于从户型平面点阵图中提取精确的结构信息,广泛应用于建筑装修、家居设计以及场景理解等领域。现有的方法通常采用两阶段流程:第一阶段利用深度神经网络提取户型区域的掩膜,第二阶段通过后处理步骤从掩膜轮廓中提取墙体的矢量信息。然而,这种方法存在误差累积问题,后处理算法难以保证鲁棒性。方法为了解决上述问题,本文提出一种基于引导集扩散模型的户型平面图矢量重建算法,该算法通过将目标检测或实例分割方法中获得的粗糙轮廓输入扩散模型,逐步迭代轮廓点进行重建。此外,本文还引入了一种轮廓倾斜度损失函数,以帮助网络生成更规整的房间布局,从而进一步提升矢量化结果的准确性。结果在公开的Cubicase5K数据集上,本文对提出的算法进行了广泛测试。实验结果表明,在不同的输入条件下,该算法均能有效优化房间轮廓的精度,显著提高了墙线矢量化的提取精度。结论本文提出的基于引导集扩散模型的矢量重建算法,通过解决传统方法中的误差累积问题,实现了室内户型平面图中墙体矢量化的精度提升。这一改进为建筑与家居设计等领域的应用提供了更为可靠的技术支持。  
    关键词:深度学习;室内户型图;生成式重建;扩散模型;户型图矢量技术   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 77880602 false
    更新时间:2024-11-29
  • 康奔,陈鑫,赵洁,王栋

    DOI:10.11834/jig.240587
    摘要:目的Transformer的出现显著提升了目标跟踪模型的精度和鲁棒性,但其二次计算复杂度使得这些模型计算量较大,难以在实际场景中应用。此外,基于Transformer的模型还会导致较高的显存消耗,限制了跟踪模型的序列级训练。为了解决这些问题,本文提出了一种基于视觉状态空间的目标跟踪模型。方法本文基于视觉Mamba框架提出了TMamba算法。与基于Transformer的目标跟踪模型相比,TMamba在实现了优越性能的同时显著降低了计算量和显存占用,为跟踪模型的序列级训练提供了新的思路。TMamba的核心模块是特征融合模块,该模块将深层特征的语义信息与浅层特征的细节信息相结合,为预测头提供更精确的特征,从而提高预测的准确性。此外,本文还提出了双图像扫描策略来弥补视觉状态空间模型与追踪领域之间的差距。双图像扫描策略联合扫描模板和搜索区域图像,使视觉状态空间模型更适配跟踪模型。结果基于所提出的特征融合模块以及双图像扫描策略本文开发了一系列基于状态空间模型的目标跟踪模型。而且在7个数据集上对所提出的模型进行了全面评测,结果显示,TMamba在降低计算量和参数量的同时,在各数据集上取得了显著的性能。例如,TMamba-B在LaSOT数据集上取得了66%的成功率,超越了大多数基于Transformer的模型,同时仅有50.7M的参数量和14.2G的计算量。结论本文提出的TMamba算法探索了使用状态空间模型进行目标跟踪的可能性。TMamba在多个数据集上以更少的参数量和计算量实现了与基于Transformer的目标跟踪模型相当的性能。TMamba的低参数量、低计算量以及低显存占用的特点,有望进一步促进目标跟踪模型的实际应用,并推动跟踪模型序列级训练的发展。  
    关键词:单目标视觉跟踪;状态空间模型;多尺度特征融合;序列训练;高效存储模型   
    19
    |
    3
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 77791831 false
    更新时间:2024-11-27
  • 吕恒烨,刘艳丽,李宏,袁霞,邢冠宇

    DOI:10.11834/jig.240505
    摘要:目的三维场景本征分解尝试将场景分解为反射率与照明的乘积,其分解结果可以用于虚拟物体插入、图像材质编辑、重光照等任务,因此受到了广泛的关注与研究。但是,分解规模较大且布局复杂的室内场景是一个高度病态的问题,获得正确的分解结果具有较高的挑战性。方法本文基于当前最先进的辐射场表示技术——三维高斯泼溅,提出了一种针对室内场景的本征分解算法,大大提高了室内场景本征分解的精度和效率。为了更好地解耦本征属性,本文基于三维高斯泼溅技术设计了一种针对室内场景的本征分解模型,将场景分解为反射率及偏移、照明和残差项,并引入了新的反射率分段稀疏、照明平滑与色度先验约束,以减少分解过程中的歧义,保证分解结果的合理性。同时本文还利用捕获的深度数据增强场景的几何信息,有利于反射率和照明能够更好地解耦,提高合成图像的质量。结果本文对来自合成数据集Replica的8个场景和真实数据集ScanNet++的5个场景进行了实验,并对分解结果进行可视化;同时本文还测试了新视角下合成图像的PSNR、SSIM、LPIPS指标。结果显示,本文方法不仅可以得到在视觉上更加合理的分解结果,并且合成图像的上述指标在Replica数据集上平均达到了34.6955、0.9654和0.0861,在ScanNet++数据集上平均达到了27.9496、0.8950和0.1444,优于以往的三维场景本征分解算法。结论与以往的工作相比,本文提出的方法能够快速分解室内场景,并支持在新视角下推理场景属性和合成高保真的图像,具有较高的应用价值。<p>目的三维场景本征分解尝试将场景分解为反射率与照明的乘积,其分解结果可以用于虚拟物体插入、图像材质编辑、重光照等任务,因此受到了广泛的关注与研究。但是,分解规模较大且布局复杂的室内场景是一个高度病态的问题,获得正确的分解结果具有较高的挑战性。</p><p>方法本文基于当前最先进的辐射场表示技术——三维高斯泼溅,提出了一种针对室内场景的本征分解算法,大大提高了室内场景本征分解的精度和效率。为了更好地解耦本征属性,本文基于三维高斯泼溅技术设计了一种针对室内场景的本征分解模型,将场景分解为反射率及偏移、照明和残差项,并引入了新的反射率分段稀疏、照明平滑与色度先验约束,以减少分解过程中的歧义,保证分解结果的合理性。同时本文还利用捕获的深度数据增强场景的几何信息,有利于反射率和照明能够更好地解耦,提高合成图像的质量。</p><p>结果本文对来自合成数据集Replica的8个场景和真实数据集NYU的3个场景进行了实验,并对分解结果进行可视化;同时本文还测试了新视角下合成图像的PSNR、SSIM、LPIPS指标。结果显示,本文方法不仅可以得到在视觉上更加合理的分解结果,并且合成图像的上述指标在Replica数据集上平均达到了34.6955、0.9654和0.0861,在NYU数据集上平均达到了28.0148、0.8651和0.1849,优于以往的三维场景本征分解算法。</p><p>结论与以往的工作相比,本文提出的方法能够快速分解室内场景,并支持在新视角下推理场景属性和合成高保真的图像,具有较高的应用价值。</p>  
    关键词:本征分解;三维高斯泼溅;室内场景分解;Retinex理论;辐射场   
    11
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 77789672 false
    更新时间:2024-11-27
  • 周才英,占新龙,魏远旺,张先超,李永刚,王超超,叶晓朗

    DOI:10.11834/jig.240314
    摘要:本综述探讨了基于人脸视频的心率变异性(heart rate variability,HRV)估计技术,突出了其在健康监测和疾病诊断中的无创性和实时监控的优势。首先,解析了HRV的生理学基础和核心参数的定义,阐明了其在医疗保健领域的应用潜力。接着,详细介绍了人脸视频采集的技术细节、数据预处理流程,重点讨论了HRV参数估计的多种方法,包括传统信号处理技术和深度学习算法。分析表明,深度学习技术在HRV估计方面因其强大的模式识别能力,能够有效提取复杂视觉特征和处理非线性生理信号,在提高估计精度方面展现出显著优势。本综述还对比了传统方法和深度学习方法在不同应用场景中的表现,指出了各自的优势与局限性,并总结了基于人脸视频HRV估计技术的实际应用案例,如健康评估、情绪识别、精神压力评估、疲劳检测和心血管疾病早期预警等。因此,本综述提出了未来研究的方向,包括降低头部运动和环境光变化的干扰、优化模型选择及减少对训练数据的依赖等,以促进HRV估计技术的发展。本综述旨在提供基于人脸视频的HRV估计技术的全面视角,为学术界和工业界的技术创新和应用拓展提供重要参考。  
    关键词:心率变异性(HRV);人脸视频;生理监测;信号处理;深度学习   
    45
    |
    24
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 77026304 false
    更新时间:2024-11-11
  • 朱仲杰,张磊,李沛,屠仁伟,白永强,王玉儿

    DOI:10.11834/jig.240559
    摘要:目的场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造成文本识别困难。为此,提出一种基于文本结构动态感知的跨模态融合超分辨率方法以提高文本图像质量和文本可读性。方法首先构建文本结构动态感知模块,通过方向感知层和上下文关联单元,分别提取文本的多尺度定向特征并解析字符邻域间的上下文联系,精准捕获文本图像的结构动态特征。其次,设计语义空间对齐模块,利用文本掩码信息促进精细化文本语义先验的生成,并通过仿射变换对齐语义先验和图像特征。在此基础上,通过跨模态融合模块结合文本语义先验与图像特征,以自适应权重分配的方式促进跨模态交互融合,输出高分辨率文本图像。结果在真实数据集TextZoom上与多种主流方法进行对比,实验结果表明所提方法在ASTER、CRNN和MORAN三种文本识别器上的平均识别精度为62.4%,较性能第二的方法有2.6%的提升。此外,所提方法的PSNR和SSIM的指标分别为21.9和0.789,分别处于第一和第二的位置,领先大多数方法。结论所提方法通过精准捕获文本结构动态特征来指导高级文本语义先验的生成,从而促进文本和图像两种模态的对齐和融合,有效提升了图像重建质量和文本可读性。<p>目的场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造成文本识别困难。为此,提出一种基于文本结构动态感知的跨模态融合超分辨率方法以提高文本图像质量和文本可读性。</p><p>方法首先构建文本结构动态感知模块,通过方向感知层和上下文关联单元,分别提取文本的多尺度定向特征并解析字符邻域间的上下文联系,精准捕获文本图像的结构动态特征。其次,设计语义空间对齐模块,利用文本掩码信息促进精细化文本语义先验的生成,并通过仿射变换对齐语义先验和图像特征。在此基础上,通过跨模态融合模块结合文本语义先验与图像特征,以自适应权重分配的方式促进跨模态交互融合,输出高分辨率文本图像。</p><p>结果在真实数据集TextZoom上与多种主流方法进行对比,实验结果表明所提方法在ASTER、CRNN和MORAN三种文本识别器上的平均识别精度为62.4%,较性能第二的方法有2.6%的提升。此外,所提方法的PSNR和SSIM的指标分别为21.9和0.789,分别处于第一和第二的位置,领先大多数方法。</p><p>结论所提方法通过精准捕获文本结构动态特征来指导高级文本语义先验的生成,从而促进文本和图像两种模态的对齐和融合,有效提升了图像重建质量和文本可读性。</p>  
    关键词:场景文本图像超分辨率;文本结构动态特征;多尺度定向特征;语义空间对齐;跨模态融合   
    56
    |
    20
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 76316101 false
    更新时间:2024-11-01
  • 符杰,刘骊,付晓东,刘利军,彭玮

    DOI:10.11834/jig.240536
    摘要:目的针对胸片X-Ray图像报告生成中图像文本的语义鸿沟、疾病种类的复杂多样以及诊断报告的偏差缺失导致的表征不精确、特征不匹配、结果不准确等问题,提出一种结合知识增强和特征对齐的胸片图像报告生成方法。方法该方法包括图像和文本特征表示、知识增强视觉特征学习和全局-局部特征对齐三个模块。首先输入胸片图像和文本报告,通过构建包含视觉和文本编码器的图像和文本特征表示模块,分别提取图像和文本的全局特征和局部特征;然后,引入胸部先验知识图谱,通过病理图知识编码进行知识增强视觉特征学习,得到融合后的增强视觉特征;最后,定义交叉注意力对图像文本的全局-局部特征和视觉-疾病标签进行跨模态特征对齐,通过多头注意力编解码生成准确的胸片图像报告。结果为了验证方法的有效性,在两个具挑战性的数据集IU X-Ray和MIMIC-CXR进行对比实验,结果表明,本文方法在IU X-Ray数据集中,BLEU-1、3、4指标分别达到了0.505、0.235和0.178,较现有大多数同任务方法有所提升;在MIMIC-CXR数据集中与其他多种方法相比,BLUE-2、3指标分别提升了0.4%和1.2%,说明本文方法具有较大优势。结论本文提出的胸片图像报告生成方法,能捕获图像和文本的细节特征,聚焦全局-局部特征以及疾病类别间的关联,提高了图像与文本的匹配度,能够生成完整准确的医学报告。<p>目的针对胸片X-Ray图像报告生成中图像文本的语义鸿沟、疾病种类的复杂多样以及诊断报告的偏差缺失导致的表征不精确、特征不匹配、结果不准确等问题,提出一种结合知识增强和特征对齐的胸片图像报告生成方法。</p><p>方法该方法包括图像和文本特征表示、知识增强视觉特征学习和全局-局部特征对齐三个模块。首先输入胸片图像和文本报告,通过构建包含视觉和文本编码器的图像和文本特征表示模块,分别提取图像和文本的全局特征和局部特征;然后,引入胸部先验知识图谱,通过病理图知识编码进行知识增强视觉特征学习,得到融合后的增强视觉特征;最后,定义交叉注意力对图像文本的全局-局部特征和视觉-疾病标签进行跨模态特征对齐,通过多头注意力编解码生成准确的胸片图像报告。</p><p>结果为了验证方法的有效性,在两个具挑战性的数据集IU X-Ray和MIMIC-CXR进行对比实验,结果表明,本文方法在IU X-Ray数据集中,BLEU-1、3、4指标分别达到了0.505、0.235和0.178,较现有大多数同任务方法有所提升;在MIMIC-CXR数据集中与其他多种方法相比,BLUE-2、3指标分别提升了0.4%和1.2%,说明本文方法具有较大优势。</p><p>结论本文提出的胸片图像报告生成方法,能捕获图像和文本的细节特征,聚焦全局-局部特征以及疾病类别间的关联,提高了图像与文本的匹配度,能够生成完整准确的医学报告。</p>  
    关键词:胸片图像报告生成;全局-局部特征表示;知识增强;特征学习;特征对齐   
    53
    |
    23
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 76314098 false
    更新时间:2024-11-01
  • 余海林,刘佳润,叶智超,陈信宇,占若豪,申屠溢醇,陆仲赟,章国锋

    DOI:10.11834/jig.240284
    摘要:目的视觉定位广泛地应用于自动驾驶、移动机器人和增强现实等领域,是计算机视觉领域的关键技术之一。现有的室内视觉定位数据集在重复纹理、对称结构和相似场景等方面不能完全反映出实际应用中的挑战,以及缺少相应指标反映视觉定位在实际应用中的问题。针对这些问题,本文提出一个基于全景相机的大尺度室内视觉定位基准数据集。方法本文选取了4种在实际应用中具有代表性的视觉定位场景,使用全景相机对选取场景进行分时段稠密采集,获取不同时间段下的室内全景数据。本文设计一种面向大尺度场景的全景建图算法对采集的数据进行高效准确地重建;同时设计一种基于建筑计算机辅助设计(computer-aided design,CAD)图的尺度恢复算法以恢复重建的真实尺度。本文通过激光测量和渲染对比方式对所提大尺度室内视觉定位数据集的精度进行定量和定性分析。此外,本文设计一种新的视觉定位算法评估指标——注册率和误定位率曲线,结合常用评估指标和本文所提指标对当前视觉定位算法进行全面地评估和分析。结果本文所提出的室内大场景视觉定位数据集总覆盖面积超过2万平米。评估结果显示当前最先进的方法在本文所提的数据集上仍有很大的提升空间。注册率和误定位率曲线反映出当前视觉定位算法无法有效地避免误定位问题,在保持较低误定位率的条件下,当前最先进算法的注册率在多个场景下不到50%。结论本文所提的室内视觉定位数据集和指标有助于更为全面地评估视觉定位算法,有助于研究人员对比和改进算法,有助于推动视觉定位在实际室内应用场景中的发展。数据集获取链接https://github.com/zju3dv/PanoIndoor。  
    关键词:视觉定位;数据集;特征匹配;位姿求解;重复纹理   
    30
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 75674563 false
    更新时间:2024-10-22
  • 潘烨,李韶旭,谭帅,韦俊杰,翟广涛,杨小康

    DOI:10.11834/jig.230639
    摘要:风格化数字人是在计算机图形学、视觉艺术和游戏设计等领域中迅速发展的一个领域。近年来,数字人物的设计和制作技术取得了显著的进步,使得数字人物能够具有更加逼真的外观和行为,同时也可以更好地适应各种艺术风格和情境。本文围绕风格化数字人任务,围绕数字人的风格化生成、多模态驱动与用户交互三个核心研究方向的发展现状、前沿动态、热点问题等进行系统性综述。针对数字人的风格化生成,从显式三维模型和隐式三维模型两种数字人的三维表达方式对于方法进行分类,其中,显式三维数字人风格化以基于优化的方法、基于生成对抗网络的方法、基于引擎的方法为主要分析对象,隐式三维数字人风格化从通用隐式场景风格化方法以及针对人脸的隐式风格化进行回顾。针对数字人的驱动,根据驱动源的不同,本文从显式音频驱动,文本驱动和视频驱动三个方面进行回顾。根据驱动实现算法的不同,本文从基于中间变量、基于编码-解码结构等方面进行回顾,此外算法还根据中间变量的不同可分为基于关键点、三维人脸和光流的方法。针对数字人的用户交互,目前主流的交互方式是语音交互,本文对于语音交互模块从自动语音识别和文本转语音合成两方面进行了回顾,对于数字人的对话系统模块,从自然语言理解和自然语言生成等方面进行了回顾。在此基础上,展望了风格化数字人研究的未来发展趋势,为后续的相关研究提供参考。  
    关键词:风格化;数字人;人脸驱动;人机交互;三维建模;深度学习;神经网络   
    29
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 75674460 false
    更新时间:2024-10-22
  • 魏然,戚晓明,何宇霆,江升,钱雯,徐怡,祝因苏,Pascal Haigron,舒华忠,杨冠羽

    DOI:10.11834/jig.240349
    摘要:目的多模态心脏磁共振(Cardiac Magnetic Resonance,CMR)图像预测非缺血性扩张型心肌病(Non-Ischemic Dilated Cardio Myopathy,NIDCM)的预后对临床中心力衰竭或心源性猝死等不同应用中发挥着重要作用。由于各个模态CMR图像对同一疾病的感兴趣区域(Regions Of Interest,ROI)不同,使得不同模态图像间的信息互补性和相关性关系复杂,导致多模态CMR图像在对NIDCM预后时表征困难。同时由于预后任务标注困难,可用于训练预后模型的有标注数据规模小,导致模型容易陷入局部最优。针对这两点挑战,提出了一种基于混合匹配蒸馏与对比互信息估计的模型,用于小样本上的多模态CMR图像对NIDCM预后。方法本文的预后模型有两种不同的设计,解决深度学习网络中多模态CMR图像的表征困难和模型容易陷入局部最优的问题。首先将不同模态CMR图像组合为不同的模态对,并提取对应的图像特征。由于不同模态对的预后目标一致而图像特征分布之间存在差异,因此设计一种混合匹配蒸馏网络,利用逻辑分布一致性将不同图像特征分布关联匹配,以此约束深度学习网络中多模态特征的提取和引导联合表征。然后在不同模态对之间设计一种互信息的对比学习策略,从而估计出多模态分布上的潜在的分类边界,以此作为预后模型的正则化项,避免模型在有限的数据上陷入局部最优。结果实验在一个NIDCM临床数据集上分别与最新的6种方法进行了比较。F1值和Acc值达到81.25%和85.61%;为了验证模型的泛化性,在一个脑肿瘤公共数据集上也分别与最新的4种方法进行了比较,F1值和Acc值达到85.07%和87.72%。结论本文所提出的基于混合匹配蒸馏与对比互信息估计的预后网络模型对多模态CMR图像进行了有效表征,同时利用多模态之间的潜在互信息增强深度学习模型在小样本场景下的模型优化,最终使得多模态CMR图像的对NIDCM预后结果更加准确。  
    关键词:对比学习;知识蒸馏;多模态心脏磁共振图像;互信息估计;预后预测   
    32
    |
    29
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 75674364 false
    更新时间:2024-10-22
  • 郑天鹏,陈雁翔,温心哲,李严成,王志远

    DOI:10.11834/jig.240259
    摘要:目的扩散模型在视频生成领域取得了非常显著的成功,目前用于视频生成的扩散模型简单易用,也更容易让此类视频被随意滥用。目前,视频取证相关的数据集更多聚焦在人脸伪造领域上,缺少通用场景的描述,让生成视频检测的研究具有局限性。随着视频扩散模型的发展,视频扩散模型可以生成通用场景视频,但目前生成视频数据集类型单一,数据量少,且部分数据集不包含真实视频,不适用于生成视频检测任务。为了解决这些问题,本文提出了包含文本到视频(text to video, T2V)和图片到视频(image to video, I2V)两种方法的多类型、大规模的生成视频数据集与检测基准。方法使用现有的文本到视频和图片到视频等扩散视频生成方法,生成类型多样,数量规模大的生成视频数据,结合从网络获取的真实视频得到最终数据集。T2V视频生成中,使用15种类别的提示文本生成场景丰富的T2V视频,I2V使用下载的高质量图片数据集生成高质量的I2V视频。为了评估数据集生成视频的质量,使用目前先进的生成视频评估方法对视频的生成质量进行评估,以及使用视频检测方法进行生成视频的检测工作。结果创建了包含T2V和I2V两类生成视频的通用场景生成视频数据集,扩散模型生成视频数据集(Diffusion generated video dataset,DGVD)并结合当前先进的生成视频评估方法EvalCrafter和AIGCBench提出了包含T2V和I2V的生成视频质量估计方法。生成视频检测基准使用了4种图片级检测方法CNNdet (CNN Detection)、DIRE(DIffusion Reconstruction Error )、WDFC(Wavelet Domain Forgery Clues)和 DIF(Deep Image Fingerprint)和6种视频级检测方法I3D(Inflated 3D)、X3D(Expand 3D)、C2D、Slow、SlowFast和MViT(Multiscale Vision Transformer),其中图片级检测方法无法对未知数据进行有效检测,泛化性较差,而视频级检测方法能够对同一骨干网络实现的方法生成的视频有较好的表现,具有一定泛化能力,但仍然无法在其他网络中实现较好的指标。结论本文创建了生成类别丰富,场景多样的大规模视频数据集,该数据集和基准完善了生成视频检测任务在此类场景下数据集和基准不足的问题,有助于促进生成视频检测领域的发展。论文相关代码:https://github.com/ZenT4n/DVGD  
    关键词:视频生成;扩散模型;生成视频检测;提示文本生成;视频质量评估   
    29
    |
    17
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 75674294 false
    更新时间:2024-10-22
  • 宋霄罡,张鹏飞,刘万波,鲁晓锋,黑新宏

    DOI:10.11834/jig.240042
    摘要:目的图像超分辨率重建是计算机视觉领域内的基础任务。卷积神经网络通过滑动窗口机制和参数共享特性能够有效的提取局部特征,但对图像远距离信息的感知能力较弱。Transformer中的自注意力机制可以更好地捕捉序列中的全局依赖关系,但同时会带来高额计算资源占用的问题。方法为了解决这些问题,本文提出了一种基于多尺度大核注意力特征融合网络的超分辨率重建方法MLFN,该网络采用多路径结构学习不同的水平特征表示,从而增强网络的多尺度提取能力。此外,设计了一种多尺度大核可分离卷积块,它兼顾了自注意力机制强大的全局信息捕捉能力和卷积强大的局部感知能力,能更好地提取全局特征与局部特征。同时,在末端加入了轻量级的标准化注意力模块,在进一步增强模型性能的同时,实现了网络模型的轻量化设计。结果基于5个公开测试数据集,与11种代表性方法进行了实验对比,结果表明本文方法在不同放大倍数下均有最佳表现,所提MLFN比信息多重蒸馏网络(IMDN)的PSNR平均提升0.2dB,重建图像在视觉上具有明显优势。结论本文提出了一种基于多尺度大核注意力特征融合网络的超分辨率重建方法,借助精心设计的多尺度大核可分离卷积块,有效提高了网络的长距离关系建模能力,利用多路提取块引入多尺度特征进一步提高重建精度,引入标准化注意力模块在实现性能提升的同时维持较低的计算资源消耗。  
    关键词:图像超分辨重建;大核可分离卷积;注意力机制;特征融合;多路学习   
    38
    |
    24
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864739 false
    更新时间:2024-10-16
  • 刘英莉,茶寅秋,黄一山,高明

    DOI:10.11834/jig.240302
    摘要:目的膝关节前交叉韧带(anterior cruciate ligament,ACL)损伤的及时诊断是降低骨关节炎等风险的方式。作为ACL损伤判别的常用影像学方法,三维磁共振成像(magnetic resonance imaging,MRI)相较于二维自然图像细节更繁杂,医生诊断所需时间长,智能辅助医疗是有益的。目前应用三维卷积神经网络(3D convolutional neural networks,3D CNNs)的ACL损伤分类算法存在计算成本大且数据使用不充分的问题,而基于二维卷积神经网络(2D convolutional neural networks,2D CNNs)的方法则忽略了第三维度的相关性和ACL的形态多样性。针对上述问题,提出一种嵌入切片序列关联模式的网络(slice sequence association mode network,SSAMNet)。方法SSAMNet通过设计切片序列信息融合(slice sequence information fusion,SFS)模块从MRI数据的邻近、全量切片中并行学习序列性质,建立切片特征映射中的关联模式,整合切片信息。借助多级尺度特征自适应关注(multi-level scale feature adaptive attention,MSFAA)模块,对不同关联尺度权重再分配,以适应ACL区域形状和位置表征多变的特性。结果在MRNet数据集的实验中,模型的AUC(area under curve)值达到98.4%,相较于其它的ACL损伤分类算法性能最优,准确性及特异性指标也分别达到了91.4%和97%的最优值。在kneeMRI数据集上进行五折交叉验证实验后,SSAMNet的AUC平均值最高,ROC(receiver operating characteristic curve)曲线始终保持着平稳的趋势。可视化结果也表明提出的方法可以有效关注病变区域。结论针对ACL损伤分类任务,所提模型性能优异且具有鲁棒性,存在临床应用价值。代码开源地址:https://github.com/wabk/SSAMNet。  
    关键词:磁共振成像(MRI);3D图像分类;切片特征聚合;自适应尺度注意力;2D CNNs   
    9
    |
    13
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864707 false
    更新时间:2024-10-16
  • 潘永生,马豪杰,夏勇,张艳宁

    DOI:10.11834/jig.240459
    摘要:医学影像是一种利用各种成像技术来捕捉人体内部结构和功能的医学诊断方法。这些技术可以提供关于人体解剖、生理和病理状态的视觉信息,在疾病诊断、治疗和预后预测中发挥着重要的作用。由于不同类型或者子类型的医学影像反应患者身体的不同信息,在医疗诊断时往往需要多种不同类型或者子类型的医学影像来获取更加全面的信息从而提高诊断准确率。然而在现实生活中,多模态影像数据获取面临着采集时间长、费用高、可能增加辐射剂量等困难。因此,人们期待能够使用图像处理技术进行跨模态医学影像合成,即使用某一种或一些模态的医学影像去生成另一种或一些模态的医学影像。跨模态医学影像合成虽然能为多模态影像诊断带来便利,但也存在一些技术挑战。例如合成影像和真实影像在诊断性能上具有明显的差异从而导致合成影像的临床失效问题,隐私和伦理问题会导致高质量多模态医学影像数据获取成本高的问题。同时,由于不同模态的影像数据在分辨率、对比度和图像质量上存在一定的差异,这种差异会影像生成模型在生成过程中的一致性,如何解决不同模态之间的数据不一致性也是跨模态医学影像合成所需要面临的挑战。研究者们大多从模型本身入手,通过提高模型的表示能力或者设计针对具体任务的约束条件来提高合成影像的质量,所开发的跨模态医学影像合成技术已应用于影像采集、重建、配准、分割、检测、诊断等环节,给许多问题带来了新的解决思路和方法。本文主要介绍医学图像领域中跨模态图像合成技术和跨模态医学影像合成的应用。  
    关键词:人工智能;医学影像;跨模态图像生成;深度学习   
    22
    |
    11
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864676 false
    更新时间:2024-10-16
  • 周文俊,杨新龄,左承林,王一帆,彭博

    DOI:10.11834/jig.240343
    摘要:结冰风洞是地面试验的关键设备,可模拟云雾环境,对研究结冰对飞机性能的影响极为重要。但云雾环境会降低图像质量,这不仅阻碍了对结冰过程的细致观察,还减少了结冰检测与分析的准确度。本文提出了一种新的图像去雾方法——多尺度特征融合生成对抗网络(multi-scale feature fusion generative adversarial network, MSFF-GAN),旨在改善结冰风洞云雾环境下的图像质量,提高研究精度。通过利用生成对抗网络的能力,MSFF-GAN高效去除结冰风洞图像的雾,核心在于其生成器的特征融合和增强策略。特征融合模块通过反投影技术精准融合了图像多尺度特征,增强策略模块通过简洁网络结构细化中间结果,优化图像质量。本文还设计了一种先验特征融合模块,有效整合至网络中。此外,通过多尺度判别器策略获得全面上下文信息,显著提升视觉质量。同时,采用多重损失函数共同优化去雾模型,确保最优去雾效果。在六种结冰风洞云雾场景下,对比实验了本文提出的MSFF-GAN去雾方法与其他传统及深度学习方法。实验结果显示,结冰风洞云雾环境下MSFF-GAN生成的去雾图像更清晰,去雾效果更显著,且在相关评价指标上表现优异。MSFF-GAN在结冰风洞云雾环境中展示出卓越的去雾效果和良好的泛化性,为结冰风洞图像的清晰化处理提供了新思路,有望为飞机结冰与防除冰研究提供更精准、可靠的机翼结冰图像数据。  
    关键词:结冰风洞;云雾环境;机翼结冰图像去雾;生成对抗网络;多尺度特征融合   
    53
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864630 false
    更新时间:2024-10-16
  • 万奥,高红铃,周晓,薛峥,牟新刚

    DOI:10.11834/jig.240293
    摘要:目的经颅超声成像技术作为高效率、低成本且无创的诊断手段,已逐步应用于帕金森病患者认知功能障碍诊断。由于经颅超声图像信噪比低、成像质量差、目标组织复杂且相似度高,需要依赖专业医生手动检测。但是人工检测不仅费时费力,还可能因为操作者的主观因素影响,造成检测结果出现差异性。针对这一问题,本文提出了一种基于Swin Transformer和多尺度深度特征融合的YOLO-SF-TV(YOLO network based on Swin Transformer and multi-scale deep feature fusion for third ventricle)模型用于经颅超声图像三脑室检测,以提高临床检测准确率,辅助医生进行早期诊断。方法YOLO-SF-TV模型在YOLOv8的基础上使用基于窗口注意力的Swin Transformer作为模型特征提取网络,并引入空间金字塔池化合模块SPP-FCM(spatial pyramid pooling fast incorporating CSPNet and multiple attention mechanisms)扩大网络感受野,并增强多尺度特征融合能力。在网络的多尺度特征融合部分结合深度可分离卷积和多头注意力机制,提出了PAFPN-DM(path aggregation and feature pyramid network with depthwise separable convolution)模块,并对主干特征输出层增加多头注意力机制,以提高网络对不同尺度特征图中全局和局部重要信息的理解能力。与此同时,将传统卷积替换为深度可分离卷积模块,通过对每个通道单独卷积提高网络对不同通道敏感性,以保证模型准确度的同时降低训练参数和难度,增强模型的泛化能力。结果实验在本文收集的经颅超声三脑室图像数据及对应标签的数据集下进行,并与典型的目标检测模型对比实验。结果表明,本文提出的YOLO-SF-TV在经颅超声三脑室目标上mAP能够达到98.69%,相比于YOLOv8提升了2.12%,并与其他典型模型相比检测精度达到最优。结论本文提出的YOLO-SF-TV模型在经颅超声图像三脑室检测问题上表现优秀,SPP-FCM模块和PAFPN-DM模块可以增强模型检测能力,提高模型泛化性和鲁棒性,同时本文制作的数据集将有助于推动经颅超声三脑室图像检测问题的研究。  
    关键词:经颅超声成像;计算机辅助诊断;三脑室;深度学习;YOLOv8;Swin Transformer   
    30
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864592 false
    更新时间:2024-10-16
  • 刘草,曹婷,康文雄,蒋朝辉,阳春华,桂卫华,梁骁俊

    DOI:10.11834/jig.240389
    摘要:从单个视图恢复物体三维结构信息是计算机视觉领域的重要课题,在工业生产、医疗诊断、虚拟现实等领域发挥重要作用。传统单视图三维物体重建方法需要结合几何模板和几何假设以完成特定场景对象的三维重建任务。而当前基于深度学习的单视图三维物体重建方法通过数据驱动的方式,在重建对象适用范围和重建模型鲁棒性等方面取得进展。本文首先讨论近年来单视图三维物体重建领域常用的数据集与评价指标。然后围绕基于深度学习的单视图三维物体重建领域,对有监督学习单视图三维物体重建、无监督学习单视图三维物体重建和半监督学习单视图三维物体重建等相关研究工作进行系统性的分析和总结。最后,对基于深度学习的单视图三维物体重建方法未解决难题进行总结,并展望未来可能的发展趋势与关键技术。  
    关键词:深度学习;三维物体重建;单视图;有监督学习;无监督学习;半监督学习   
    16
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864524 false
    更新时间:2024-10-16
  • 刘敏,秦敦璇,韩雨斌,陈祥,王耀南

    DOI:10.11834/jig.240385
    摘要:目的机器人辅助腹腔镜手术指的是临床医生借助腔镜手术机器人完成外科手术。然而,腔镜手术在密闭的人体腔道完成,且分割目标的特征复杂多变,对医生的手术技能有较高要求。为了辅助医生完成腔镜手术,本文提出了一种高精度的腔镜手术场景分割方法,并搭建分体式腔镜手术机器人对所提出的方法进行了验证。方法首先,本文提出了多尺度动态视觉网络(multi-scale dynamic visual network, MDVNet)。该网络采用编码器-解码器结构。在编码器部分,动态大核卷积注意力模块(dynamic large kernel attention module, DLKA)可以通过多尺度大核注意力提取不同分割目标的多尺度特征,并通过动态选择机制进行自适应的特征融合。在解码器部分,低秩矩阵分解模块(low-rank matrix decomposition module, LMD)引导不同分辨率的特征图进行融合,可以有效滤除特征图中的噪声。边界引导模块(boundary guided module, BGM)可以引导模型学习手术场景的边界特征。最后,本文展示了基于Lap Game腹腔镜模拟器搭建的分体式腔镜手术机器人,网络模型的分割结果可以映射在手术机器人的视野中,辅助医生进行腔镜手术。结果MDVNet在三个手术场景数据集上取得了最先进的结果,平均交并比分别为51.19%、71.28%和52.47%。结论本文提出了适用于腔镜手术场景分割的多尺度动态视觉网络MDVNet,并在搭建的分体式腔镜手术机器人上对所提出方法进行了验证。本文代码开源地址:https://github.com/YubinHan73/MDVNet。  
    关键词:腔镜手术机器人;语义分割;大核卷积;低秩分解;边界分割   
    9
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864479 false
    更新时间:2024-10-16
  • 鲍泓,郑颖,梁天骄

    DOI:10.11834/jig.240108
    摘要:目的机器如何同人一样具有认知能力,认知能力可用智能度量,人的智能是认知过程的涌现,我们从认知的模型出发研究其结构,结构决定机器的认知功能。本文旨在探讨机器认知的模型和构建方法,为设计新一代认知机器提供新的结构和方法论。方法本文用分析、归纳和演绎的方法综述认知机器模型和结构的起源、演进与发展趋势。首先,从20世纪初以来计算机器的发明和DNA双螺旋结构模型的发现谈起,阐述了“图灵机模型+冯·诺依曼结构”划时代意义的科学研究成果的形成,这一模型和结构催生了通用计算机器的发明,并对计算机科学与技术等新学科的形成起到奠基作用;此后,图灵的天问“机器能思维吗”及 “图灵测试”对后来建立人工智能有重大启示和影响;然后评述近二十年来 “深度学习模型+卷积神经网结构”以及 “大模型+转换器结构”等的里程碑式进展和存在的问题;在最新进展部分综述当前国内外有代表性的三位科学家提出的模型和结构:“世界模型”、“空间智能”和“认知螺旋”,特别是李德毅创立的认知物理学为机器认知提供了统一的理论框架,构成了机器认知的四种基本模式--认知螺旋结构模型和OOXA结构链,讨论了认知核、洋葱模型和负熵概念,以驾驶脑认知为案例进行实验验证;最后,展望了本领域未来研究和发展趋势。结论模型定义了机器思维的约束边界,结构决定机器的涌现性,通过模型+结构的研究方法和评价,为解决“机器如何像人一样思维”这样的人工智能重大问题提供了一种研究思路和范式。  
    关键词:认知机器;认知物理学;认知核;模型;结构;涌现;负熵   
    9
    |
    11
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864441 false
    更新时间:2024-10-16
  • 王俊杰,李伟,张蒙蒙,高云浩,赵伯禹

    DOI:10.11834/jig.240228
    摘要:目的卷积神经网络(CNN)因其强大的特征归纳和学习能力,在遥感场景分类任务中收获了广泛的关注。然而,由于卷积采取的是一种局部归纳机制,这阻碍了全局依赖关系的获取,并限制了模型的性能。而视觉transformer(ViT)的核心在于自注意力机制,它能够建立全局依赖关系,这一属性可以缓解基于卷积神经网络算法的局限性。然而,自注意力机制也带来了更大的计算代价:在计算成对的key-value之间的交互关系时,它需要在所有空间位置上进行相关计算,从而带来巨大的计算压力和内存负担。此外,自注意机制关注于建模全局信息,而忽略了局部特征细节。为了解决上述问题,本文提出了一种全局-局部特征耦合网络用于遥感场景分类。方法本文方法分为两个方面。一方面为了缓解自注意力机制所带来的计算压力,本文提出了一种双粒度注意力来动态感知数据内容,从而实现更灵活的计算分配。另一方面,为了更好地结合全局和局部特征,本文利用了一种自适应耦合模块来实现全局和局部特征的融合。结果本文在UCM、AID和NWPU-RESISC45三个数据集上进行了实验。为了更好地展示本文所提出方法的优越性,与当前先进的基于卷积神经网络和基于视觉transformer的方法进行了对比,在不同的训练比率下,本文所提出方法在三个数据集上分别取得了99.71%(UCM数据集),94.75%(AID数据集训练比率20%),97.05%(AID数据集训练比率50%),92.11%(NWPU-RESISC45数据集训练比率10%)以及94.10%(NWPU-RESISC45数据集训练比率20%)的最优分类表现,相较于其他对比方法分别拥有了至少0.14%,0.06%,0.27%,0.43%以及0.21%的效果提升。结论本文所提出的方法不仅缓解了自注意力机制中沉重的计算和内存负担,同时将局部细节特征与全局信息相结合,有效提升了模型的特征学习能力。  
    关键词:场景分类;遥感图像;全局和局部特征;耦合模块;注意力机制   
    12
    |
    14
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864373 false
    更新时间:2024-10-16
  • 谭臻,牛中颜,张津浦,陈谢沅澧,胡德文

    DOI:10.11834/jig.240443
    摘要:同步定位与建图(Simultaneous Localization and Mapping, SLAM)是指在未知环境中同时实现自主移动机器人的定位和环境地图构建的问题,其在机器人技术和自动驾驶等领域有着重要价值。本文首先回顾了SLAM技术的发展历程,从早期的手工特征提取方法到现代的深度学习驱动的解决方案。其中,基于神经辐射场(Neural Radiance Fields, NeRF)的SLAM方法利用神经网络进行场景表征,进一步提高了建图的可视化效果。然而,这类方法在渲染速度上仍然面临挑战,限制了其实时应用的可能性。相比之下,基于高斯溅泼(Gaussian Splatting, GS)的SLAM方法以其实时的渲染速度和照片级的场景渲染效果,为SLAM领域带来了新的研究热点和机遇。接着,文中按照RGB/RGBD、多模态数据以及语义信息三种不同应用类型对基于高斯溅泼的SLAM方法进行了分类和总结,并针对每种情况讨论了相应SLAM方法的优势和局限性。最后,针对当前基于高斯溅泼的SLAM方法面临的实时性、基准一致化、大场景的扩展性以及灾难性遗忘等问题进行分析,并对未来研究方向进行了展望。通过这些探讨和分析,旨在为SLAM领域的研究人员和工程师提供全面的视角和启发,帮助分析和理解当前SLAM系统面临的关键问题,推动该领域的技术进步和应用拓展。  
    关键词:同步定位与建图(SLAM);神经辐射场(NeRF);高斯溅泼;RGB-(D);多模态;语义信息   
    29
    |
    23
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 74864296 false
    更新时间:2024-10-16
0