最新刊期

    马愈卓, 张永飞, 贾伟, 刘家瑛, 甘甜, 杨文瀚, 卓君宝, 刘武, 马惠敏

    DOI:10.11834/jig.250085
    img
    摘要:大规模图像和视频数据集是驱动计算机视觉算法发展的核心要素。面向计算机视觉任务,构建大规模图像和视频数据集是一项重要但复杂的任务。基于生成对抗网络和扩散模型等数据生成方法可以可控的生成大规模、多样性的图像和视频数据,有效替代或弥补真实图像和视频数据集,为计算机视觉技术领域的发展提供了新的动力。本综述论文在对面向计算机视觉的图像和视频数据生成与应用背景简介的基础上,首先从以几何变换等为代表的传统数据增广和生成、以虚拟引擎和神经辐射场等为代表的基于三维渲染的数据生成方法、以生成对抗网络和扩散模型等为代表的基于深度生成模型的生成方法等三方面系统调研了典型的图像和视频数据生成技术与模型;其次,梳理了典型的图像和视频数据生成技术与模型在图像增强、目标检测跟踪与姿态动作识别等个体分析、基于图像和视频的生物特征识别、人员计数与人群行为分析等群体行为分析、自动驾驶、视频生成、具身智能等典型计算机视觉相关任务中的应用;最后分析了面向计算机视觉的数据生成与应用中存在的问题,并展望了未来发展趋势,以期促进图像和视频数据生成及计算机视觉技术的发展。  
    关键词:计算机视觉;数据生成与应用;传统数据生成;三维渲染;深度生成模型;图像增强;个体分析;生物特征识别;群体分析;自动驾驶;视频生成;具身智能   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037880 false
    更新时间:2025-03-26

    何明一, 李强, 郭英, 闫红梅

    DOI:10.11834/jig.250045
    img
    摘要:本论文结合国内外发展动态和团队三十余年高光谱图像分类研究实践,深入探讨、综述了高光谱图像分类的研究进展与未来发展趋势。从新的视角将多光谱和高光谱图像分类方法划分为四类:1. 传统方法,即特征提取加常规分类器的方法;2. 常规学习方法,即特征提取加常规学习分类器的方法;3. 深度学习方法,即基于深度学习的端对端自动特征挖掘与分类的方法;4. 数据与知识融合驱动的方法,即深度学习方法与领域知识和特征融合的方法。其中,第2至第4类方法统称为智能分类方法,是本文的主题。本文是国内外迄今第一篇高光谱图像智能分类研究综述论文。论文首先回顾并梳理了高光谱图像分类的背景和发展历程,介绍了为高光谱图像分类研究和验证测试提供基础的代表性高光谱卫星和高光谱数据集。接着,重点围绕特征挖掘和分类器两个核心方向,分别介绍了高光谱图像特征挖掘、传统分类方法、常规学习分类方法和深度学习分类方法,列举了若干代表性模型、方法及其应用案例。最后,讨论了该领域目前仍存在的问题和挑战,并对未来发展方向进行了讨论:数据与知识联合驱动的深度学习方法成为热点,多尺度、多分辨率、多特征、多分类器的有效融合是提高高光谱图像分类精度的重要途径,小样本学习、零样本迁移学习以及轻量化、有限精度神经网络在星载高光谱图像应用值得重视。研究表明:本文对高光谱图像分类方法的四类划分体现了技术的发展历史、当前重点和未来趋势,其中数据与知识融合的高光谱图像分类(即第4类方法)是对高光谱图像分类前沿研究方向的洞见,对未来研究和应用具有重要指导意义。  
    关键词:高光谱图像;智能分类;特征挖掘;神经网络;深度学习   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037817 false
    更新时间:2025-03-26

    丁维龙, 邓戎戎, 徐利锋, 汪春年, 祝行琴, 郑魁

    DOI:10.11834/jig.240691
    img
    摘要:目的在组织病理切片制备过程中,不可避免地会产生伪影,可能严重影响病理医生诊断准确性及计算机辅助诊断系统效能。现有伪影分类算法在处理相似伪影时,因缺乏全局分布规律学习能力,导致分类准确度并不理想。为此,本文提出了一种改善病理图像伪影多分类的局部与全局信息交互融合网络MoLiNet(mobile linear net)方法首先,构建了一个基于HSV颜色域的边缘检测模块以增强对裂缝的关注。然后在双分支架构的基础上,结合门控线性单元(gated linear unit,GLU)与移动倒残差瓶颈卷积模块(mobile inverted bottleneck convolution,MBConv)构建出一种新型前馈层,以自适应地筛选出关键特征,同时提高整体计算效率。此外,还提出了线性聚焦交叉注意力,以对全局特征和局部特征进行充分交互,从而增强特征表达能力。结果本文提出的网络在分类精度和计算效率方面均超越同类先进方法。在NCPDCSAD(ningbo clinical pathology diagnosis center similar artifact dataset)数据集测试中,我们的模型取得了94.24%准确率(Accuracy),超越了专门用于伪影分类的DKL网络。另一方面,本文构建的网络在参数量(Params)和计算量(Flops)上相较于DKL分别减少了80.91%和96.94%。此外,通过热力图可视化分析,进一步验证了本文提出的伪影分类网络对伪影特征具有敏锐捕捉能力。结论本方法不仅能够有效地区分组织病理切片中相似伪影,而且在计算资源消耗上实现了显著降低。这一研究成果为病理图像质量评估领域带来了一种有效解决方案。  
    关键词:数字病理切片;伪影分类;注意力机制;特征融合;轻量级   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037781 false
    更新时间:2025-03-26

    董闯, 栗伟, 巴聪, 覃文军

    DOI:10.11834/jig.240747
    img
    摘要:视频在人们日常生活中扮演重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联合嵌入空间的视频文本检索工作进行系统梳理和综述,以便认识和理解视频文本检索的发展。首先从基于联合嵌入空间的视频文本检索的四个步骤:视频特征表示提取、文本特征表示提取、视频文本特征对齐以及目标函数出发,对现有工作进行分类分析,并阐述不同类型方法的优缺点。接着从实验的角度给出视频文本检索的基准数据集和评价指标,并在多个常用数据集上比较典型模型的性能。最后讨论视频文本检索的挑战及发展方向。  
    关键词:视频文本检索;联合嵌入空间;特征提取;特征对齐;多模态   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037750 false
    更新时间:2025-03-26

    刘烨斌, 苏昊, 高林, 弋力, 王鹤, 廖依伊, 施柏鑫, 曹炎培, 洪方舟, 董豪, 张举勇, 王鑫涛, 许华哲, 杨蛟龙, 康炳易, 楚梦渝, 孙赫, 陈文拯, 马月昕, 张鸿文, 郭裕兰, 周晓巍, 章国锋, 韩晓光, 戴玉超, 陈宝权

    DOI:10.11834/jig.250057
    img
    摘要:三维视觉作为计算机视觉、图形学、人工智能与光学成像的交叉学科,是构建具身通用智能与元宇宙的核心基石。2024年,以NeRF和高斯泼溅为代表的可微表征技术持续发展和完善并逐渐突破传统三维重建边界,无论从微观细胞组织到宏观物理天体,还是从静态场景到动态人体,均取得了显著的精度提升;在生成式人工智能技术和大模型规模定律(Scaling Law)的推动下,三维视觉迎来了从优化到可泛化前馈生成的范式跃迁,并在可控数字内容生成方向取得了重要进展和突破;具身智能持续备受关注,研究者们逐渐意识到三维虚拟仿真数据和三维人体运动数据的捕捉和生成,是训练具身智能的核心关键;随着世界模型和空间智能的概念成为科技界热议的焦点,对物理世界进行建模、对空间关系进行理解、对未来状态进行预测成为了重要的研究方向,而这些都离不开三维视觉技术的支撑;此外,计算成像技术的革新则通过非传统视觉传感器与新型重建算法,突破了传统三维重建的物理限制与性能瓶颈。这些技术突破正在推动三维视觉进入"感知-建模-生成-交互"全链路智能化、规模化学习的新阶段。为促进学术交流,本文分析总结三维视觉领域前沿趋势,并遴选年度十大研究进展,为学术界与产业界提供参考观点。  
    关键词:三维视觉;具身智能;三维表征;三维生成;三维重建   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037678 false
    更新时间:2025-03-26

    栗青生, 倪婷, 罗欣, 郑嘉雯, 杨帆, 张莉, 潘志庚, 王美丽

    DOI:10.11834/jig.250033
    img
    摘要:随着虚拟现实技术与文旅产业的快速发展,文化遗产数字化及数字文旅可视化服务逐渐受到重视。本文旨在围绕文化遗产数字化与数字文旅可视化服务技术研究进展深入研讨。首先,分析了人工智能深度学习技术在文化遗产数字资源采集、存储、融合、共享等方面的研究现状及挑战。接着,结合文化遗产的文旅应用,探讨数字技术如何推动文化遗产保护向数字化、智能化转型,特别是高精度三维扫描、虚拟现实(VR)和增强现实(AR)等技术在数字文旅可视化服务和个性化推荐中的应用及其挑战。然后,梳理了文化遗产数字化与可视化服务技术在文旅融合服务平台建设方面的应用的现状与趋势,并分析了人工智能、大模型应用、机器学习等在平台建设中的赋能作用,为文化遗产的数字化保护与传播提供了理论与实践支持。最后,总结了AI赋能文化遗产数据处理的技术,指出随着人工智能与大数据技术的崛起,数字文旅服务成为文化产业与旅游产业融合的关键力量,文旅融合服务平台将推动文化遗产数据的智能分析、预测性保护和多场景应用,进一步推动文化遗产数字化及文旅可视化技术的个性化、可持续发展。  
    关键词:文化遗产;数字化技术;文旅融合;人工智能;可视化服务   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037635 false
    更新时间:2025-03-26

    操晓春, 赵思成, 武阿明, 梁思源, 王立元

    DOI:10.11834/jig.250004
    img
    摘要:目标检测是计算机视觉领域的核心任务,其通过深度神经网络技术识别图像中的视觉对象并预测其位置和类别。在闭集环境下,目标检测器已显著展现出实用价值;然而,在开放环境中,这些系统面临着诸多挑战,包括不断变化的数据分布、新类别的出现以及噪声干扰,均可能影响决策准确性。相较于闭集环境下的综述性研究,开放环境中的目标检测及其特有挑战的应对策略仍显不足。本文深入分析了开放环境下目标检测面临的主要挑战,包括域外和类别外数据的处理,以及如何通过鲁棒和增量学习适应环境动态。我们首次全面分析了现有检测方法如何应对这些挑战,总结了它们在适应新场景、提高决策鲁棒性、以及支持持续学习方面的方法。进一步地,本文探讨了改进目标检测系统的可能方向,包括开发能够处理更广泛数据集的新方法,整合领域知识增强决策的上下文依赖性,以及设计动态适应的攻防机制和新类别的学习算法。通过这项工作,我们希望为开放环境中的目标检测技术提供一种全新的、系统化的视角,以促进未来更加稳健的解决方案开发,并推动该技术在实际应用中的进一步发展。  
    关键词:目标检测;开放环境;深度学习;鲁棒性;类别外检测;增量学习;数据分布变化   
    17
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 87967177 false
    更新时间:2025-03-25

    张泷丹, 李雯, 魏东岩, 马朝伟, 李政祎, 申戈

    DOI:10.11834/jig.250009
    img
    摘要:目的视觉匹配导航需要预先构建场景三维点云信息,相较于传统软件和专业仪器测图建模,基于消费级终端的视频流数据视觉建模具有成本低、数据更新方便和空间覆盖广等优势,但视频帧因数量庞大存在图像冗余,而造成三维模型重建计算代价高、累计误差较大甚至重建失败的问题,因此本文提出一种基于互校验加权光流的三维重建关键帧提取方法。方法首先,利用传感器陀螺仪数据对视频流中的图像进行场景预分类;然后,采用SIFT(Scale Invariant Feature Transform)算法检测图像特征点和描述符,并结合FLANN(Fast Library for Approximate Nearest Neighbors)匹配和金字塔LK(Lucas-Kanade)光流算法,捕捉相邻帧的动态变化,提取两种算法同时检测成功的特征点并计算欧氏距离,筛选出相邻帧强匹配点对;最后,基于场景预分类结果,对图像消失点附近的强匹配点对,在直线道路采取高斯加权,在转弯道路采取均匀加权,计算帧间光流场总运动从而获取相似度,最终实现视频关键帧提取。结果实验利用消费级终端自采集4组不同场景数据,将本文算法与传统关键帧提取算法进行对比,统计提取关键帧数量并利用结构相似性指数计算高相似度帧数量,将直线和转弯道路提取结果与原视频帧分别进行对比,最后进行三维模型重建实验从而评估提取效果。实验结果表明,本文算法可以将视频帧总数量降低到10%左右,其中高相似度帧数量明显少于其他算法;相较于直线道路,在转弯处关键帧数量占比较大,符合三维重建预期需求;最终模型重建完整度在4组数据上分别为100%、100%、97.46%和96.54%,优于其他算法。结论本文提出基于互校验加权光流的三维重建关键帧提取方法能有效降低视频帧数量,筛选的关键帧能够提高相邻帧匹配精度和稳定性,增强在多样化场景下三维重建的鲁棒性。  
    关键词:视频流;关键帧;图像相似度;互校验加权光流;三维重建   
    44
    |
    32
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521511 false
    更新时间:2025-03-13

    杨主伦, 刘烨斌, 举雅琨, 刘琼, 李旭涛, 尹亚光, 杨铀, 刘文予

    DOI:10.11834/jig.240772
    img
    摘要:在计算成像领域中,场景重光照是一项用于调整和编辑给定图像中光照属性的技术,以呈现与指定光照条件一致且趋近于真实的重光照图像。近年来,场景重光照任务作为元宇宙与虚拟现实应用中的重要组成部分备受学术界和工业界关注,在数码摄像、曝光纠正和影视后期处理等领域都具有重要的应用价值。然而,基于人工的场景重新照明流程通常费时费力,既需要影视特效师手动提取准确的前景图像,还需要精心处理图像中的光影信息、边缘细节以及场景各物体之间的交互关系进行调整,以获得与给定虚拟光照环境相融合的真实效果。近年来,随着机器视觉技术和计算机图形学的发展,利用算法实现场景重照的方法开始取代人工,以其重渲染的精度和效率吸引包括影视制作在内的许多行业的目光。并且同传统成像模型、光照模型、三维重建与深度学习等结合之后,相关技术在场景重光照的真实性与可控性等方面取得了显著进步。鉴于国内外鲜有关于场景重光照任务的研究综述,本文对场景重光照方法进行了系统梳理和评述。根据场景重光照研究中各个环节的特点,将现有的研究工作按照流程分为光照解耦、本征分解和重渲染三个过程:光照解耦从原图像中提取环境光照信息并予以本征表达,不仅为后续过程提供了光照信息,而且提升了本征分解过程中对于光照不变特征图像的分解效率与估计精度;本征分解过程则旨在利用解耦得到的光照信息从原图像中获取场景的表面几何属性与纹理属性;最终的重渲染方法根据给定的目标光照信息与分解得到的表面属性实现对场景的重渲染,使得输出图像的光照属性符合期望光影效果。在剖析上述过程的核心原理与特点的基础上,着重分类讨论典型算法的优势与不足;为方便研究人员开展进一步的工作,介绍了场景重光照任务中常用数据集种类以及相关采集设备;最后,总结了该领域研究面临的主要问题和挑战,并展望了未来潜在的研究方向。  
    关键词:计算成像;场景重光照;光照解耦;本征分解;渲染技术   
    24
    |
    13
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521423 false
    更新时间:2025-03-13

    利铭康, 柳薇, 陈卫东

    DOI:10.11834/jig.240659
    img
    摘要:目的纯Transformer神经网络在图像去噪上效果显著,但要进一步提升去噪质量,需要增加大量的训练和预测资源;另外,原始Swin Transformer对高分辨率图片输入缺少良好的适应性。对此,设计了一种基于Swin Transformer V2的U-Net图像去噪深度学习网络。方法该网络在下采样阶段设计了一种包括Swin Transformer V2和卷积并行提取特征的Transformer块,然后在上采样阶段设计了一种特征融合机制来提升网络的特征学习能力。针对图像去噪任务对Transformer块修改了归一化位置及采用镜像填充机制,提高Swin Transformer V2块的适应性。结果在CBSD68(Color Berkeley Segmentation Dataset)、Kodak24、McMaster和彩色Urban100四个图像去噪常用测试集上进行去噪实验,选择峰值信噪比(peak signal-to-noise ratio, PSNR)作为去噪效果的评价指标,在噪声等级为50的去噪实验中,得到的平均PSNR值分别为28.59、29.87、30.27、29.88,并与几种流行的基于卷积和基于Transformer的去噪方法进行比较。本文的去噪算法优于基于卷积的去噪方法,而相比于性能接近的基于Transformer方法,本文的去噪算法所需浮点运算量仅为26.12%。结论本文所提方法使用的Swin Transformer V2和特征融合机制均可以有效提升图像去噪效果。与现有方法相比,本文方法在保证或提升图像去噪效果的前提下,大幅度降低了训练和预测所需要的计算资源。  
    关键词:深度学习;图像去噪;Swin Transformer;U-Net;特征融合   
    32
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521395 false
    更新时间:2025-03-13

    赵思成, 丰一帆, 张知诚, 孙斌, 张盛平, 高跃, 杨巨峰, 刘敏, 姚鸿勋, 王耀南

    DOI:10.11834/jig.240780
    img
    摘要:情智兼备数字人与机器人技术旨在开发具备情感理解和个性化响应能力的智能系统,这一方向逐渐成为学术界和社会各界的研究焦点。本文围绕脑认知驱动的情感机理、多模态情智大模型的融合与解译、个性化情感表征与动态计算以及可交互情绪化内容生成调控等四个方面,系统性地分析了情智兼备数字人与机器人技术的研究现状与进展。展望未来,情智兼备数字人与机器人将在医疗陪护、智能教育、心理健康等领域展现出广阔的应用前景,并将在提升人机交互的自然性、个性化服务以及用户体验方面发挥重要作用。  
    关键词:情感计算;数字人;机器人;多模态情感大模型;情感机理   
    39
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521355 false
    更新时间:2025-03-13

    彭毅, 邵宇飞

    DOI:10.11834/jig.240727
    img
    摘要:目的路面缺陷检测是道路维护和管理的重要环节,人工智能技术能够极大地提升路面缺陷检测的性能和效率,为解决当前路面缺陷检测算法难以满足在计算资源受限设备上进行实时检测的问题,本文基于YOLOv8(you only look once version 8)目标检测框架,结合部分卷积(partial convolution)与初始深度卷积(inception depthwise convolution)机制提出了一种轻量级的路面缺陷检测算法YOLOv8n-PIVI。方法该算法在骨干特征提取网络引入PartialBlock降低模型参数量,同时引入IDBlock(inception depthwise block)丰富网络的特征提取能力并进一步降低计算复杂度;在特征融合网络引入VanillaBlock减少网络参数的同时优化网络特征融合能力;引入ID-Detect(inception depthwise detect)检测头,极大降低模型的计算复杂度并优化检测头对于不同尺度特征的解析能力。结果在Pothole Dataset数据集上的实验结果显示,本文提出的算法mAP50(mean average precision at 50% intersection over union)达到了0.55,较基线算法提升了3.5个百分点,FPS(frames per second)达到了243,较基线算法提升了43,并且模型参数量和计算量仅为基线67%和72%,模型参数文件由6.3MB(mega byte)降低至4.3MB,内存占用较原模型降低了近1/3。在与目标检测领域较经典算法的对比实验中,本文所提出的算法在同参数量级模型中检测精度、计算复杂度及FPS较其他算法都有一定优势。此外,在RDD2022(road damage detector 2022)-China-MotorBike数据集和VOC2012(visual object classes 2012)数据集上的实验结果表明,本文所提算法具有良好的适应性和鲁棒性,能够适应不同的目标检测任务。结论综合实验结果表明,本文提出的算法能够以轻量级的计算资源需求,实现更高的目标检测性能,模型参数文件大小低至4.3MB,并且具有良好的适应性和鲁棒性,有助于降低路面缺陷检测算法的使用限制,拓宽路面缺陷检测系统的适用场景。  
    关键词:缺陷检测;路面缺陷检测;YOLOv8;轻量级模型;部分卷积;初始深度卷积   
    33
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521127 false
    更新时间:2025-03-13

    郝雯, 吕炎, 金海燕, 石争浩

    DOI:10.11834/jig.240593
    img
    摘要:目的地点识别是机器人利用实时扫描到的点云数据进行定位和自主导航的核心。现有的针对大规模点云的地点识别方法往往忽略了真实驾驶中存在的旋转问题。当查询场景发生旋转时,这些方法识别性能会显著下降,这严重阻碍了它们在复杂现实场景中的应用。因此,本文提出一种有效的面向三维点云的具有旋转感知地点识别网络(Efficient Rotation-Aware Network for Point Cloud based Place Recognition,ERA-Net)。方法首先,利用自注意机制与邻域注意力机制,在捕捉点与点之间的全局依赖关系的同时,捕捉每个点与其邻域点之间的局部依赖关系,充分提取点间的语义特征。同时,利用点与其k邻近点的坐标信息,计算距离、角度以及角度差等低维几何特征,并设计基于特征距离的注意力池化模块,通过在高维空间分析特征之间的相关性,提取具有较强区分性且具有旋转特性的几何特征。最后,将提取的语义特征以及几何特征进行有效融合,通过NetVLAD模块,产生更具判别性的全局描述符。结果将提出的ERA-Net在公共数据集Oxford Robotcar上进行验证并与最先进的方法(state-of-the-art methods,SOTA)进行比较。在Oxford数据集中,ERA-Net的Average Recall@1%指标可以达到96.48%,在University Sector(U.S.)、Residential Area(R.A.)以及Business District(B.D.)数据集上的识别效果均优于其它方法。特别的,当查询场景进行旋转时,ERA-Net的识别效果优于已有方法。结论实验结果表明,ERA-Net能够充分考虑点间的上下文信息,以及特征间的相关性,提取具有较强独特性的场景特征,在面对旋转问题时能够展现出较好的鲁棒性,具有较强的泛化能力。  
    关键词:点云场景;地点识别;旋转感知;注意力机制;特征距离   
    29
    |
    38
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428416 false
    更新时间:2025-03-04

    王龙标, 江宇, 王天锐, 王晓宝, 党建武

    DOI:10.11834/jig.240607
    img
    摘要:目的本文探讨了一种基于语音信息解耦策略的语音预训练大模型,旨在利用海量无标注语音数据训练模型,从中提取出语言信息、副语言信息和非语言信息,并促使各个表征相互独立。该模型能够为下游的大语言模型和生成模型提供完备且可控的语音信息,从而支持言语交互系统的研发。方法本文提出了一种基于信息解耦的自监督语音表征学习大模型方案,利用海量无标注数据,实现了高质量语音信息解耦。在编码器风格的自监督预训练策略的基础上,引入了两个轻量化模块,以增强韵律和说话人信息的提取能力。同时为避免已提取的信息干扰内容信息的学习,模型通过残差的方式将其从主分支中去除,并采用语音掩码预测机制训练主分支,以保证模型的深层特征在语言处理任务上的优越表现。通过这种方式,模型能够逐步地提取输入语音中的韵律、说话人和内容特征。通过结合多层特征并调整权重,模型能够获取适用于各类下游任务的特定特征。此外,文中提出的渐进式解码器优化了预训练大模型在语音生成任务中的适应性。结果实验结果表明,本文方法在不同数量音频训练出的两个版本模型(Base和Large),对语音识别、说话人验证、情感识别以及情感音色转换等任务中均表现出显著的优势。与HuBERT模型相比,Base版本在语音识别、说话人验证和情感识别任务中的准确率分别提高了5.65%、13.02%和2.43%;Large版本则分别提高了2.53%、5.76%和1.78%。在情感音色转换任务中,本文模型相较于基线模型ConsistencyVC和wav2vec-vc展示了更优的性能,具体表现为在说话人相似度、情感相似度、词错率和感知质量评分等指标上均有所提升,进一步验证了模型的有效性。结论这一成果通过将信息解耦思路融入自监督预训练特征提取大模型,有效提升了模型对语音信息的解析与重构能力,为言语交互大模型提供了新的研究视角与实用工具。  
    关键词:信息解耦;自监督学习;语音编解码;言语交互大模型;语音合成   
    42
    |
    25
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428295 false
    更新时间:2025-03-04

    邹茂扬, 伍玉兰, 高琳, 王钟渭, 陈燃

    DOI:10.11834/jig.240566
    img
    摘要:状态空间模型(state-space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间模型在医学图像处理领域的研究和应用,本文进行了全面的调查,首先对状态空间模型的发展历程和各种基于SSM的基础模型进行总结,然后按照图像分割、分类、配准和融合、重建,以及疾病预测、医学图像合成、放射治疗剂量预测任务进行分类研究,探讨了每种任务中SSM模型的改进和应用,最后讨论了状态空间模型面临的挑战和今后的研究方向。此外,本文讨论的研究及其开源实现汇编在了GitHub中,地址为:https://github.com/wyl32123/ssm-medical-paper/tree/main。  
    关键词:状态空间模型;Mamba;医学图像分割;医学图像分类;医学图像配准和融合;医学图像重建   
    42
    |
    41
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428186 false
    更新时间:2025-03-04

    苏兆品, 魏玉洋, 张国富, 廉晨思, 岳峰

    DOI:10.11834/jig.240686
    img
    摘要:随着文本到语音(Text To Speech,TTS)、语音转换(Voice Conversion,VC)等克隆语音技术的快速发展,如何在司法实践中准确识别克隆语音,即克隆语音是否来源于目标说话人特征,成为了一个极具挑战性的难题。虽然现有说话人识别技术可以通过声纹特征比对确认自然语音的说话人身份,但由于克隆语音不仅与目标说话人音色相似,但又包含源说话人的特点,使得传统说话人识别技术难以去除原说话人音色的干扰,难以直接应用于深度克隆语音。基于此,本文研究了一种面向克隆语音的目标说话人鉴别方法。具体来说,首先基于Res2Block设计组渐进信道融合模块(Group Progressive Channel Fusion, GPCF),以有效提取自然语音与克隆语音之间的公共有效声纹特征信息;其次,设计基于K独立的动态滤波器组(Dynamic global filter, DGF),以有效抑制源说话人的影响,提高模型表征和泛化能力;然后,设计了基于多尺度层注意力的特征融合机制,以有效融合不同层次GPCF模块和DGF模块的深浅层特征;最后,设计注意力统计池(Attentive Statistics Pooling,ASP)层,进一步增强表示特征张量中的目标说话人信息。实验在所设计的数据集上与3种较新的方法进行了比较,相对于其他3种方法,EER分别降低了1.38%、0.92%、0.61%,minDCF分别降低了0.0125、0.0067、0.0445。在FastSpeech2、TriAANVC、FreeVC和KnnVC四种语音克隆数据集的对比实验结果表明,所提方法在处理面向克隆语音的声纹认定任务时更具有优势,可以有效提取克隆语音中的目标说话人特征,为克隆语音的声纹认定提供方法指导。  
    关键词:克隆语音;声纹认定;组渐进信道融合;动态全局滤波器;多尺度层注意力机制   
    21
    |
    31
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428084 false
    更新时间:2025-03-04

    万航, 吴晓群

    DOI:10.11834/jig.240550
    img
    摘要:三维点云是空间中的一组数据点,主要包括刚性点云和非刚性点云,是表达物体或场景几何信息的重要数据形式,广泛应用于计算机视觉、机器人导航、自动驾驶、增强现实等领域。但是由于传感器移动、噪声遮挡等原因导致数据产生偏移、不完整和不准确等问题,给后续处理带来挑战,因此,如何实现精确、高效、鲁棒的三维点云配准显得尤为重要。点云配准是对从同一场景的不同位置采集的两个或多个三维点云进行配准的过程,需要找到源点云和目标点云之间的对应关系,然后求解他们之间的变换矩阵。经过配准后可以使点云数据能够在同一个坐标系下进行对齐,方便进行处理。本文将点云配准方法进行梳理并按照求解对应关系和求解变换矩阵进行分类,更直观地对点云配准方法进行介绍与对比。本文分别介绍了刚性点云配准方法和非刚性点云配准方法,总结了目前基于优化的学习方法与基于深度学习方法的概况,介绍了一些代表性的点云配准方法,为进一步的研究提供帮助。此外,本综述总结了基准数据集。最后,提出了今后在这一专题上可能产生的问题以及进行研究的建议。  
    关键词:三维点云;配准;刚性点云;非刚性点云;优化方法;深度学习   
    33
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85427980 false
    更新时间:2025-03-04

    胡馨悦, 石雨, 刘羽

    DOI:10.11834/jig.250028
    img
    摘要:目的阿尔茨海默症(Alzheimer's disease, AD)作为一种常见的老年性痴呆疾病,近年来已成为全球公共卫生面临的重大挑战,设计一种有效且精确的阿尔茨海默症早期诊断模型具有重要的临床意义和迫切需求。目前,阿尔茨海默症的临床诊断通常依赖于正电子发射断层扫描(Positron Emission Tomography, PET)和核磁共振成像(Magnetic Resonance Imaging, MRI)两种医学影像数据。然而,由于这两种模态间存在信息差异大,未精确配准等问题,现有的基于人工智能(Artificial Intelligence, AI)的诊断模型大多仅使用单一的MRI数据。这在一定程度上限制了多模态影像信息的充分利用和分类性能的进一步提升,制约了其临床实用性。针对上述问题,提出一种结合DenseNet和Mamba的多模态医学脑影像阿尔茨海默症早期诊断模型——DenseMamba。方法该方法以经过标准预处理流程后的PET和MRI数据为输入,预处理流程包括:颅骨剥离、配准、偏置场校正、归一化。MRI和PET级联后首先经过卷积层和激活层进行初步特征提取,提取到的特征再依次经过若干个交替的Denseblock和TransMamba模块分别进行局部和全局的特征提取,Denseblock内的密集连接结构,增强了局部特征的提取和传播,从而能够捕捉影像中的细节信息;而TransMamba模块则基于状态空间模型,高效地建模全局依赖关系,交替的Denseblock和TransMamba使得模型能够更全面地理解多模态数据信息,充分挖掘多模态数据在临床诊断任务上的潜力。最后,将提取到的特征送入分类器得到疾病预测结果。结果为验证方法的有效性,实验在公开的ADNI(Alzheimer’s Disease Neuroimaging Initiative)数据集上对其进行了评估。最终模型的准确率(accuracy)、精确度(precision)、召回率(recall)和F1值分别为92.42%、92.5%、92.42%、92.21%。DenseMamba在阿尔茨海默症分类任务中较其他算法表现优异,与现有先进的方法相比准确率提升0.42%。结论实验结果表明,与现有的基于单模态影像数据的分类方法相比,DenseMamba能够充分发挥PET和MRI数据的潜力,显著提升分类性能,为阿尔茨海默症的早期诊断提供更精准的支持。  
    关键词:阿尔茨海默症;多模态医学图像;密集连接神经网络;状态空间模型;Mamba   
    38
    |
    40
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85427875 false
    更新时间:2025-03-04

    程龙昊, 李常颢, 胡瑞珍, 刘利刚

    DOI:10.11834/jig.240598
    img
    摘要:目的使用低光图片训练神经渲染模型进行新视角合成无法得到正常光照条件下的图片,目标检测、语义分割等在处理低光照片时会产生明显的性能退化,面临着严峻的挑战,并且现有的方法在渲染速度和图像高频细节上存在问题。针对现有问题,本文提出一种对三维高斯泼溅模型进行低光增强的方法。方法首先利用一个轻量化的光照预测网络将三维高斯泼溅模型中三维高斯分布的颜色属性分解为物体本征颜色和光照两个部分,利用本征颜色渲染得到正常光照场景图片,同时使用多种损失函数从结构和颜色上改善图像质量;为了提高图片中高频细节的清晰度,采用固定几何的优化方案。结果实验在低光场景的新视角合成数据集LOM上与主流方法进行了比较,与现有最佳方法相比,在峰值信噪比指标上平均提升了0.12dB,在结构相似性指标(Structural Similarity Index, SSIM)上平均提升了1.3%,在学习感知图像块相似度指标(Learned Perceptual Image Patch Similarity, LPIPS)上平均提高了5.5%,训练时间仅有以往方法的1/5,渲染速度则达到以往方法的1000倍以上。结论本文所提出的方法能够更快地进行训练和渲染,同时也具有更高的图像质量,图像的高频细节和结构更加清晰,并通过全面的对比实验验证了方法的有效性与先进性。  
    关键词:低光增强;新视角合成;机器学习;神经渲染;三维高斯泼溅   
    32
    |
    46
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84439047 false
    更新时间:2025-02-27

    罗霜, 钱文华, 刘朋

    DOI:10.11834/jig.240601
    img
    摘要:目的东巴画是纳西族传统艺术的瑰宝,其画面视觉元素丰富、色彩分明,具有鲜明的地域文化特色和民族特征。针对现有图像描述方法在东巴画描述中存在的领域偏移问题,本文提出了一种结合提示学习和视觉语义-生成融合的东巴画图像描述方法。该方法引入内容提示模块和视觉语义-生成融合损失,旨在引导模型学习东巴画的主题信息,提升描述的准确性和文化表达能力。方法采用编-解码器(encoder-decoder)架构实现东巴画图像描述的生成。编码器采用卷积神经网络(convolutional neural networks,CNN)捕获图像中关键的语义信息,并将这些特征整合到解码器编码层中的归一化层,控制文本描述的生成过程。解码器采用Transformer结构实现,利用自注意力机制有效地捕捉输入序列中的长距离依赖关系,使模型关注输入序列中的关键信息。此外,本文在解码器之前引入了内容提示模块。该模块通过图像特征向量得到图像的主体、动作等信息,并将其构建成提示信息作为描述文本的后置提示。通过后置提示信息,解码器能有效地关注描述文本中具体的文化场景和细节特征,增强对东巴画特定图案和场景的识别与理解能力。同时,本文引入了视觉语义-生成融合损失,通过优化该损失,引导模型提取东巴画中的关键信息,从而生成与图像保持高度一致的描述文本。结果实验结果表明,在东巴画测试集上,本文所提方法在BLEU(bilingual evaluation understudy)_1到BLEU_4、METEOR(metric for evaluation with explicit ordering)、ROUGE(recall-oriented understudy for gisting evaluation)和CIDEr(consensus-based image description evaluation)评价指标上分别达到了0.603、0.426、0.317、0.246、0.256、0.403和0.599,东巴画图像描述文本在主观质量也得到了更好的效果。结论本文所提方法显著增强了模型对东巴画图像主题和民族文化特征的捕捉能力,有效提升了生成描述在准确性、语义关联性和表达流畅性方面的表现。  
    关键词:东巴画;图像描述;提示学习;视觉语义-生成融合;领域偏移   
    27
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84439005 false
    更新时间:2025-02-27
0