最新刊期

    2025 30 12

      综述

    • 人工智能在文物行业的应用与展望 AI导读

      在文物领域,人工智能技术正推动着文物防护、保护、研究、管理与传播方式的变革,为文物行业应用发展与未来提供新方向。
      宋维涛, 廖聆宇, 张浩天, 李琳, 俞天秀, 赵永生, 韩霈泽, 刘思然, 陈坤龙, 曲亮, 刘晓平, 刘越, 王涌天
      2025, 30(12): 3707-3739. DOI: 10.11834/jig.240765
      人工智能在文物行业的应用与展望
      摘要:文物承载灿烂文明、传承历史文化、维系民族精神,生动诠释着中华民族文化自信的底气与底蕴。随着人工智能技术赋能各行各业,融入大众生活的方方面面,整个文物行业也在人工智能技术的推动下进行着方法和理念的变革,影响着文物防护、保护、研究、管理与传播的方式,如何将人工智能应用于文物行业已成为研究人员十分关注的工作。本文面向文物领域防、保、研、管、用五大方向,从文物行业应用需求、传统研究方法、人工智能技术发展和人工智能应用于文物研究等几个方面进行论述,并探讨和展望了人工智能技术下文物行业应用发展与未来。  
      关键词:文化遗产;人工智能(AI);深度学习;博物馆;文物保护   
      170
      |
      474
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 98368487 false
      更新时间:2025-12-18
    • 卫星视频单目标跟踪综述 AI导读

      卫星视频单目标跟踪技术在军事和民用领域具有重要应用,面临目标尺寸小、相似目标干扰等挑战。专家总结了典型跟踪方法,为该领域研究提供新方向。
      高桃峰, 何银鑫, 马学良, 卢自来, 彭世勇, 刘洋
      2025, 30(12): 3740-3759. DOI: 10.11834/jig.240750
      卫星视频单目标跟踪综述
      摘要:基于卫星视频的单目标跟踪受到广泛关注,在军事和民用领域发挥着重要作用,可用于城市尺度下的灾害救援、治安防范以及突发事件监控等,但受目标尺寸小、相似目标干扰、运动模糊和背景复杂等因素影响,面临诸多挑战。为便于更多学者对该领域进行探索,本文对卫星视频单目标跟踪研究现状进行梳理和分析。首先,阐述该领域的挑战与优势。视频卫星视野范围大,车辆等目标在卫星视频中仅占几个或十几个像素,特征和纹理稀少,此外卫星视频中目标数量较多,目标与干扰物间的可区分性差,相似性较高,存在目标的快速移动或卫星平台的抖动导致目标模糊的情况,以及目标存在于复杂背景中,当运动目标本身不明显、背景信息比目标信息更加突出时,会导致跟踪失败。但相对于地面或低空视频,基于卫星视频的目标跟踪又有一定的优势,比如:目标的外部条件,如摄像机视角等相对稳定、卫星视频中的目标多为刚性目标,在跟踪过程中很少发生严重变形、目标的运动状态简单明了,运动轨迹多为直线或平滑的曲线。其次,总结典型的跟踪方法。包括基于生成式、基于相关滤波和基于深度学习的方法,介绍解决特征稀少、遮挡、相似目标干扰等问题的相关研究。然后,归纳现有卫星视频单目标跟踪数据集和常用性能评价指标。卫星视频目标跟踪数据集主要有XDU-BDSTU、VISO(video satellite objects)、SatSOT 、OOTB(the oriented object tracking benchmark)。其中VISO数据集规模最大,包括训练集和测试集,XDU-BDSTU数据集的影像幅宽大,适用于长时跟踪,OOTB数据集的目标标注为旋转框,更加贴合目标。性能评价指标主要有精确率、成功率和帧率。此外,在自制的测试集上对典型单目标跟踪方法进行性能评测与分析。实验结果表明,运动估计、时序信息以及背景信息的利用对卫星视频目标跟踪任务较为重要。最后,从统一跟踪结果评价指标、更大规模的高质量卫星视频目标跟踪数据集,以及更适合于卫星视频单目标跟踪的模型、长时跟踪几个方面展望了卫星视频单目标跟踪算法的未来发展趋势。  
      关键词:卫星视频;单目标跟踪;相关滤波;深度学习;吉林1号卫星   
      103
      |
      144
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100718830 false
      更新时间:2025-12-18
    • 大语言模型下的视频问答方法综述 AI导读

      在自然语言处理领域,大语言模型取得显著进展,但在视频问答领域仍面临挑战。本文系统回顾了视频问答模型的研究进展,为多模态人工智能发展提供新思路。
      谢君琳, 张锐斐, 李冠彬
      2025, 30(12): 3760-3781. DOI: 10.11834/jig.240535
      大语言模型下的视频问答方法综述
      摘要:大语言模型在自然语言处理领域取得显著进展,展现出卓越的语言理解和生成能力。然而,尽管这些模型在文本处理方面表现出色,但在应对复杂多模态任务时,尤其在视频问答领域局限性逐渐显现。视频作为一种动态的视觉模态,具有显著的时序依赖性和跨模态信息融合的复杂性,对模型的时序信息处理能力和计算效率提出更高的要求。本文系统回顾基于大语言模型的视频问答模型的研究进展,详细分析非实时视频问答模型与实时视频问答模型的技术特点、优势及其在不同应用场景中的表现。同时,探讨了现有研究中常用的数据集及其评测标准,并总结了当前技术面临的挑战与瓶颈。在此基础上,对未来视频问答模型的发展方向进行前瞻性展望,旨在推动多模态人工智能的进一步发展与应用。  
      关键词:大语言模型(LLMs);视频问答(Video QA);多模态信息融合;时序信息处理;视频理解   
      110
      |
      158
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 109927239 false
      更新时间:2025-12-18
    • 旋转不变点云网络研究进展 AI导读

      点云深度学习网络在三维视觉领域取得显著进展,但面临旋转变换挑战。专家系统整理了旋转不变点云网络的研究内容和方法,为未来发展提供新方向。
      王正宝, 曾振轩, 欧阳轩, 陈昊哲, 李林杰, 杨佳琪
      2025, 30(12): 3782-3803. DOI: 10.11834/jig.250029
      旋转不变点云网络研究进展
      摘要:点云深度学习网络取得显著进展,表现出的强大语义理解能力推动着整个三维视觉领域的进步。然而三维点云通常表现出复杂的变换对称性,其中旋转是一个具有挑战性且必要的主题。不同旋转变换下点云的语义信息一致,但空间坐标不同,这影响了常规点云深度学习网络在语义感知方面的稳定性,难以应用到任意姿态的现实场景。早期的研究主要采用旋转数据增强的方式,但由于旋转本身的无限性和连续性,这种简易方案并不能满足需求。因此,越来越多的学者着手研究具有旋转不变属性的点云深度学习网络,在网络设计层面排除旋转对于特征提取的影响。本文对于旋转不变点云网络相关研究进行充分调研,分析其中存在的挑战,并系统整理相关主流方法,依据旋转不变能力获取方式的不同,将其划分为几何旋转不变方法、特征旋转不变方法和训练旋转不变方法。本文详细描述了当前学术界在该问题上的研究内容和方法,总结和对比各类方法的优缺点,并对常用的一些数据集和评价指标进行整理总结。最后,本文调研和总结了旋转不变点云深度学习网络的下游应用前景,并对未来发展和研究热点进行展望。  
      关键词:三维视觉;深度学习;点云网络;旋转不变性;旋转等变性   
      67
      |
      112
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 109943530 false
      更新时间:2025-12-18

      图像分析和识别

    • 面向人脸年龄估计的开集半监督多任务学习方法 AI导读

      在人脸图像年龄估计领域,研究者提出了一种新的开集半监督多任务学习方法,有效提升了年龄估计精度,并充分利用无标签数据集优化性能。
      张珂, 梁龙萍, 郭玉荣, 王子念
      2025, 30(12): 3804-3823. DOI: 10.11834/jig.250023
      面向人脸年龄估计的开集半监督多任务学习方法
      摘要:目的人脸图像年龄估计在数字营销和人机交互等领域具有重要应用价值。然而,实现精确人脸年龄估计面临缺乏大规模有标签数据集的挑战。半监督学习方法能利用无标签数据集缓解此问题,但现有方法易引入错误伪标签,对年龄估计性能产生负面影响。因此,提出一种面向人脸年龄估计的开集半监督多任务学习方法。方法首先,为了增强模型对局部和全局特征的处理能力,提出SwinLEDF模型,该模型以Swin Transformer作为主干网络,用于提取全局特征,并通过融合LEFF(local enhanced feed-forward)模块和DFN(dynamic filter networks)模块,进一步提升模型对局部特征的提取能力。其次,为了有效利用有标签数据和无标签数据中的有效信息,设计开集半监督多任务学习框架。在此框架中,模型通过标准闭集分类器和多类二元分类器的协同工作有效排除异常数据的干扰,采用自适应阈值方法确定性别、种族和年龄的伪标签,并引入负学习策略,以提高对无标签数据的利用率。结果在MORPH数据集上,仅使用有标签数据集时,模型的平均绝对误差为1.908;同时使用有标签数据集和无标签数据集时,MAE(mean absolute error)降至1.885。在UTKface数据集上,仅使用有标签数据集时,MAE为4.343;而结合有标签数据集和无标签数据集时,MAE降至4.246。与现有的人脸年龄估计方法相比,本文方法提高年龄估计的性能,能够有效利用无标签数据集进一步优化年龄估计性能。结论本文提出一种面向人脸年龄估计的开集半监督多任务学习方法,能够从有标签数据集和无标签数据集中有效提取人脸图像的性别、种族和年龄特征,从而提升人脸年龄估计的精度。这为实现更加精准的人脸年龄估计提供了新的思路和解决方案。  
      关键词:人脸年龄估计;开集半监督学习;多任务学习;SwinLEDF模型;伪标签   
      112
      |
      165
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100741781 false
      更新时间:2025-12-18
    • 用于轨道图像缺陷检测的轻量级金字塔交叉注意力网络 AI导读

      在轨道缺陷检测领域,研究者提出了LPCANet模型,有效提升了检测速度和精度,具有实际应用价值。
      郭斯栩, 耿慧拯, 粟栗, 何申, 张鑫月
      2025, 30(12): 3824-3837. DOI: 10.11834/jig.240547
      用于轨道图像缺陷检测的轻量级金字塔交叉注意力网络
      摘要:目的基于视觉的轨道缺陷检测方法大多存在高参数、计算复杂、检测速度慢以及精度低等缺陷,为了解决上述问题,提出一种使用RGB和深度图像进行轨道缺陷检测的轻量级金字塔交叉注意网络(lightweight pyramid cross-attention network for orbital image defect,LPCANet)。方法LPCANet模型利用深度学习、RGB-D与显著性目标检测等技术,设计一种轻量级金字塔模块,能够从深度图像中提取多尺度特征图,而骨干模块从RGB图像中捕获金字塔特征细节;然后,将交叉注意力模块(cross-attention mechanism,CAM)应用于两种类型的特征映射;其次,利用空间特征提取子(spatial feature extractor,SFE)提高缺陷检测性能;最后,应用像素洗牌(pixel shuffle)操作恢复原始图像的大小。结果在NEU-RSDDS-AUG、RSDD-TYPE1和RSDD-TYPE2 3种公开无服务RGB-D轨道数据集进行实验。结果表明,提出方法在NEU-RSDDS-AUG数据集的运行参数为9.90 M,计算量为2.50 G,模型大小为37.95 MB,运行速度为162.60帧/s,相比现有18种轨道缺陷检测方法,更为轻量化;与当前性能最优的CSEPNet相比,S-度量、交并比、最大F-度量、平均精度和平均绝对误差指标分别提高1.48%、0.86%、0.14%、0.03% 和1.77%;在消融实验中,像素洗牌方法表现出明显优势,更适合LPCANet模型。深入分析各种骨干网络性能,实验表明,LPCANet模型不仅适用现有各种骨干网络,而且检测结果更加优秀。在非轨道数据集DAGM2007、MT和Kolektor-SDD2上进行实验,LPCANet模型在mAP、MAE与IOU指标均有提高,具备一定的泛用性。结论提出的LPCANet模型综合了传统模型和深度学习模型的优点,在轨道缺陷图像检测领域具备良好的实际应用价值。  
      关键词:轨道缺陷检测;深度学习;RGB-D;显著性目标检测;空间特征提取子(SFE)   
      65
      |
      93
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 109943567 false
      更新时间:2025-12-18

      图像理解和计算机视觉

    • 跨模态特征融合与细节信息增强的RGB-D显著目标检测 AI导读

      在显著目标检测领域,研究者提出了一种RGB-D显著目标检测方法,通过跨模态特征融合与边缘细节增强,有效提高了检测性能。
      宋霄罡, 谭裕平, 郭富强, 鲁晓锋, 黑新宏
      2025, 30(12): 3838-3854. DOI: 10.11834/jig.240653
      跨模态特征融合与细节信息增强的RGB-D显著目标检测
      摘要:目的RGB-D显著目标检测通过整合RGB图像和深度图像的互补信息,可以提高应对复杂和具有挑战性场景的显著目标检测(salient object detection,SOD)能力,取得了比RGB显著性检测模型更好的性能,受到高度关注。然而,现有RGB-D 检测模型面临如何高效利用输入的多模态信息进行融合以及如何提高显著目标边缘检测精度等问题。为此,提出一种跨模态特征融合与边缘细节增强的RGB-D显著目标检测方法。方法通过跨模态注意力融合增强模块(cross-modal attention fusion enhancement module,CAFEM)对不同模态特征进行注意力整合,使RGB图像和深度图像的互补信息充分融合,使模型充分利用多模态特征,从而提高模型的性能。但是两种模态的输入容易出现背景信息混淆、噪声增多、深度图质量低和目标轮廓提取困难的情况。为应对上述问题,提出一种卷积神经网络(convolutional neural network,CNN)低层特征引导的边缘特征提取模块(boundary feature extraction module,BFEM),通过通道注意力对低层特征携带的噪声进行过滤,然后使用低层细节特征引导跨模态融合特征进行聚焦解码以得到更加准确的显著图像。结果在4个RGB-D显著目标检测数据集进行实验,与16种代表性方法进行定量和定性实验对比。在平均绝对误差(mean absolute error, MAE)指标上,本文方法相较于排名第2的方法,在4个数据集上分别提升6.9%、10.5%、9.7%和2.4%。结果表明,本文方法在各场景均有优异表现。结论提出一种用于RGB-D显著目标检测的跨模态特征融合与细节信息增强网络(cross-modal feature fusion and detail-enhanced network,CFADNet),通过跨模态注意力融合增强模块(CAFEM),较好地实现了RGB特征与深度特征的融合。此外,构建了边缘特征提取模块(BFEM)提取低层细节特征,最终较为准确地定位显著物体并增强了边缘细节的清晰度。  
      关键词:显著性目标检测(SOD);注意力机制;跨模态;特征融合;边缘细节增强   
      210
      |
      182
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 98368229 false
      更新时间:2025-12-18
    • 融合高斯修正的双阶段指导弱监督语义分割 AI导读

      在弱监督语义分割领域,研究者提出了基于知识蒸馏的端到端框架,通过双阶段知识交互和高斯修正模块,有效降低噪声干扰,提升伪标签质量,展现出优越性能。
      白雪飞, 王渊辉, 许文杰, 姜高霞, 王文剑
      2025, 30(12): 3855-3869. DOI: 10.11834/jig.250040
      融合高斯修正的双阶段指导弱监督语义分割
      摘要:目的端到端的弱监督语义分割模型因其高效的训练效率备受关注,然而现有研究还存在语义信息提取不充分、生成的伪标签质量较低等不足。针对上述问题,本文提出一种基于知识蒸馏的端到端弱监督语义分割框架,通过双阶段知识交互模块增强学生网络和教师网络之间的知识传递,同时借助高斯修正模块对伪标签进行修正。方法首先,设计双阶段知识交互模块强化教师网络和学生网络的特征学习过程,有效降低训练过程中的噪声干扰。其次,为了生成高质量的伪标签,设计了高斯修正模块,通过拟合类激活图的分布,利用EM(expectation maximization)算法估算每个像素点的噪声概率,并依据与邻域像素的相似度关系修正伪标签,进而提升弱监督语义分割网络的性能。结果本文方法在PASCAL VOC 2012(pattern analysis, statical modeling and computational learning visual object classes 2012)和MS COCO 2014(Microsoft common objects in context 2014)数据集上的mIoU(mean intersection over union)值分别达到74.8%和42.3%,优于其他对比方法。结论通过双阶段知识交互模块以及高斯修正模块,有效降低了图像内部噪声以及潜在的标签噪声对训练过程的影响,并且改善了伪标签生成不完整的问题,与现有方法相比取得了显著的性能提升,在端到端的弱监督语义分割方法中展现出明显的优越性,具有一定的研究价值。  
      关键词:深度学习;端到端弱监督语义分割;高斯混合模型(GMM);知识蒸馏;类激活图(CAM)   
      69
      |
      98
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 109940538 false
      更新时间:2025-12-18
    • 面向自下而上人体姿态估计的自适应真值热力图生成方法 AI导读

      在人体姿态估计领域,专家提出了自适应真值热力图生成方法,有效提高了关键点检测准确率。
      江玲, 刘卓程, 熊源, 吴威, 李凯歌
      2025, 30(12): 3870-3883. DOI: 10.11834/jig.240615
      面向自下而上人体姿态估计的自适应真值热力图生成方法
      摘要:目的热力图回归方法因能够提供丰富的空间信息,在人体姿态估计领域受到广泛关注。然而,由于传统真值热力图通常由固定标准差的2D高斯核覆盖标注点位置生成,当人体尺度变化较大时,固定的高斯核覆盖范围可能与关键点的实际语义区域不匹配,导致模型对关键点定位的模糊性和语义不确定性。对此,提出面向自下而上人体姿态估计的自适应真值热力图生成方法。方法首先设计一种自适应真值热力图生成模块,通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应尺度因子,为图像定制尺度自适应的真值热力图。另外,由于现有方法使用的热力图损失函数未能有效捕捉局部结构的相关性,导致其对关键点位置偏差不敏感。为此,提出局部概率一致性损失函数,通过在热力图的局部区域上计算结构相似性,提升模型对局部结构的学习和理解,同时引入动态权重来平衡样本的贡献,进一步引导模型优化方向,提高模型鲁棒性。结果在两个公开数据集MS COCO(Microsoft common objects in context)和CrowdPose上进行实验评估,实验结果表明所提方法相较对比工作,关键点检测平均准确率分别提高1.6%与6.5%,达到72.1%和74.1%,验证了所提方法的有效性。此外,所提方法在拥挤场景的CrowPose数据集上也能带来显著的性能提升,这进一步表明其能够有效缓解复杂场景中的人体尺度变化带来的问题。同时消融实验验证了所提方法的有效性。结论提出的面向自下而上人体姿态估计的自适应真值热力图生成方法,通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应热力图作为真值,结合局部概率一致性损失函数来处理图像中尺度变化问题,有效提高了人体姿态估计准确率。  
      关键词:人体姿态估计;自适应尺度;自下而上;热力图回归;动态权重   
      66
      |
      97
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 109942818 false
      更新时间:2025-12-18
    • 基于自适应掩码的自监督矿井图像去噪 AI导读

      在煤矿图像处理领域,专家提出了基于自适应掩码的矿井图像自监督去噪算法,有效去除噪声并保留图像细节,展现出优越的鲁棒性和广泛的适用性。
      张亚茹, 刘健涛, 许国庆, 郝定溢
      2025, 30(12): 3884-3899. DOI: 10.11834/jig.240624
      基于自适应掩码的自监督矿井图像去噪
      摘要:目的受煤矿井下粉尘浓度高和光照不均匀等因素影响,矿井图像容易产生不同水平的噪声、降低图像的局部对比度、丢失细节信息和边缘纹理特征,从而影响矿井图像的信息提取精度和视觉质量。针对上述问题,提出一种基于自适应掩码的矿井图像自监督去噪算法,主要包含自适应掩码、掩码集成以及自适应集成损失3部分。方法首先,设计自适应掩码对矿井图像进行分块以减少后续计算消耗,逐次对各块中心像素外的边缘像素及角点像素进行掩码,避免恒等映射的同时增加数据多样性;然后,设计掩码集成对神经网络的输出和掩码区域进行重新组合,计算两者之间的Hadamard积以增强网络对噪声与信号边界的准确识别,综合考虑矿井图像的局部结构和全局特征,从而提升去噪后矿井图像的完整性和连贯性;最后,设计自适应集成损失,将集成图像作为训练标签,帮助模型更好地理解矿井图像中局部特征和全局特征之间的关系,加入原始噪声图像增强模型对信号变化的敏感性,适应不同场景下的去噪任务。结果在煤矿井下图像数据集和4个公共数据集进行实验,去噪后的图像质量在主观感受和客观指标上均优于其他对比算法。在高斯噪声水平为50的巷道场景下,相比B2U(blind2unblind)和NBR2NBR(neighbor2neighbor),峰值信噪比(peak signal-to-noise ratio, PSNR)分别提高4.2 dB和2.99 dB,结构相似性指数(structural similarity index, SSIM)分别提高0.055和0.077。在5至50的高斯噪声范围内,本文方法计算的PSNR相较TBSN(transformer-based blind-spot network)在Kodak24(Kodak lossless true color image suite 24)数据集上提升1.09%,在BSD300(Berkeley segmentation dataset 300)数据集上提升0.72%,相较NBR2NBR在BSD500数据集上提升0.68%。结论所提算法能够处理含有不同程度和类型噪声的矿井图像,有效去除噪声的同时保留图像的细节信息,展现出优越的鲁棒性和广泛的适用性。代码获取地址:https://www.sciclb.cn/anonymous/skpswk56.  
      关键词:自监督学习;矿井图像去噪;自适应掩码;Hadamard积;自适应集成损失   
      84
      |
      136
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 98368445 false
      更新时间:2025-12-18
    • 结合社会约束与轨迹终点的逐步估计网络 AI导读

      最新研究揭示行人轨迹预测新方法,PSEN网络结合社会约束与轨迹终点,显著提升预测准确性。
      吴恩泓, 纪庆革
      2025, 30(12): 3900-3913. DOI: 10.11834/jig.240754
      结合社会约束与轨迹终点的逐步估计网络
      摘要:目的多数的行人轨迹预测方法专注于序列化数据的特征,忽略了对行人轨迹的社会语义进行学习。因此,本文着重研究行人轨迹中的社会特征与人类行走特征,提出结合社会约束与轨迹终点的路径逐步估计网络(path stepwise estimation network combining social constraints and trajectory endpoints,PSEN)。方法根据人在行走中对路径规划的3个特征:1)社会约束,将人群按照社交约束,依据运动学信息进行分类,并根据社交权重得到被预测行人与类内其他行人的社交注意力,从而影响后续的路径估计网络;2)通过模拟行人会先确定终点,有目的性地规划自己行走的路径这一特征,设计一个终点估计网络,通过时空序列对终点进行预测,对完整的路径规划提供参考价值;3)行人不断根据周边环境与终点进行局部路径微调并重新分配注意力的特征,搭建终点与路径微调网络,实现自动根据环境进行微调路径规划的效果。结果实验在ETH/UCY(Eidgenössische Technische Hochschule Zürich pedestrian and University of Cyprus pedestrain)数据集上与6种基线方法进行比较,在SDD(Stanford drone dataset)数据集上与5种基线方法进行对比。在ETH/UCY整个数据集中,平均位移误差(average displacement error,ADE)和最终位移误差(final displacement error,FDE)平均降低5.1%和7.5%,在SDD数据集中,ADE和FDE平均降低1%和2%。针对行人较为密集的场景,如ZARA1、ZARA2和UNIV数据集的预测效果均提升10%以上。在ETH/UCY数据集上进行消融实验,证明PSEN各模块均能够提高行人轨迹预测任务的效果,ADE和FDE分别平均降低19%和31%。结论本文提出的结合社会约束与轨迹终点的路径逐步估计网络(PSEN),综合了真实世界中行人场景的3个特点,在ETH/UCY和SDD数据集上取得了更优异效果。  
      关键词:行人轨迹预测;序列化预测;循环神经网络(RNN);条件变分自动编码器(CVAE);社交约束;ETH/UCY数据集   
      49
      |
      118
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100713418 false
      更新时间:2025-12-18

      计算机图形学

    • 基于增强注意力的点云语义实例联合分割 AI导读

      在3D点云语义-实例联合分割领域,研究者提出了一种基于增强注意力的语义实例联合分割网络,有效融合提取的语义特征与实例特征,其准确性明显优于现有方法。
      郝雯, 左占彬, 卢翰森, 梁玮, 金海燕, 石争浩
      2025, 30(12): 3914-3926. DOI: 10.11834/jig.240445
      基于增强注意力的点云语义实例联合分割
      摘要:目的针对已有的特征融合策略难以充分挖掘语义—实例特征之间相关性问题,提出一种基于增强注意力的语义实例联合分割网络。方法首先,通过构建基于注意力机制的语义特征提取模块,有效捕获点间的局部上下文信息。然后,利用编码—解码模块获得点云的初始语义特征和初始实例特征,其中编码—解码模块包括基于注意力池化的PointNet++集合抽象层、PointConv的编码层、解码层以及PointNet++的特征传播层。接着,设计一个增强注意力模块,利用双重注意力机制,自适应地学习中心特征与邻近特征的相似性,动态确定注意力权重,并将得到的双重注意力权重进行求和,与初始语义特征相乘,获得增强后的语义特征。最后,将增强注意力模块内嵌到联合分割模块的语义分支中,将语义特征与实例特征有效融合,提高语义—实例联合分割的精度。结果相较对比算法中最优值,本文方法在S3DIS(stanford large-scale 3D indoor semantics dataset)数据集中语义分割平均交并比与实例分割平均加权覆盖率指标分别提升3.5%和1.2%。在ScanNet数据集中,语义分割平均交并比与实例分割中平均加权覆盖率指标分别提升3.2%和2.8%。结论本文提出的网络模型能够有效融合提取的语义特征与实例特征,其语义分割与实例分割的准确性明显优于现有的联合分割方法。  
      关键词:深度学习;点云;语义分割;实例分割;增强注意力机制   
      0
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 141702735 false
      更新时间:2025-12-18
    • Transformer注意力引导的三维模型最优视图选择与分类方法 AI导读

      在三维模型分类领域,研究者提出了一种基于Transformer注意力引导的最优视图选择与分类方法,有效提高了分类性能并选出代表性视图。
      陈松乐, 黄茹玥, 黄思轩, 陈怡, 李骞
      2025, 30(12): 3927-3940. DOI: 10.11834/jig.250037
      Transformer注意力引导的三维模型最优视图选择与分类方法
      摘要:目的现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型,然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在,每个视图对于分类目标的作用并不相同。选择对分类目标贡献大的视图,不仅有利于提高基于多视图的三维模型分类的性能,而且能够提供表征三维模型的代表性视图。方法提出一种Transformer注意力引导的三维模型最优视图选择与分类方法。在从正十二面体20个视角对待预测的三维模型渲染后,首先采用卷积神经网络从多个视图提取特征信息,获得多视图局部特征Token序列,并对其进行位置编码,以保留其空间位置信息。随后,将可学习的全局分类Token与多视图特征Token序列合并,输入至Transformer编码器进行全局视图特征融合,获得初始全局分类特征。接下来,最优视图选择模块基于全局视图特征融合过程中的注意力得分矩阵计算各视图对初始全局分类Token的贡献,并选择得分高的视图作为最优视图。最后,将最优视图特征Token序列与初始全局分类Token拼接后输入到Transformer编码器进行最优视图融合,并获得最终的全局分类Token,将其输入分类预测模块获得最终分类概率,并输出选择的最优视图。本文在训练过程中采用了随机丢弃视图和对比学习策略,以进一步提高模型的泛化性能。结果在ModelNet40基准数据集上,所提方法总体识别精度和平均识别精度分别为97.61%和96.36%,在达到当前先进分类水平的同时,基于Transformer注意力得分矩阵选择出的最优视图更具有表征性。结论本文方法利用Transformer实现不同视图特征之间的融合,通过自注意力、残差连接以及多层堆叠机制,Transformer能够有效学习数据的复杂特征,并捕捉不同视图之间的全局上下文关系。同时,其注意力得分矩阵为最优视图选择提供了依据,在实现高效分类的同时,能够选择出最具有表征性的视图。  
      关键词:三维模型分类;Transformer;最优视图选择;对比学习;多视图学习   
      109
      |
      131
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100724515 false
      更新时间:2025-12-18

      医学图像处理

    • 基于Hermite插值函数的分段式牙弓线设计 AI导读

      数字化口腔正畸领域取得新进展,专家提出牙弓线拟合新方法,有效提升正畸效果。
      刘伟杰, 马龙, 魏广顺, 范业莹, 周元峰
      2025, 30(12): 3941-3954. DOI: 10.11834/jig.240591
      基于Hermite插值函数的分段式牙弓线设计
      摘要:目的近年来,数字化口腔正畸备受关注,其中牙弓线设计是计算牙齿目标位的关键。现有方法多采用Beta函数拟合牙弓线,但由于自由度的限制使其难以拟合出代表理想牙弓形态的牙弓线。为此,本文提出通过累加弦长参数化并基于Hermite插值函数的牙弓线拟合方法,以提高牙弓线拟合的精度和灵活性。方法首先,使用牙齿分割技术得到每颗牙齿的数据,并通过牙齿特征点检测方法得到对应牙齿的特征点。其次,选取指定牙齿的特征点,采用累加弦长参数化方法确定最终插值点。最后,通过构建待定系数矩阵,确定方程组,拟合出以分段函数表示的牙弓线。此外,本文基于特征点与拟合牙弓线之间的最短距离,提出两种评估数学函数拟合牙弓线能力的指标。结果本文方法克服了Beta函数原有的局限性,具有较强的可控性。医生可以通过调整控制点,拟合出符合正畸需求的理想牙弓线。各项评价指标均显示,本文方法优于对比的常用方法。此外,将本文方法拟合的牙弓线应用于现有的牙齿正畸自动排列方法中,验证结果显示正畸效果显著提升。结论本文方法拟合牙弓线的精度以及灵活性均优于对比方法,能够有效解决理想牙弓线拟合难的问题,为后续牙齿正畸治疗提供了帮助。  
      关键词:牙弓线;Hermite插值;牙齿正畸;参数化;分段函数   
      58
      |
      140
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100709580 false
      更新时间:2025-12-18

      遥感图像处理

    • 融合多注意力机制的轻量化天基遥感目标检测算法 AI导读

      在遥感图像目标检测领域,专家提出了一种轻量化算法,有效降低模型参数量并提高检测精度,为星上部署提供技术支持。
      李强, 王智, 崔书玮, 何明一
      2025, 30(12): 3955-3968. DOI: 10.11834/jig.250002
      融合多注意力机制的轻量化天基遥感目标检测算法
      摘要:目的天基遥感图像覆盖范围大、被探测目标小而密集、成像背景复杂,大型神经网络在实时性要求高且计算资源受限的天基遥感任务中难以部署。针对以上问题,提出了一种融合空间与通道多注意力机制的轻量化天基遥感图像目标检测算法。方法首先,在YOLOv11n(you only look once version11)的基础上引入CPCA(channel prior convolutional attention)注意力机制,通过提取通道和空间上的注意力特征来丰富网络的目标特征,提升网络的特征提取能力。通过采用基于部分卷积(partial convolution,Pconv)的二维卷积层设计,避免了模型增加注意力模块带来的参数量过大的问题,使得改进后的模型参数量相较于YOLOv11n原始模型减少了0.48 M(约18.53%)。结果实验结果表明,本文算法在DIOR(object detection in optical remote sensing images)数据集上的验证中,模型参数量为2.11 M,并且与多种YOLO算法进行的目标检测实验均取得主要性能的提升。本文算法的模型参数量降低到81.47%,目标检测精度平均提高了1.9%,召回率平均提高了1.2%。此外,本文算法的NPU(neural network processing unit)推理耗时仅为14.8 ms,相对于YOLOv11n原始模型减少了4.8 ms,推理速度提升了24.49%。结论本文提出了一种融合多注意力机制和上下文信息的轻量化遥感图像目标检测算法,在有效降低模型参数量的同时显著提高了检测精度,为遥感图像目标检测算法的星上部署、天基遥感系统的快速在轨处理、解译及实时准确跟踪目标提供重要的技术支持。  
      关键词:天基遥感图像;YOLOv11n;注意力机制;目标检测;模型轻量化;算法部署   
      71
      |
      89
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 124234165 false
      更新时间:2025-12-18
    0