最新刊期

    2025 30 6
    • 序 言 AI导读

      在人工智能领域,专家建立了深度学习体系,为智能技术发展提供新方向。
      2025, 30(6): 1-2. DOI: 10.11834/jig.202505序言-3
      序 言
        
      15
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 112160382 false
      更新时间:2025-06-25

      图像处理与计算机视觉

    • 场景重光照研究综述 AI导读

      场景重光照技术在元宇宙与虚拟现实应用中备受瞩目,专家系统梳理了场景重光照方法,为提升真实性与可控性提供解决方案。
      杨主伦, 刘烨斌, 举雅琨, 刘琼, 李旭涛, 尹亚光, 杨铀, 刘文予
      2025, 30(6): 1543-1575. DOI: 10.11834/jig.240772
      场景重光照研究综述
      摘要:在计算成像领域,场景重光照是一项用于调整和编辑给定图像中光照属性的技术,以呈现与指定光照条件一致且趋近于真实的重光照图像。近年来,场景重光照任务作为元宇宙与虚拟现实应用中的重要组成部分备受学术界和工业界关注,在数码摄像、曝光纠正和影视后期处理等领域都具有重要的应用价值。然而基于人工的场景重新照明流程通常费时费力,既需要影视特效师手动提取准确的前景图像,还需要精心处理图像中的光影信息、边缘细节,对场景各物体之间的交互关系进行调整,以获得与给定虚拟光照环境相融合的真实效果。随着机器视觉技术和计算机图形学的发展,利用算法实现场景重照的方法开始取代人工,以其重渲染的精度和效率吸引包括影视制作在内的许多行业的目光,并且与传统成像模型、光照模型、三维重建和深度学习等结合之后,相关技术在场景重光照的真实性与可控性等方面取得显著进步。鉴于国内外鲜有关于场景重光照任务的研究综述,本文对场景重光照方法进行系统梳理和评述。根据场景重光照研究中各环节的特点,将现有研究工作按流程分为光照解耦、本征分解和重渲染3个过程。光照解耦从原图像中提取环境光照信息并予以本征表达,不仅为后续过程提供光照信息,而且提升了本征分解过程中对于光照不变特征图像的分解效率与估计精度;本征分解过程旨在利用解耦得到的光照信息从原图像中获取场景的表面几何属性与纹理属性;最终的重渲染方法根据给定的目标光照信息与分解得到的表面属性实现对场景的重渲染,使得输出图像的光照属性符合期望光影效果。在剖析上述过程的核心原理与特点的基础上,着重分类讨论典型算法的优势与不足;为方便研究人员开展进一步工作,介绍了场景重光照任务中常用数据集种类以及相关采集设备;最后,总结了该领域研究面临的主要问题和挑战,并展望了未来潜在的研究方向。  
      关键词:计算成像;场景重光照;光照解耦;本征分解;渲染技术   
      133
      |
      110
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86521423 false
      更新时间:2025-06-25
    • 真实场景下图像超分辨技术现状与趋势 AI导读

      在真实场景图像超分辨重建领域,专家系统分析了国内外重要研究进展,为提高成像分辨率提供解决方案。
      孙巍, 王乾宙, 陈雪凌, 丁晨, 闫庆森, 张磊, 张艳宁
      2025, 30(6): 1576-1592. DOI: 10.11834/jig.240775
      真实场景下图像超分辨技术现状与趋势
      摘要:高分辨率的视觉感知对场景的理解、分析等工作十分重要,但在真实场景下受限于拍摄条件、成像设备成本和系统光学器件、电路噪声和传感器的灵敏度等因素,图像往往伴随着各种降质因素影响,表现出模糊、低分辨率等特性。因此,挖掘和利用低分辨率图像中包含的相关信息,利用超分辨重建的方式提高成像分辨率具有十分重要的研究价值。本文系统地分析了国际国内在真实场景下图像超分辨重建领域的重要研究进展,包括问题构造和降质建模、超分辨领域常用数据集与评价指标、传统真实场景下超分辨重建、真实场景下基于监督学习的超分辨重建以及真实场景下基于无监督学习的超分辨重建技术等。其中,问题构造和降质建模部分讨论了降质成像过程及模型化方法。数据集与评价指标部分讨论了超分辨领域常见的合成数据集、真实场景数据集以及定量和定性评价方法。传统超分辨重建部分探讨了早期的超分辨重建方法,包括内插法和基于重建的方法等。基于监督学习的超分辨重建部分则以退化形式为区分,从退化未知与退化已知两个角度进行梳理,探讨如何利用监督信息指导模型参数学习。基于无监督学习的超分辨重建部分则从无监督角度分析讨论低分辨率图像信息的利用,以及退化模型的建模与估计。本文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了真实场景下图像超分辨技术的发展方向。  
      关键词:真实场景;超分辨重建;退化模型;有监督学习;无监督学习   
      229
      |
      218
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 84437942 false
      更新时间:2025-06-25
    • 类脑赋能视觉增强:原理、方法与前沿进展 AI导读

      类脑视觉感知技术在视频增强领域取得新进展,专家深入探讨了事件相机的理论原理和技术手段,为解决视频降质问题提供新思路。
      余磊, 施柏鑫, 王威, 余肇飞, 郭宇飞, 乔宁, 夏桂松
      2025, 30(6): 1593-1615. DOI: 10.11834/jig.240779
      类脑赋能视觉增强:原理、方法与前沿进展
      摘要:类脑视觉感知仿效生物大脑处理视觉信息的机制,通过构建神经形态视觉模型来完成视觉感知任务。事件相机作为一种新型类脑神经形态视觉传感器,仅感知场景光强的动态变化,输出表示场景光强变化的事件脉冲(或简称“事件”)。这种特殊的成像方式使得事件相机不仅具有高动态范围特性,还能对运动引发的场景亮度变化进行几乎连续(μs级)的异步响应。因此,融合事件脉冲不仅可以有效补偿由于目标运动过快导致的帧内和帧间信息缺失,还能填补过曝光区域的饱和失真,缓解真实复杂场景中的运动模糊、视频插帧、卷帘畸变和过曝光等视频降质问题。本报告将深入探讨以事件相机为代表的类脑脉冲视觉成像方法在视频增强任务中的理论原理和技术手段,总结和归纳近年来融合类脑视觉脉冲的视频增强算法的国内外最新进展。同时,针对该领域所面临的诸如数据处理效率较低、暗光条件性能不佳与空间分辨率不足等瓶颈和挑战做出了相对应的分析与讨论。  
      关键词:事件相机;类脑脉冲视觉;视频增强;高动态范围(HDR);运动模糊消除   
      84
      |
      89
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 99640985 false
      更新时间:2025-06-25
    • 目标检测技术在开放环境中的挑战与进展 AI导读

      在计算机视觉领域,目标检测技术通过深度神经网络识别图像中的视觉对象并预测其位置和类别。本文深入分析开放环境下目标检测面临的挑战,探讨改进目标检测系统的可能方向,为实际应用提供系统化视角。
      操晓春, 赵思成, 武阿明, 梁思源, 王立元
      2025, 30(6): 1616-1637. DOI: 10.11834/jig.250004
      目标检测技术在开放环境中的挑战与进展
      摘要:目标检测是计算机视觉领域的核心任务,其通过深度神经网络技术识别图像中的视觉对象并预测其位置和类别。在闭集环境下,目标检测器已显著展现出实用价值;然而,在开放环境中,这些系统面临诸多挑战,包括不断变化的数据分布、新类别的出现以及噪声干扰,均可能影响决策准确性。相较于闭集环境下的综述性研究,开放环境中的目标检测及其特有挑战的应对策略仍显不足。本文深入分析开放环境下目标检测面临的主要挑战,包括域外和类别外数据的处理,以及如何通过鲁棒和增量学习适应环境动态。首次全面分析现有检测方法如何应对这些挑战,总结它们在适应新场景、提高决策鲁棒性以及支持持续学习方面的方法。进一步地,探讨改进目标检测系统的可能方向,包括开发能够处理更广泛数据集的新方法,整合领域知识增强决策的上下文依赖性,设计动态适应的攻防机制和新类别的学习算法。通过这项工作,希望为开放环境中的目标检测技术提供一种全新的、系统化的视角,以促进未来更加稳健的解决方案开发,并推动该技术在实际应用中的进一步发展。  
      关键词:目标检测;开放环境;深度学习;鲁棒性;类别外检测;增量学习;数据分布变化   
      250
      |
      109
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 87967177 false
      更新时间:2025-06-25
    • 在行人重识别领域,预训练大模型技术的研究进展为实现通用行人重识别提供了新思路。
      冯展祥, 赖剑煌, 袁藏, 黄宇立, 赖培杰
      2025, 30(6): 1638-1660. DOI: 10.11834/jig.240426
      走向通用行人重识别:预训练大模型技术在行人重识别的应用综述
      摘要:行人重识别旨在对没有视野重叠覆盖的视域拍摄的行人目标进行身份匹配,是计算机视觉的研究热点,在安防监控场景有重要的研究意义和广阔的应用前景。受限于标注成本过高,行人数据集规模较小,当前行人重识别模型性能还达不到应用的水平,通用行人重识别技术还任重道远。近年来,预训练大模型引发了广泛的关注,获得了快速的发展,其核心技术在行人重识别领域获得了越来越多的应用。本文对预训练大模型技术在行人重识别的应用进行了全面的梳理回顾。首先介绍本领域的研究背景,从行人重识别的研究现状和面对的困难出发,简要阐述了预训练技术和预训练大模型的相关技术,分析预训练大模型技术在行人重识别的研究意义和应用前景。在此基础上,对基于预训练大模型的行人重识别研究进行了详细的介绍,将已有研究分为大规模自监督预训练行人重识别、预训练大模型引导的行人重识别和基于提示学习的行人重识别3类,并在多个数据集对前沿算法的效果和性能进行对比。最后,对该任务进行了总结,分析当前研究的局限,并展望未来研究的方向。整体而言,预训练大模型技术是实现通用行人重识别不可或缺的技术,当前研究还处于探索阶段,行人重识别与预训练大模型技术的结合还不够紧密,如何结合行人先验和预训练大模型技术实现通用行人重识别需要学术界和工业界共同思考和推动。  
      关键词:行人重识别;深度学习;自监督预训练;大模型;提示学习   
      620
      |
      374
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 67910761 false
      更新时间:2025-06-25
    • 基于视觉的非完全标注表面缺陷检测综述 AI导读

      在现代制造业中,非完全标注的表面缺陷检测技术研究取得新进展,为工业智能化发展提供新方案。
      叶标华, 康丹青, 谢晓华, 赖剑煌
      2025, 30(6): 1661-1689. DOI: 10.11834/jig.240434
      基于视觉的非完全标注表面缺陷检测综述
      摘要:在现代制造业中,基于机器视觉的表面缺陷检测是保证产品质量的关键,在工业智能化发展中发挥着重要作用。然而,获取缺陷数据的标注需要花费大量人力和时间成本。随着深度学习、大数据和传感器等技术的发展,如何在非完全标注的情况下实现准确、快速和鲁棒的缺陷识别成为当前的研究热点。鉴于此,对非完全标注场景下的表面缺陷检测技术的研究进展进行全面的梳理回顾。首先简要介绍缺陷检测领域的研究背景、基础概念的定义、常用数据集和相关技术。在此基础上,从标签策略以及任务策略两个角度介绍多种非完全标注场景下的缺陷检测技术。在标签策略中,比较了基于无监督、半监督和弱监督学习下的不同缺陷检测算法的研究思路。在任务策略中,总结了领域自适应、小样本以及大模型的表面缺陷检测算法的最新进展。接着,在多个数据集上横向对比不同标签策略以及任务策略中前沿算法的性能。最后,对该任务中的弱小目标检测、伪标签质量评估以及大模型的知识迁移等问题进行总结和展望。总体而言,非完全标注的表面缺陷检测是一个充满挑战且技术性极强的问题。同时,如何进一步推动表面缺陷检测技术进一步利用非完全标注的数据,并切实在工业制造场景中落地应用还需要更深入的研究。  
      关键词:表面缺陷检测;非完全标注;无监督学习;弱监督学习;半监督学习;域适应;小样本   
      110
      |
      477
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109665 false
      更新时间:2025-06-25
    • 增量学习研究进展 AI导读

      在深度学习领域,研究人员总结了增量学习的最新进展,为缓解灾难性遗忘问题提供新思路。
      付浩, 冯前, 涂嘉航, 赵涵斌, 张超, 杜歆, 钱徽
      2025, 30(6): 1690-1716. DOI: 10.11834/jig.240790
      增量学习研究进展
      摘要:海量的数据和计算机强大的计算能力使深度模型在众多单模态和多模态任务上取得优异性能。当前高性能深度模型通常在静态的学习场景中训练,模型只在全部的数据集上进行一次联合训练。然而,在实际应用中,数据是不断产生的,任务以多批次的形式持续地到达,在这种环境下,深度模型面临动态的学习场景,即增量学习场景。由于无法同时访问所有的旧任务数据,增量学习场景中的深度模型在训练时会面临灾难性遗忘问题。如何缓解灾难性遗忘问题是增量学习领域的重要研究目标。本文围绕增量学习领域的研究进展,从增量学习问题定义、评估指标、增量学习范式和增量学习挑战总结增量学习相关背景;从模型参数正则化、样本重放、模型结构化和预训练模型微调4个角度汇总增量学习最新方法;从语义分割、图像生成和文本生成3个单模态领域应用以及视觉—语言、音频—视觉两个多模态领域应用归纳增量学习应用及相关方法。从国内和国外两个角度对比增量学习领域的科研投入和发展情况,并对增量学习领域的未来发展进行展望。本文可为研究人员和从业人员提供增量学习领域的最新进展。  
      关键词:增量学习(IL);持续学习;灾难性遗忘(CF);机器学习;深度学习   
      107
      |
      57
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 99645162 false
      更新时间:2025-06-25

      三维视觉与SLAM

    • 2024年度三维视觉前沿趋势与十大进展 AI导读

      三维视觉技术突破,推动感知建模生成交互全链路智能化,为构建具身通用智能与元宇宙提供核心支撑。
      刘烨斌, 苏昊, 高林, 弋力, 王鹤, 廖依伊, 施柏鑫, 曹炎培, 洪方舟, 董豪, 张举勇, 王鑫涛, 许华哲, 杨蛟龙, 康炳易, 楚梦渝, 孙赫, 陈文拯, 马月昕, 张鸿文, 郭裕兰, 周晓巍, 章国锋, 韩晓光, 戴玉超, 陈宝权
      2025, 30(6): 1717-1743. DOI: 10.11834/jig.250057
      2024年度三维视觉前沿趋势与十大进展
      摘要:三维视觉作为计算机视觉、图形学、人工智能与光学成像的交叉学科,是构建具身通用智能与元宇宙的核心基石。2024年,以神经辐射场和高斯泼溅为代表的可微表征技术持续发展和完善并逐渐突破传统三维重建边界,无论从微观细胞组织到宏观物理天体,还是从静态场景到动态人体,均取得显著的精度提升;在生成式人工智能技术和大模型规模定律(scaling law)的推动下,三维视觉迎来从优化到可泛化前馈生成的范式跃迁,并在可控数字内容生成方向取得重要进展和突破;具身智能持续备受关注,研究者逐渐意识到三维虚拟仿真数据和三维人体运动数据的捕捉和生成,是训练具身智能的核心关键;随着世界模型和空间智能的概念成为科技界热议的焦点,对物理世界进行建模、对空间关系进行理解、对未来状态进行预测成为重要研究方向,而这些都离不开三维视觉技术的支撑;此外,计算成像技术的革新则通过非传统视觉传感器与新型重建算法,突破了传统三维重建的物理限制与性能瓶颈。这些技术突破正推动着三维视觉进入“感知—建模—生成—交互”全链路智能化、规模化学习的新阶段。为促进学术交流,本文分析总结三维视觉领域前沿趋势,并遴选年度十大研究进展,为学术界与产业界提供参考观点。  
      关键词:三维视觉;具身智能;三维表征;三维生成;三维重建   
      471
      |
      259
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89301003 false
      更新时间:2025-06-25
    • 多模态大模型驱动的三维视觉理解技术前沿进展 AI导读

      三维视觉感知和理解在机器人导航、自动驾驶等领域取得重大进展,多模态大模型融合3D数据展现独特优势,为空间智能领域发展铺平道路。
      冯明涛, 沈军豪, 武子杰, 彭伟星, 钟杭, 郭裕兰, 舒祥波, 张辉, 董伟生, 王耀南
      2025, 30(6): 1744-1791. DOI: 10.11834/jig.240588
      多模态大模型驱动的三维视觉理解技术前沿进展
      摘要:三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得快速进展,为理解和与3D物理世界交互提供了前所未有的能力,并展现了独特优势,如上下文学习、逐步推理、开放词汇能力和丰富的世界知识。本文涵盖3D视觉数据基本表示,从点云到3D高斯泼溅;梳理主流多模态大模型的发展脉络;对联合多模态大模型的3D视觉数据表征方法进行归纳总结;梳理基于多模态大模型的3D理解任务,如3D生成与重建、3D目标检测、3D语义分割、3D场景描述、语言引导的3D目标定位和3D场景问答等;提炼基于多模态大模型的机器人具身智能系统中空间理解能力的提升策略;最后梳理了核心数据集和对未来前景的深刻讨论,以期促进该领域的深入研究与广泛应用。本文全面分析揭示了本领域的重大进展,强调利用多模态大模型进行3D视觉理解的潜力和必要性。因此,本综述目标是为未来的研究绘制一条路线,探索和扩展多模态大模型在理解和与复杂3D世界的互动能力,为空间智能领域的进一步发展铺平道路。  
      关键词:三维视觉;多模态大模型;三维视觉表征;三维视觉生成;三维重建;机器人三维视觉;三维场景理解   
      384
      |
      721
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79601334 false
      更新时间:2025-06-25
    • SLAM新机遇—高斯溅射技术 AI导读

      在机器人技术和自动驾驶领域,同步定位与建图技术取得新进展。基于高斯溅射的SLAM方法以其实时渲染速度和照片级场景渲染效果,为该领域带来新的研究热点和机遇。
      谭臻, 牛中颜, 张津浦, 陈谢沅澧, 胡德文
      2025, 30(6): 1792-1807. DOI: 10.11834/jig.240443
      SLAM新机遇—高斯溅射技术
      摘要:同步定位与建图(simultaneous localization and mapping, SLAM)是指在未知环境中同时实现自主移动机器人的定位和环境地图构建,其在机器人技术和自动驾驶等领域有着重要价值。本文首先回顾SLAM技术的发展历程,从早期的手工特征提取方法到现代的深度学习驱动的解决方案。其中,基于神经辐射场(neural radiance fields, NeRF)的SLAM方法利用神经网络进行场景表征,进一步提高了建图的可视化效果。然而,这类方法在渲染速度上仍然面临挑战,限制了其实时应用的可能性。相比之下,基于高斯溅射(Gaussian splatting, GS)的SLAM方法以其实时的渲染速度和照片级的场景渲染效果,为SLAM领域带来新的研究热点和机遇。接着,按照RGB/RGBD、多模态数据以及语义信息3种不同应用类型对基于高斯溅射的SLAM方法进行分类和总结,并针对每种情况讨论相应SLAM方法的优势和局限性。最后,针对当前基于高斯溅射的SLAM方法面临的实时性、基准一致化、大场景的扩展性以及灾难性遗忘等问题进行分析,并对未来研究方向进行展望。通过这些探讨和分析,旨在为SLAM领域的研究人员和工程师提供全面的视角和启发,帮助分析和理解当前SLAM系统面临的关键问题,推动该领域的技术进步和应用拓展。  
      关键词:同步定位与建图(SLAM);神经辐射场(NeRF);高斯溅射(GS);RGB-(D);多模态;语义信息   
      1121
      |
      271
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864296 false
      更新时间:2025-06-25
    • 复杂城市场景三维网格模型智能解译技术综述 AI导读

      城市3D Mesh模型智能解译取得迅猛发展,系统回顾了深度神经网络方法,为城市设施数字化管理提供新方案。
      张广运, 张荣庭, 张余, 王麒雄, 冯家齐, 姜鸿翔
      2025, 30(6): 1808-1827. DOI: 10.11834/jig.240778
      复杂城市场景三维网格模型智能解译技术综述
      摘要:城市3D Mesh模型解译是城市级实景三维建设的重要环节,有助于建筑设施、交通设施等城市设施的数字化和智能化、精细化管理,在城市更新、环境整治和城市仿真等城市行动中发挥积极作用。当前城市3D Mesh模型的语义化、单体化仍主要由人工勾勒实体轮廓,通过实体边界将每一个单独地物从城市3D Mesh模型中切割出来并赋予语义信息,然而城市3D Mesh模型通常是以瓦块的形式表达,在进行跨瓦块切割时容易让模型出现破碎、接缝和割裂等问题。为此,学者们开始研究基于深度神经网络的城市3D Mesh模型智能解译。然而,城市3D Mesh模型的智能解译却面临着巨大挑战,如城市3D Mesh模型不规则/非水密,传统卷积网络难以直接应用;城市3D Mesh模型多尺度特征获取困难等。虽然深度神经网络在城市3D Mesh模型解译方面的应用起步较晚,但该领域的研究依然取得了迅猛发展。因此,本文以城市3D Mesh模型智能解译为主线,系统回顾和总结现有面向城市3D Mesh模型解译的深度神经网络方法,根据城市3D Mesh模型表达方式的不同,将面向城市3D Mesh模型解译的深度神经网络方法分为3类,即面向多视图表示的方法、面向质心点云表示的方法和面向3D Mesh模型元素的方法,对这3类方法进行详细比较,并总结了当前面临的挑战;其次,梳理了城市3D Mesh模型智能解译常用的6个基准数据集,比较了多种方法在这些基准数据集上针对城市3D Mesh模型语义分割任务的性能表现;最后,对城市3D Mesh模型解译未来的发展方向和潜在应用前景进行了深入分析和讨论。  
      关键词:数字中国;实景三维;深度学习;场景解译;城市三维网格   
      93
      |
      265
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 84437857 false
      更新时间:2025-06-25
    • 面向复杂动态场景的无人移动视觉技术研究进展 AI导读

      在无人系统领域,专家深入探讨了复杂动态场景下的无人移动视觉技术,为提升物理世界感知解译能力奠定基础。
      张艳宁, 王昊宇, 闫庆森, 杨佳琪, 刘婷, 符梦芹, 吴鹏, 张磊
      2025, 30(6): 1828-1871. DOI: 10.11834/jig.240458
      面向复杂动态场景的无人移动视觉技术研究进展
      摘要:随着人类活动范围的不断扩大和国家利益的持续发展,新域新质无人系统已成为世界各大国科技战略竞争的制高点和制胜未来的关键力量。无人移动视觉技术是无人系统辅助人类透彻感知理解物理世界的核心关键之一,旨在基于无人移动平台捕获的视觉数据,精准感知理解复杂动态场景与目标特性。深度神经网络凭借其超强的非线性拟合能力和区分能力,已经成为无人移动视觉技术的基准模型。然而,实际应用中无人系统通常面临成像环境复杂动态、成像目标高速机动—伪装对抗、成像任务需求多样,导致基于深度神经网络的无人移动视觉模型成像质量大幅退化,场景重建解译与目标识别分析精度显著下降,从而严重制约无人系统在复杂动态场景下对物理世界的感知解译能力与应用前景。针对这一挑战,本文深入探讨面向复杂动态场景的无人移动视觉技术发展现状,从图像增强处理、三维重建、场景分割、目标检测识别以及异常检测与行为分析等5个关键技术入手,介绍每项技术的基本研究思路与发展现状,分析每项技术中典型算法的优缺点,探究该技术目前依然面临的问题与挑战,并展望未来研究方向,为面向复杂动态场景的无人移动视觉技术长远发展与落地奠定基础。  
      关键词:无人移动视觉;复杂动态场景;图像增强;三维重建;场景分割;目标检测;异常检测   
      124
      |
      456
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109536 false
      更新时间:2025-06-25

      生成式人工智能与应用

    • 面向计算机视觉的数据生成与应用研究进展 AI导读

      在计算机视觉领域,基于生成对抗网络和扩散模型的数据生成技术,为图像和视频数据集构建提供了新动力,推动了技术发展。
      马愈卓, 张永飞, 贾伟, 刘家瑛, 甘甜, 杨文瀚, 卓君宝, 刘武, 马惠敏
      2025, 30(6): 1872-1952. DOI: 10.11834/jig.250085
      面向计算机视觉的数据生成与应用研究进展
      摘要:大规模图像和视频数据集是驱动计算机视觉算法发展的核心要素。面向计算机视觉任务,构建大规模图像和视频数据集是一项重要但复杂的任务。基于生成对抗网络和扩散模型等数据生成方法可以可控地生成大规模、多样性的图像和视频数据,有效替代或弥补真实图像和视频数据集,为计算机视觉技术领域的发展提供了新的动力。本文在对面向计算机视觉的图像和视频数据生成与应用背景简介的基础上,首先,从以几何变换等为代表的传统数据增广和生成、以虚拟引擎和神经辐射场等为代表的基于三维渲染的数据生成方法、以生成对抗网络和扩散模型等为代表的基于深度生成模型的生成方法等3方面系统调研典型的图像和视频数据生成技术与模型;其次,梳理了典型的图像和视频数据生成技术与模型在图像增强,目标检测跟踪与姿态动作识别等个体分析,基于图像和视频的生物特征识别、人员计数与人群行为分析等群体行为分析、自动驾驶、视频生成、具身智能等典型计算机视觉相关任务中的应用;最后,分析面向计算机视觉的数据生成与应用中存在的问题,并展望未来发展趋势,以期促进图像和视频数据生成及计算机视觉技术的发展。  
      关键词:计算机视觉;数据生成与应用;传统数据生成;三维渲染;深度生成模型;图像增强;个体分析;生物特征识别;群体分析;自动驾驶;视频生成;具身智能   
      266
      |
      100
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 90810490 false
      更新时间:2025-06-25
    • 2D/3D生成式人工智能技术发展及创意产业应用 AI导读

      在AIGC领域,大语言模型和降噪扩散模型推动技术快速发展,专家总结了2D/3D技术进展,为创意产业提供新方向。
      郑屹, 黄向, 秦菲儿, 梁缘, 黄子瑄, 曹炎培, 陶鑫, 郑明悟, 杨皓天, 万鹏飞, 陈京炜, 黄心渊
      2025, 30(6): 1953-1984. DOI: 10.11834/jig.250005
      2D/3D生成式人工智能技术发展及创意产业应用
      摘要:随着数据和模型规模的增长,以大语言模型(large language model,LLM)和降噪扩散模型(denoising diffusion model)为代表的生成式技术的生成结果在多样性和品质上不断提高,这些大的生成式模型正在推动生成式人工智能(artificial intelligence generated content,AIGC)领域的快速发展。本文以创意产业的核心需求为切入点,对AIGC 2D/3D领域在2023—2024年间的技术和产业发展进行回顾与总结。首先总结生成式技术的发展背景和其市场应用价值。其次根据AIGC 2D/3D领域各自的技术发展进行总结,可以清晰地感受到该技术正在快速地发展和变化,从以生成式对抗网络(generative adversarial network,GAN)为核心快速发展为以降噪扩散模型和Transformer结构为核心。新结构具有更强的表达能力、更丰富的多样性和更灵活的控制能力。在AIGC 2D部分,以高质量生成基础、可控性生成技术和可编辑性生成技术为分类视角,对图像生成技术和视频生成技术分别进行梳理和总结;在AIGC 3D部分,在总结3D数据多样性的表达方式基础上,以输入数据的类型、输出数据的类型、生成方法3个不同视角对相关技术进行梳理。接下来分别总结两类技术当前遇到的技术问题和产业应用问题,如何提供更符合产业创作标准和需求的新技术是AIGC 2D/3D技术未来发展的重点方向。最后整体回顾过去20年间创意产业在技术发展带动下呈现出螺旋式向上发展的特征,并对技术发展的趋势提出一些思考与见解。  
      关键词:生成式人工智能(AIGC);AIGC 2D;AIGC 3D;综述;创意产业应用;大语言模型(LLM)   
      95
      |
      64
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 99641028 false
      更新时间:2025-06-25
    • 医学影像中的生成技术 AI导读

      医学影像领域跨模态图像合成技术取得新进展,为多模态影像诊断提供便利,但存在技术挑战。
      潘永生, 马豪杰, 夏勇, 张艳宁
      2025, 30(6): 1985-2000. DOI: 10.11834/jig.240459
      医学影像中的生成技术
      摘要:医学影像是一种利用各种成像技术捕捉人体内部结构和功能的医学诊断方法。这些技术可以提供关于人体解剖、生理和病理状态的视觉信息,在疾病诊断、治疗和预后预测中发挥着重要作用。由于不同类型或子类型的医学影像反映患者身体的不同信息,在医疗诊断时往往需要多种不同类型或子类型的医学影像来获取更加全面的信息,从而提高诊断准确率。然而在现实生活中,多模态影像数据获取面临采集时间长、费用高以及可能增加辐射剂量等困难。因此,学者期待能够使用图像处理技术进行跨模态医学影像合成,即使用某一种或一些模态的医学影像生成另一种或一些模态的医学影像。本文主要介绍医学图像领域中跨模态图像合成技术和跨模态医学影像合成的应用。跨模态医学影像合成虽然能为多模态影像诊断带来便利,但也存在一些技术挑战。例如合成影像和真实影像在诊断性能上具有明显差异,从而导致合成影像的临床失效问题,隐私和伦理问题会导致高质量多模态医学影像数据获取成本高的问题。同时,由于不同模态的影像数据在分辨率、对比度和图像质量上存在一定差异,这种差异会影响生成模型在生成过程中的一致性。如何解决不同模态之间的数据不一致性也是跨模态医学影像合成面临的挑战,研究者大多从模型本身入手,通过提高模型的表示能力或设计针对具体任务的约束条件来提高合成影像的质量,所开发的跨模态医学影像合成技术已应用于影像采集、重建、配准、分割、检测和诊断等环节,给许多问题带来新的解决思路和方法。  
      关键词:人工智能;医学影像;跨模态图像生成;深度学习;人工智能内容生成(AIGC)   
      166
      |
      165
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864676 false
      更新时间:2025-06-25

      多模态大模型与安全

    • 知识驱动的跨媒体分析与推理研究综述 AI导读

      跨媒体分析与推理领域取得新进展,专家综述了知识图谱技术在跨媒体内容分析推理中的应用,为提高分析的解释性、回溯性和泛化能力提供解决方案。
      王树徽, 许倩倩, 黄庆明
      2025, 30(6): 2001-2022. DOI: 10.11834/jig.240413
      知识驱动的跨媒体分析与推理研究综述
      摘要:跨媒体分析与推理在网络内容管理和服务等领域具有重要意义。然而现有方法在处理复杂的跨域、异构、多源数据时存在解释性、可回溯性和泛化能力不足的问题。大语言模型尽管在大量跨媒体分析任务中取得了显著成就,但其架构的黑盒属性和训练数据的时效性限制了模型的广泛有效性。相比之下,知识图谱技术以其结构化、语义化和可扩展性的特点,能够提供透明、准确和可回溯的推理过程,从而提高分析的解释性、回溯性和泛化能力。为了更好地促进跨媒体分析与推理研究的发展,本文对知识图谱技术在跨媒体内容分析推理中的应用进行了调研和综述,重点介绍了跨媒体知识图谱构建、表征和泛化推理3个关键问题,并讨论了当前跨媒体知识图谱研究中存在的问题、分析展望了未来的研究方向。  
      关键词:跨媒体计算;跨媒体知识图谱构建;跨媒体知识图谱表征;跨媒体知识推理与泛化;可信跨媒体智能   
      57
      |
      47
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 99640163 false
      更新时间:2025-06-25
    • 大模型时代的光学文字识别:现状及展望 AI导读

      深度学习技术推动OCR技术发展,多模态大模型提升复杂场景理解与生成能力,多任务统一大模型简化模型设计,提高处理效率。
      李鸿亮, 刘禹良, 廖文辉, 黄明鑫, 张朔, 金连文
      2025, 30(6): 2023-2050. DOI: 10.11834/jig.250098
      大模型时代的光学文字识别:现状及展望
      摘要:随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。本文回顾了OCR和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。此外,本文还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。  
      关键词:大语言模型(LLM);多模态大模型(MLLM);光学字符识别(OCR);文档处理;文档理解   
      96
      |
      69
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89556365 false
      更新时间:2025-06-25
    • 多模态大模型安全研究进展 AI导读

      多模态大模型安全风险研究取得进展,专家总结了对抗攻击、越狱攻击等风险,并提出解决方案,为大模型安全技术发展提供新视角。
      郭园方, 余梓彤, 刘艾杉, 周文柏, 乔通, 李斌, 张卫明, 康显桂, 周琳娜, 俞能海, 黄继武
      2025, 30(6): 2051-2081. DOI: 10.11834/jig.250067
      多模态大模型安全研究进展
      摘要:多模态大模型的安全性研究已成为当下人工智能领域的焦点。由于大模型以深度神经网络为核心构建,因此与深度神经网络类似,存在多种安全风险。此外,由于其特有的复杂性,以及广泛的应用场景,也使得大模型面临一些独特的安全风险。本文系统地总结多模态大模型的安全风险,包括对抗攻击、越狱攻击、后门攻击、版权窃取、幻觉现象、泛化问题以及偏见问题等。具体来说,在对抗攻击中,攻击者通过构造微小但具有欺骗性的对抗样本,使大模型在面对带噪输入时产生严重的误判;越狱攻击利用大模型的复杂结构,绕过或破坏原有的安全约束和防御措施,使模型执行未授权的操作,甚至泄露敏感数据;后门攻击则通过在大模型的训练阶段植入隐秘的触发器,使模型在特定条件下做出攻击者预期的反应;未经授权的窃取者可能未经模型拥有者的同意随意分发或进行商业使用,将导致模型版权拥有者遭受损失;幻觉现象,即模型输出与输入不一致的问题;泛化问题即大模型当前应对部分新数据分布或风格的能力仍显不足;大模型在性别、种族、肤色和年龄等敏感问题上的偏向性可能引发伦理等问题。随后,针对这些安全风险分别介绍相应的解决方案。本文旨在为理解和应对多模态大模型的独特安全挑战提供一个独特的视角,促进多模态大模型安全技术的发展,引导未来相关安全技术的发展方向。  
      关键词:多模态大模型;大模型安全;对抗样本(AE);越狱攻击;后门攻击;版权窃取;模型幻觉;模型偏见   
      198
      |
      79
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 99641073 false
      更新时间:2025-06-25
    • 针对视觉深度学习模型的物理对抗攻击研究综述 AI导读

      深度学习计算机视觉技术取得进步,但对抗攻击引发鲁棒性担忧。专家总结114篇论文,分析物理对抗攻击挑战,为研究提供参考。
      彭振邦, 张瑜, 党一, 陈剑奇, 史振威, 邹征夏
      2025, 30(6): 2082-2119. DOI: 10.11834/jig.240442
      针对视觉深度学习模型的物理对抗攻击研究综述
      摘要:基于深度学习模型的计算机视觉技术经过十余年的研究,目前已经取得较大的进步,大量成熟的深度学习模型因其领先于传统模型的高精度、快速性特点,广泛用于计算机视觉相关的各类关键领域。然而,研究者发现,向原始图像样本中添加精心设计的微小扰动可显著地干扰深度学习模型的决策结果。这种精心设计的对抗攻击引发了人们对于深度学习模型鲁棒性和可信赖程度的担忧。值得注意的是,一些研究者以日常生活中常见的实体或自然现象为载体,设计了可于实际应用场景中实施的物理对抗攻击。这种具备较高实用性的对抗攻击不仅能够较好地欺骗人类观察者,同时对深度学习模型产生显著的干扰作用,因而具备更实际的威胁性。为充分认识物理对抗攻击对基于深度学习模型的计算机视觉技术的实际应用带来的挑战,本文依据物理对抗攻击设计的一般性流程,对所整理的114篇论文设计的物理对抗攻击方法进行了归纳总结。本文首先依据物理对抗攻击的建模方法对现有工作进行归纳总结,随后对物理对抗攻击优化约束和增强方法进行概述,并对现有工作的物理对抗攻击实施与评估方案进行总结,最后对现有物理对抗攻击所面临的挑战和具备较大潜力的研究方向进行分析与展望,希望能为高质量的物理对抗样本生成方法设计和可信赖的深度学习模型研究提供有参考意义的启发。本综述主页将展示在https://github.com/Arknightpzb/Survey-of-Physical-adversarial-attack。  
      关键词:物理对抗攻击;一般性设计流程;对抗样本实用性;深度学习;计算机视觉   
      90
      |
      640
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109349 false
      更新时间:2025-06-25

      人机交互与情感计算

    • 面向表情、语音和语言的多模态情感识别综述 AI导读

      在人工智能领域,无感式情感识别技术取得重要进展,专家系统梳理了该技术在医疗健康、社会服务和智能驾驶等领域的应用案例,为情感识别研究提供参考。
      王善敏, 刘成广, 陈胜宇, 刘青山
      2025, 30(6): 2120-2138. DOI: 10.11834/jig.250168
      面向表情、语音和语言的多模态情感识别综述
      摘要:情感识别旨在利用计算机建立情感表达的载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,在人机交互的多个领域发挥重要作用,是人工智能领域的重要发展方向。心理学研究表明人们内心情感状态的外在表现通常是通过面部表情、语音和语言等多模态行为信号进行联合表达的,并伴随脑电、心电等生理指标的变化。相较于脑电、心电等生理信号,面部表情、语音和语言等行为信号凭借其非侵入式的信号采集方式,在无感式情感识别中展现出显著优势。本文回顾国内外无感式情感识别的发展历程,并从5个方面对当前研究现状进行系统梳理与归纳。首先,阐述了离散情感模型和维度情感模型对情感的表达作用;其次,对常用的情感数据库进行了统计分析;在此基础上,围绕情感的无感式表达,分别从表情、语音、语言和多模态4个维度,详细阐述了表情识别、语音情感识别、语言情感识别和多模态情感识别的相关技术,并针对其中的关键技术挑战,对相关研究工作进行了总结与归纳;进一步,介绍了无感式情感识别在医疗健康、社会服务和智能驾驶等多个智能交互领域的应用案例;最后,总结了情感识别领域目前面临的挑战,并对未来发展方向进行了展望。本文旨在对情感识别相关研究进行深入的分析与总结,为该领域的研究者提供有价值的参考。  
      关键词:表情识别;语音情感识别;语言情感识别;多模态情感识别;智能交互   
      177
      |
      65
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 98368097 false
      更新时间:2025-06-25
    • 情智兼备数字人与机器人研究进展 AI导读

      情智兼备数字人与机器人技术研究取得新进展,专家系统性分析技术现状与进展,为提升人机交互自然性、个性化服务和用户体验提供新思路。
      赵思成, 丰一帆, 张知诚, 孙斌, 张盛平, 高跃, 杨巨峰, 刘敏, 姚鸿勋, 王耀南
      2025, 30(6): 2139-2160. DOI: 10.11834/jig.240780
      情智兼备数字人与机器人研究进展
      摘要:情智兼备数字人与机器人技术旨在开发具备情感理解和个性化响应能力的智能系统,这一方向逐渐成为学术界和社会各界的研究焦点。本文围绕脑认知驱动的情感机理、多模态情智大模型的融合与解译、个性化情感表征与动态计算以及可交互情绪化内容生成调控等4个方面,系统性地分析情智兼备数字人与机器人技术的研究现状与进展,并对情感智能技术进行总结和展望。展望未来,情智兼备数字人与机器人将在医疗陪护、智能教育和心理健康等领域展现出广阔的应用前景,并将在提升人机交互的自然性、个性化服务以及用户体验方面发挥重要作用。  
      关键词:情感计算;数字人;机器人;多模态情感大模型;情感机理   
      208
      |
      113
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86521355 false
      更新时间:2025-06-25

      典型场景应用

    • 基于深度学习的医学图像分割方法综述 AI导读

      医学图像分割技术快速发展,基于深度学习的方法成为主流,包括基于CNN、视觉Transformer和视觉Mamba的分类。
      石军, 王天同, 朱子琦, 赵敏帆, 王炳勋, 安虹
      2025, 30(6): 2161-2186. DOI: 10.11834/jig.240467
      基于深度学习的医学图像分割方法综述
      摘要:医学图像分割是临床医学图像分析的重要组成部分,目标是准确识别和分割医学图像中的人体解剖结构或病灶等感兴趣区域,为临床疾病的诊断、治疗规划以及术后评估等应用场景提供客观、量化的决策依据。随着可用标注数据规模的不断增长,基于深度学习的医学图像分割方法迅速发展,展现出远超传统图像分割方法的精度和鲁棒性,已成为该领域的主流技术。为了进一步提高分割精度,大量研究集中在对分割模型的结构改进上,产生了一系列结构迥异的分割方法。总的来说,现有的基于深度学习的医学图像分割方法从模型结构上可以分为3类:基于卷积神经网络(convolutional neural network, CNN)、基于视觉Transformer以及基于视觉Mamba。其中,以U-Net为代表的基于CNN的方法最早广泛应用于各类医学图像分割任务。这类方法一般以卷积操作为核心,能够有效提取图像的局部特征。相比之下,基于视觉Transformer的方法更擅长捕捉全局信息和长距离依赖关系,能够更好地处理复杂的上下文信息。基于视觉Mamba的方法作为一种新兴架构,具有全局感受野和线性计算复杂度的特点,表现出巨大的应用潜力。为了深入了解基于深度学习的医学图像分割方法的发展脉络、优势与不足,本文对现有方法进行系统梳理和综述。首先简要回顾上述3类主流分割方法的结构演进历程,分析不同方法的结构特点、优势与局限性,然后从算法结构、学习方法和任务范式等多方面深入探讨医学图像分割领域面临的主要挑战及机遇,最后对基于深度学习的医学图像分割方法的未来发展方向和应用前景进行深入分析和讨论。  
      关键词:深度学习(DL);医学图像分割;卷积神经网络(CNN);视觉Transformer(ViT);视觉Mamba   
      297
      |
      380
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79106601 false
      更新时间:2025-06-25
    • 全栈全谱:医疗影像人工智能的探索与应用 AI导读

      医疗影像AI技术在疾病检测、诊断和治疗中发挥关键作用,专家系统探讨了其现状、方法和进展,为后续研究提供参考。
      陈磊, 孙开聪, 吴交交, 石峰, 沈定刚
      2025, 30(6): 2187-2206. DOI: 10.11834/jig.240449
      全栈全谱:医疗影像人工智能的探索与应用
      摘要:医疗影像人工智能(artificial intelligence, AI)作为医疗影像领域的重要技术,受到广泛关注与研究。医疗影像AI在疾病检测、诊断和治疗中发挥着关键作用,但目前在应用中仍面临众多挑战。本文对医疗影像AI的现状、主要方法和进展进行了系统性探讨,并对其在真实医疗场景中的表现进行了分析和总结。首先介绍了主要的医疗影像AI算法,包括AI映射模型、AI检测模型、AI分割模型和AI分类模型,并阐述了这些算法在医疗影像中的应用和进展。然后重点阐述了全栈全谱的理念,全面介绍了其在医疗影像中的应用,包括人工智能在MR(magnetic resonance)成像、CT(computed tomography)成像和PET(positron emission tomography)成像中的影像重建应用与进展。接着描述了脑卒中一站式流程中的AI应用场景,包括出血性脑卒中和缺血性脑卒中的AI解决方案、危险因子的识别与管理,以及智能诊疗流程。进一步介绍了肺癌防治流程中的AI应用,从早期筛查和靶重建、表征量化分析、恶性风险评估,到三维术前规划、随访评估及结构化报告自动生成,全面展示了AI在肺癌防治中的应用。最后介绍了心血管AI全流程,包括冠状动脉精准成像、钙化积分智能早筛、三维分析辅助诊疗及其他疾病中的探索。本文总结了当前医疗影像AI的研究现状与未来发展方向,并对相关文献进行了回顾与分析,为后续研究提供了参考。  
      关键词:医疗影像;人工智能(AI);深度学习;全栈全谱;医疗场景   
      567
      |
      114
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100636070 false
      更新时间:2025-06-25
    • 高光谱图像智能分类研究综述与展望 AI导读

      在高光谱图像分类领域,专家深入探讨了研究进展和未来趋势,为技术发展提供洞见,对研究和应用具有指导意义。
      何明一, 李强, 郭英, 闫红梅
      2025, 30(6): 2207-2238. DOI: 10.11834/jig.250045
      高光谱图像智能分类研究综述与展望
      摘要:结合国内外发展动态和笔者团队30余年高光谱图像分类研究实践,深入探讨、综述高光谱图像分类的研究进展与未来发展趋势。从新的视角将多光谱和高光谱图像分类方法划分为4类:1)传统方法,即特征提取加常规分类器的方法;2)常规学习方法,即特征提取加常规学习分类器的方法;3)深度学习方法,即基于深度学习的端对端自动特征挖掘与分类的方法;4)数据与知识融合驱动的方法,即深度学习方法与领域知识和特征融合的方法。其中,第2类至第4类方法统称为智能分类方法,是本文的主题。本文是国内外第1篇高光谱图像智能分类研究综述论文。首先,回顾并梳理高光谱图像分类的背景和发展历程,介绍为高光谱图像分类研究和验证测试提供基础的代表性高光谱卫星和高光谱数据集。接着,重点围绕特征挖掘和分类器两个核心方向,分别介绍高光谱图像特征挖掘、传统分类方法、常规学习分类方法和深度学习分类方法,列举若干代表性模型、方法及应用案例。最后,讨论该领域目前仍存在的问题和挑战,并对未来发展方向进行讨论:数据与知识联合驱动的深度学习方法成为热点,多尺度、多分辨率、多特征和多分类器的有效融合是提高高光谱图像分类精度的重要途径,小样本学习、零样本迁移学习以及轻量化、有限精度技术神经网络在星载高光谱图像应用中值得重视。研究表明,本文对高光谱图像分类方法的4类划分体现了技术的发展历史、当前重点和未来趋势,其中数据与知识融合的高光谱图像分类(即第4类方法)是对高光谱图像分类前沿研究方向的洞见,对未来研究和应用具有重要指导意义。  
      关键词:高光谱图像(HSI);智能分类;特征挖掘;神经网络;深度学习   
      696
      |
      248
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 88037817 false
      更新时间:2025-06-25
    • 小行星抵近探测中的图像智能处理技术进展 AI导读

      在深空探测领域,小行星探测任务中图像智能处理技术的研究现状与发展趋势被系统综述,为推进小行星探测任务的技术创新提供参考。
      尹继豪, 赵欣语, 崔林艳, 魏晓东
      2025, 30(6): 2239-2256. DOI: 10.11834/jig.240776
      小行星抵近探测中的图像智能处理技术进展
      摘要:小行星是太阳系中重要的天体,保留了早期形成和演化的历史信息,可能提供地球生命与水起源的线索。自20世纪90年代以来,针对小行星的科学探测和在轨处置活动逐渐增多,成为深空探测领域的热点。在小行星抵近探测任务中,探测器在不同距离拍摄的图像数据是研究小行星表面特征和物理特性的主要来源。然而,小行星表面复杂的地貌结构、动态变化的光照条件以及探测器与目标之间不断变化的姿态,导致获取的图像数据具有高度的独特性和多样性,使传统图像处理技术在适应性上存在不足。引入图像智能技术进行自动化处理与分析,将增强小行星探测任务对深空环境的认知能力,提升科学效益和成功率。本文系统综述小行星抵近探测任务中图像智能处理技术的研究现状与发展趋势,围绕表面地物识别、三维形貌重建和物理特性反演3个关键方向,全面分析现有技术的优势与局限,结合深度学习、多源数据融合等最新技术,讨论其在小行星复杂表面环境中的适应性与应用潜力。本文还对国内外产业界和学术界的成功经验与技术路径进行总结,剖析当前技术在数据标准化、模型泛化性及实际任务应用中的不足。最后,探讨未来研究的发展趋势,为推进小行星探测任务的技术创新提供参考。  
      关键词:小行星探测;图像处理;人工智能(AI);地物识别;形貌感知;物理特性分析   
      82
      |
      309
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 84436810 false
      更新时间:2025-06-25
    • 星载合成孔径雷达技术研究进展 AI导读

      星载合成孔径雷达技术在军事侦察、应急保障等领域取得显著进展,专家分析了其发展现状和未来趋势,为相关研究提供重要参考。
      李春升, 徐华平, 张家伟, 孙兵, 尤亚楠, 刘慧
      2025, 30(6): 2257-2274. DOI: 10.11834/jig.240771
      星载合成孔径雷达技术研究进展
      摘要:星载合成孔径雷达(synthetic aperture radar, SAR)是空间遥感信息获取的主要手段之一。凭借全天时、全天候和穿透性等技术优势,星载SAR如今已成为推动国防建设和助力经济发展的重要引擎,在军事侦察、应急保障和信息服务等领域均具有广泛应用。星载SAR信号主要涉及回波获取、成像处理和图像应用等环节,本文以星载SAR数据链路为主线,综合分析星载SAR领域的发展现状、前沿动态、热点问题等。首先回顾星载SAR系统及其数据集的发展现状,对比国内外星载SAR系统的关键参数,梳理不同空间分辨率、极化方式和工作频段的星载SAR数据集。其次分析成像技术体制的创新,重点阐述星载SAR在多维度观测和高分宽幅成像方面的进展。最后介绍智能处理技术与SAR图像应用的融合,探讨机器学习和深度学习在SAR数据处理和分析的潜力。本文总结了星载SAR技术的现状、未来发展趋势以及面临的主要挑战,对相关领域的研究具有重要的参考价值。  
      关键词:星载SAR;成像体制;成像处理;图像应用;SAR数据集   
      124
      |
      276
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 84436841 false
      更新时间:2025-06-25
    • 公共场所社交行为理解研究综述与隐密社团发现 AI导读

      在计算机视觉领域,社交群体检测技术取得进展,但仍面临轻量化网络设计和小样本学习挑战。专家全面回顾社交行为理解与群体检测工作,为挖掘人类社交模式提供新思路。
      李姝, 王怀远, 胡瑞敏
      2025, 30(6): 2275-2303. DOI: 10.11834/jig.240784
      公共场所社交行为理解研究综述与隐密社团发现
      摘要:公共场所中的社交群体检测旨在分析监控视频数据,采用社交互动、时空位置关系或计算机视觉等技术手段去表达人类的社交行为特征,进而识别交互群体。挖掘人类的社交行为模式并识别正在交互的行人群组对于轨迹预测、群体异常活动识别以及人机交互等研究领域意义重大,已成为计算机视觉领域的热门研究课题。尽管取得了一些进展,群体交互现象仍然缺乏正式的规则和精确的社会解释。且由于数据采集困难,社交群体检测面临着轻量化网络设计与小样本学习困难。本文全面回顾现有的社交行为理解与群体检测工作:首先依据不同的社交行为建模角度,将公共场所中的群体检测方法分为基于启发式规则与基于学习的方法两大类,重点介绍基于空间、视觉内容和行为模式的方法与主流深度学习框架;其次归纳总结评价指标、数据集与检测性能;最后讨论当前研究面临的挑战和局限性以及该领域未来可能的研究方向。通过对主要期刊/会议论文的调查分析,发现图神经网络与Transformer等的融合模型仍然是主要发展趋势,但最近的基于行为模式的方法取得了最优的检测性能。因此,如何挖掘人类的本质社交模式将极具发展潜力,同时还应探索此前未被关注的隐式交互模式挖掘:隐秘犯罪团体发现。  
      关键词:社交群体检测;社交行为理解;交互检测;F-formation;行为模式   
      73
      |
      180
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 84437556 false
      更新时间:2025-06-25
    • 文化遗产数字化及数字文旅可视化服务技术研究进展 AI导读

      虚拟现实技术与文旅产业融合,推动文化遗产数字化及数字文旅可视化服务发展。专家深入研讨人工智能技术在文化遗产保护中的应用,为文旅融合服务平台建设提供理论与实践支持。
      栗青生, 倪婷, 罗欣, 郑嘉雯, 杨帆, 张莉, 潘志庚, 王美丽
      2025, 30(6): 2304-2324. DOI: 10.11834/jig.250033
      文化遗产数字化及数字文旅可视化服务技术研究进展
      摘要:随着虚拟现实技术与文旅产业的快速发展,文化遗产数字化及数字文旅可视化服务逐渐受到重视。本文旨在围绕文化遗产数字化与数字文旅可视化服务技术研究进展深入研讨。首先,分析人工智能深度学习技术在文化遗产数字资源采集、存储、融合和共享等方面的研究现状及挑战;接着,结合文化遗产的文旅应用,探讨数字技术如何推动文化遗产保护向数字化、智能化转型,特别是高精度三维扫描、虚拟现实(virtual reality,VR)和增强现实(augmented reality,AR)等技术在数字文旅可视化服务和个性化推荐中的应用及其挑战;然后,梳理文化遗产数字化与可视化服务技术在文旅融合服务平台建设方面的应用的现状与趋势,并分析人工智能、大模型应用和机器学习等在平台建设中的赋能作用,为文化遗产的数字化保护与传播提供理论与实践支持;最后,总结人工智能(artificial intelligence,AI)赋能文化遗产数据处理的技术,指出随着人工智能与大数据技术的崛起,数字文旅服务成为文化产业与旅游产业融合的关键力量,文旅融合服务平台将推动文化遗产数据的智能分析、预测性保护和多场景应用,进一步推动文化遗产数字化及文旅可视化技术的个性化、可持续发展。  
      关键词:文化遗产;数字化技术;文旅融合;人工智能(AI);可视化服务   
      203
      |
      82
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 88037635 false
      更新时间:2025-06-25
    0