最新刊期

    2026 31 6

      序言

    • 序言 AI导读

      2026, 31(6): 1-2.
      序言
        
      0
      |
      1
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 158697314 false
      更新时间:2026-06-18

      图像处理与感知

    • 端到端智能图像视频编码的发展回顾与前沿展望 AI导读

      陈彤, 陆明, 石峻奇, 丛吾洋, 丁丹丹, 贾川民, 刘家瑛, 刘东, 宋利, 马思伟, 杨铀, 刘文予, 曹汛, 马展
      2026, 31(6): 1595-1618. DOI: 10.11834/jig.250627
      端到端智能图像视频编码的发展回顾与前沿展望
      摘要:图像与视频编码及相应标准自诞生以来,一直支撑着点播、直播以及视频会议等核心多媒体服务。过去30余年,主流技术路线围绕规则驱动的模块化工具(如变换、预测、熵编码、环路滤波等)的精细化设计与协同优化展开,并借助标准化组织形成生态。近10年,随着深度学习表征能力、公共数据集累积以及高效训练/推理框架的成熟,端到端智能编码技术快速迭代,在若干测试集与应用场景中展现出超越传统标准的压缩性能。本报告围绕图像编码,第1部分概述端到端智能编码主流框架演化主线;第2部分阐述率失真性能指标之外的可实用性功能,包括可变码率与码率控制、模型量化与鲁棒性;第3部分总结智能编码纳入/影响标准化进程的努力与现状;第4部分探讨从智能图像编码到智能视频编码的进一步拓展。希望本文能够为研究者与工程实践者提供系统化的思考视角,促进智能图像视频编码方法在产业级场景中的有序落地。  
      关键词:智能图像压缩;变分自编码器(VAE);率失真(R-D);实用性;标准化   
      181
      |
      434
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 146770116 false
      更新时间:2026-06-18
    • 三维点云编码通信进展 AI导读

      元辉, 丁丹丹, 张伟, 高伟, 徐异凌, 刘祺, 苏洪磊, 刘昊, 马展, 杨铀, 刘文予
      2026, 31(6): 1619-1670. DOI: 10.11834/jig.250625
      三维点云编码通信进展
      摘要:三维点云是三维视觉的最直接描述方式,应用领域广泛。随着传感、计算和通信技术的巨大进步,三维点云的应用场景越来越多,导致三维点云的数据量剧增,对现有的存储设备和通信系统带来巨大挑战。产业界和学术界纷纷关注到该问题,并围绕三维点云编码通信系统展开了深入研究。本文首先从产业界出发,对比国际MPEG(moving picture experts group)标准与国内AVS(audio video coding standard)标准的技术路线演进,阐述基于投影、八叉树及预测树等传统框架与新兴人工智能编码架构的异同。其次从压缩编码、采样增强、质量评价和传输控制4个方面全面梳理学术界在三维点云编码通信系统方面的研究进展。在压缩编码方面,重点探讨端到端深度学习架构在几何与属性压缩上的突破;在采样增强方面,分析针对稀疏非结构化数据的上下采样策略以及几何与颜色联合质量增强技术;在质量评价方面,归纳从点对点度量到多模态融合、以及基于码流分析的低复杂度评价新范式;在传输控制方面,论述精细化码率控制算法以及面向不可靠信道的联合信源信道编码与语义通信的最新成果。此外,本文深刻剖析国内外研究差异,指出虽然国际标准体系较为成熟且生态完善,但国内在人工智能驱动的压缩算法、无参考质量评价等领域已展现出显著创新优势。最后,对未来发展趋势进行研判,以期为该领域的研究人员和工程技术人员提供一定的参考。本文提及的算法已汇总至https://github.com/3DPCC/Point-Cloud-Coding-and-Transmission  
      关键词:点云压缩;点云处理;编码标准;点云采样;属性质量增强;质量评价;码率控制;联合信源信道编码;三维点云   
      353
      |
      375
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 146832480 false
      更新时间:2026-06-18
    • 微波与光学遥感图像联合目标检测与识别技术研究进展 AI导读

      杨健, 陈杰, 徐华平, 王晓亮, 尤亚楠, 冯潇
      2026, 31(6): 1671-1688. DOI: 10.11834/jig.250648
      微波与光学遥感图像联合目标检测与识别技术研究进展
      摘要:随着对地观测技术的飞速发展,从海量遥感图像中快速准确地检测与识别特定目标,已成为环境监测、灾害评估及国防安全等领域的关键任务。光学图像和微波图像是最常见的遥感图像类型,将二者相结合进行联合目标检测与识别,可以优势互补,有效克服单一类型传感器获取目标信息的局限性,在突破单源遥感性能瓶颈、提升复杂环境下目标解译能力等方面具有重要价值与广阔应用前景。本文综述了微波与光学遥感图像联合目标检测与识别技术的研究进展。首先,概述了两类图像的特点以及联合目标检测与识别的一般处理流程。其次,深入剖析了该领域当前所面临的主要挑战:成像机理与特征表达的差异性、数据集规模与分辨率的不均衡性、数据获取的时空异步性以及复杂背景下的弱小目标检测与识别。在此基础上,重点围绕海洋与陆地两类典型应用环境,分别分析了当前的主流技术。在海洋应用领域,以海上舰船目标检测与识别为核心,讨论了基于特征融合的方法、知识驱动的方法、复杂场景下的方法以及基于尾迹的间接方法。在陆地应用领域,聚焦飞机、车辆和基础设施等关键目标,探讨了基于特征融合、知识迁移与蒸馏和复杂场景下的弱小目标检测与识别技术。此外,本文还梳理了该领域的常用性能评价指标与公开数据集资源,并对未来发展趋势进行了展望。  
      关键词:遥感;光学图像;合成孔径雷达(SAR);目标检测;目标识别;信息融合;深度学习;知识驱动   
      269
      |
      448
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 144741349 false
      更新时间:2026-06-18
    • 生物特征识别学科发展报告(2021—2025) AI导读

      冯建江, 贾伟, 李琦, 崔哲, 赵才荣, 雷震, 王财勇, 康文雄, 于仕琪, 费伦科, 李晓白, 叶茫, 卫建泽, 曹始文, 孙士博, 谢天明, 郑伟诗, 杨鸿宇, 黄俊端, 黄迪, 孙哲南
      2026, 31(6): 1689-1740. DOI: 10.11834/jig.260069
      生物特征识别学科发展报告(2021—2025)
      摘要:生物特征识别技术已深度融入公共安全、金融支付、智能终端、政务服务等关键领域,凭借其唯一性、安全性与便捷性,成为生产生活中不可或缺的核心身份识别手段。从人脸识别的广泛普及到虹膜识别的高安全应用,从指纹识别的成熟落地到掌纹识别的非接触式创新,各类生物特征技术在算法演进与场景适配中不断突破。本报告系统梳理了2021—2025年生物特征识别领域的发展进展,围绕人脸、虹膜、指纹、掌纹、指掌静脉、人体、步态等核心模态,概述其在采集成像、检测定位、特征表达、身份匹配、数据生成、质量评估与场景适应等方面的代表性研究成果,展现生物特征识别技术由传统特征建模向深度表征学习、由受控环境向开放复杂场景、由单一模态向多模态融合演进的发展趋势。同时,本文聚焦生物特征识别系统面临的安全与隐私挑战,分析呈现攻击、深度伪造、对抗攻击、模板泄露与隐私保护等关键问题,梳理相关检测、防御和保护方法的发展脉络。在应用层面,本文总结生物特征技术在人机交互、医疗健康等领域的跨界拓展,展现其由身份认证向以人为中心的智能感知延伸的技术价值。通过对核心技术、关键挑战和应用趋势的综合归纳,本文旨在为把握生物特征识别学科发展脉络、研判未来研究方向和推动技术安全落地提供系统参考。  
      关键词:生物特征识别;人脸识别;虹膜识别;指掌纹识别;指掌静脉识别;行人重识别;步态识别;伪造检测   
      173
      |
      258
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 154696060 false
      更新时间:2026-06-18
    • 激光雷达智能处理关键技术研究进展 AI导读

      敖晟, 温程璐, 李文, 刘敦强, 邢乐园, 李明哲, 郭裕兰, 王程
      2026, 31(6): 1741-1762. DOI: 10.11834/jig.250664
      激光雷达智能处理关键技术研究进展
      摘要:激光雷达作为三维环境感知的核心传感器,在自动驾驶、机器人以及增强现实等领域发挥着不可替代的作用。随着人工智能技术的快速发展,激光雷达智能处理技术已成为研究热点。本文围绕三维目标检测、激光雷达定位、人体动作捕捉与语言推理四大关键任务,对国内外研究进展进行了系统梳理与深入分析。首先,本文总结了该领域的核心任务定义与关键挑战。其次,本文结合任务特性,对相关技术进行了系统分类与方法解析,深入比较各类方法在不同场景下的适用性与性能优势。然后,本文对国内外研究进展进行了对比分析,指出国外研究在模型体系与数据构建方面基础坚实,国内研究在算法效率与工程化落地方面发展迅速。最后,本文从算法融合、任务扩展与系统优化3个层面展望了激光雷达智能处理的未来发展趋势,以期为学术界与工业界提供理论参考,推动激光雷达智能处理技术的进一步发展。本文提及的算法、数据集和评估指标已汇总至https://github.com/aosheng1996/DL4LiDAR。  
      关键词:激光雷达(LiDAR);三维目标检测;激光雷达定位;人体动作捕捉;激光雷达语言推理   
      239
      |
      526
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 149622490 false
      更新时间:2026-06-18
    • 视频说话人检测技术综述 AI导读

      张远航, 杨双, 山世光
      2026, 31(6): 1763-1794. DOI: 10.11834/jig.260107
      视频说话人检测技术综述
      摘要:视频说话人检测(active speaker detection,ASD)旨在利用音视频信息实现对视频序列中说话人及其发声时段的检测,是人机交互、智能会议系统及媒体内容分析等领域的关键技术。然而,真实场景中的视觉遮挡、环境噪声及多人对话中的语音重叠等复杂因素给该任务带来了严峻挑战。随着深度学习技术的飞速发展,说话人检测领域取得了显著进展。本文回顾该领域的发展历程,并对现有方法进行系统梳理,将其归纳为两类:第1类是基于纯视觉信息的方法,主要解决音频缺失或不可用场景下的检测问题;第2类是音视结合的方法,可进一步细分为:1)基于音视对应的匹配方法,通过学习跨模态对应关系检测音视同步性或建立语音与潜在说话人的身份关联,进而确定说话人;2)基于音视融合的分类方法,将说话人检测任务直接建模为特征融合后的是/非说话人的二分类问题;3)混合方法,结合音视对应与融合分类的互补优势完成检测,以提升鲁棒性。在此基础上,本文还对说话人检测领域常用的数据集与评价指标进行整理。最后,对说话人检测技术的发展趋势进行总结,探讨了当前的若干开放问题,并结合当前的前沿技术进展,展望未来可能的研究方向。相关资源仓库见:https://github.com/VIPL-Audio-Visual-Speech-Understanding/Active-Speaker-Detection。  
      关键词:说话人检测(ASD);音视频信息;多模态;深度学习;综述   
      192
      |
      288
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 154166095 false
      更新时间:2026-06-18
    • 特殊场景下的目标重识别研究进展 AI导读

      韩清, 李龙飞, 闵卫东
      2026, 31(6): 1795-1822. DOI: 10.11834/jig.260117
      摘要:目标重识别旨在跨摄像头、跨时间的条件下实现对特定目标的检索与匹配,是支撑智能安防、智慧交通和智慧城市等领域的关键技术。经过十多年的持续关注与研究,目标重识别领域发展迅速,技术体系不断完善。本文系统性介绍了目标重识别背景,包括目标重识别的发展历程、数据集与评价指标。面向现实世界的落地应用需求与挑战,总结并分析了无监督目标重识别、多光谱目标重识别、跨模态行人重识别、遮挡行人重识别、换装行人重识别以及小股行人重识别等特殊场景下的研究,归纳其发展现状,并对每个研究方向的前沿方法进行梳理与性能对比。本文也对动物重识别的发展现状进行了简介。最后,对目标重识别的发展趋势进行分析与展望。  
      关键词:特殊场景下的目标重识别;深度学习;无监督目标重识别;多光谱目标重识别;跨模态行人重识别;遮挡行人重识别;换装行人重识别;小股行人重识别;动物重识别   
      126
      |
      154
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 153128399 false
      更新时间:2026-06-18
    • 物理模型与生成式先验驱动的压缩光谱成像重建技术综述 AI导读

      杨劲翔, 曾建安, 刁文秀, 肖亮
      2026, 31(6): 1823-1846. DOI: 10.11834/jig.260110
      物理模型与生成式先验驱动的压缩光谱成像重建技术综述
      摘要:高光谱图像因其丰富的空间和光谱信息,在遥感探测、地质勘探和医疗诊断等领域具有广泛应用前景。但传统高光谱图像主要通过摆扫式、推扫式扫描和凝视型成像等方式获取,在设备体积、采集时间和时空分辨率等方面难以应用于动态场景和运动平台。以编码孔径快照光谱成像为代表的压缩光谱成像技术,通过单次曝光获取三维数据的压缩测量,为突破这一瓶颈提供了新范式,其核心在于从压缩测量中精确重建原始高光谱图像。本文系统梳理了压缩光谱成像计算重建领域的研究进展。首先,从物理成像模型出发,深入分析了光谱数据的空—谱退化过程与数学模型,阐明了重建问题的高度欠定性本质。继而,以先验正则化为贯穿性视角,将现有重建方法归纳为4个主要研究模式:1)基于手工先验的模型驱动方法;2)基于数据学习的端到端驱动方法;3)融合物理模型与深度网络的联合驱动方法;4)基于扩散模型等生成式先验的新兴方法。本文深入剖析了各方法体系的核心建模思想、设计范式与内在联系,揭示了从“人为定义”到“数据学习”再到“模型—数据协同”的先验知识表达演进脉络。在此基础上,在多个公开数据集上对12种代表性算法进行定量与定性对比分析,客观评估了不同技术路径的性能差异。最后,讨论了当前面临的关键挑战,如空—谱结构协同表征困难、重建结果光谱保真度不足以及编码优化与重建任务相互割裂等问题,并对未来融合成像先验与生成式人工智能的研究方向进行了展望,以期为该领域的进一步发展提供参考。本文实验涉及的算法、数据集和评价指标等汇总至https://doi.org/10.57760/sciencedb.j00240.00063和https://github.com/DDXNJUST/Computational-Imaging/。  
      关键词:压缩光谱成像;计算重建;成像模型;深度学习;模型和数据驱动   
      128
      |
      219
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 154696195 false
      更新时间:2026-06-18
    • 红外空中弱小运动目标检测方法研究综述 AI导读

      刘雨菡, 马亚朋, 杨建伟, 王子铭, 阿尔斯·阿力哈, 曹华钊, 文子潇, 胡圣冉, 周光尧, 胡玉新
      2026, 31(6): 1847-1874. DOI: 10.11834/jig.260109
      红外空中弱小运动目标检测方法研究综述
      摘要:红外搜索与跟踪系统主要以红外成像探测为核心环节,凭借其全天时成像、部署灵活、易于隐蔽等优势,在军事与民用领域得到广泛应用。近年来,随着军事技术的快速发展,红外搜索与跟踪系统在预警侦察、安防监控及导弹制导等方面发挥着重要作用。然而受红外传感器性能、成像距离远、环境复杂多变等因素影响,观测目标往往呈现为可探测性极低的弱小目标形态,且伴随灵活的运动状态,导致核心的红外弱小运动目标检测极具挑战。本文根据检测方法原理,将近年来的检测方法归纳为3类:基于传统检测框架的方法、基于低秩稀疏分解框架的方法以及基于深度学习框架的方法,并对这些方法进行综述分析。同时,介绍相关数据,开展多种方法的对比实验与性能分析,最后对红外弱小运动目标检测方法进行总结与展望,旨在为学者们提供参考帮助。本文提及的算法、数据集和评估指标已汇总至https://github.com/Yoooohan/Collection-for-Infrared-dim-and-small-target-detection-methods以及https://doi.org/10.57760/sciencedb.j00240.00068。  
      关键词:红外搜索与跟踪系统;红外成像探测;空中运动目标;红外弱小目标检测;传统检测方法;低秩稀疏分解(LRSD);深度学习   
      163
      |
      193
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 153128169 false
      更新时间:2026-06-18
    • 基于Mamba的图像恢复方法综述 AI导读

      金吴帅, 李洁, 高新波
      2026, 31(6): 1875-1896. DOI: 10.11834/jig.260111
      基于Mamba的图像恢复方法综述
      摘要:图像恢复旨在从受退化因素影响的低质量图像中恢复高质量图像,是计算机视觉领域的核心底层任务。深度学习方法经历了从卷积神经网络(convolutional neural network, CNN)到视觉Transformer再到状态空间模型(state space model, SSM)的范式演进。选择性状态空间模型Mamba凭借全局感受野与线性计算复杂度的双重优势,已成为图像恢复领域极具潜力的新型骨干网络。本文对基于Mamba的图像恢复方法进行系统性的综述。1)技术层面,本文深入分析交叉扫描、全向选择性扫描、嵌套S形扫描和希尔伯特扫描等二维扫描策略在方向覆盖度、局部性保持、路径连续性与计算开销之间的性能—效率权衡关系,探讨多方向扫描、基于注意力状态方程(attentive state equation, ASE)的非因果注意力机制、双向扫描等针对Mamba因果性限制的多种解决方案,并在此基础上提出涵盖扫描策略、非因果信息注入、局部建模补偿和先验知识融合4个核心设计轴的统一分析框架,揭示不同方法之间的内在联系与设计权衡。2)方法层面,本文按任务类型系统梳理现有工作,涵盖通用图像恢复、超分辨率、去噪、去模糊、去雨去雾、低照度增强以及遥感高光谱处理和视频恢复等方向,归纳出纯Mamba主干、CNN/Transformer-Mamba混合、U-Net中嵌入Mamba、频域增强Mamba、轻量化Mamba及扩散模型融合Mamba六大架构范式,并分析各范式的适用场景与技术特点。3)评估层面,本文汇总各子任务常用基准数据集,建立涵盖全参考指标、无参考指标及模型效率指标的多维评估体系,并给出不同恢复任务的指标选择建议。最后,本文针对扫描策略理论指导缺失、硬件加速生态尚不成熟、合成—真实域泛化能力不足、轻量化边缘部署困难等核心挑战展开讨论,并展望未来研究方向,旨在为研究者提供全面、深入的参考,推动基于Mamba的图像恢复技术的进一步发展。  
      关键词:图像恢复;Mamba;状态空间模型(SSM);选择性状态空间模型;深度学习;图像超分辨率;图像去噪   
      216
      |
      230
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 152832420 false
      更新时间:2026-06-18
    • 中国图像工程:2025 AI导读

      章毓晋
      2026, 31(6): 1897-1910. DOI: 10.11834/jig.260166
      中国图像工程:2025
      摘要:本文是关于中国图像工程的年度文献综述系列之三十一。为了使国内广大从事图像工程研究和图像技术应用的科技人员能够较全面地了解国内图像工程研究和发展的现状,能够有针对性地查询有关文献,且向期刊编者和作者提供有用的参考,本文对2025年度发表的图像工程相关文献进行了统计和分析。具体从国内15种有关图像工程重要中文期刊在2025年发行的所有154期上发表的学术研究和技术应用文献(共2 917篇)中,选取出所有属于图像工程领域的文献(共755篇),并根据各文献的主要内容将其分别归入图像处理、图像分析、图像理解、技术应用和综述评论5个大类,然后进一步分入23个专业小类(与前20年相同),并在此基础上分别进行了各个期刊及各类文献的统计和分析。根据对2025年统计数据的分析可以看出:从研究角度看,图像分析方向当前得到了最多的关注,其中图像分割和基元检测、目标检测和识别都是研究的焦点,另外,在图像理解技术中,有关时空技术和行为理解的研究经过10多年的发展,已成为一个重要的领域;从应用角度看,遥感、雷达、声呐、测绘等以及医学、卫生等领域最为活跃;新的图像技术开发和应用领域拓展很快,并取得了一系列成果。总的来说,中国图像工程在2025年的研究深度和广度还在继续提高和扩大,仍保持了快速发展的势头。综合31年的统计数据还为读者提供了更全面和更可信的各个研究方向发展趋势的信息。  
      关键词:图像工程;图像处理(IP);图像分析(IA);图像理解(IU);技术应用(TA);文献综述;文献统计;文献分类;文献计量学   
      0
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 158697312 false
      更新时间:2026-06-18

      具身智能与类脑智能

    • 视觉—语言—动作模型发展现状与前沿进展 AI导读

      何友, 卢湖川, 王栋, 李劭辉, 李徵, 刘洋, 赵洁, 阮书岚
      2026, 31(6): 1911-1941. DOI: 10.11834/jig.260042
      视觉—语言—动作模型发展现状与前沿进展
      摘要:视觉—语言—动作(vision-language-action,VLA)模型是近年多模态具身智能的重要研究方向,通过联合建模视觉观测、语言指令与动作决策,推动了机器人感知与控制范式的更新。随着具身智能大模型的快速发展,VLA在泛化性和鲁棒性上相较于传统控制方案展现出显著优势,并在理解现实物理世界及交互效果方面取得突破性进展。本文系统梳理了VLA模型的发展背景、核心机制与最新进展,重点讨论了跨模态对齐、从感知到行动的因果建模、基于语言的任务条件化以及动作生成等关键技术领域。同时,结合具身思维链、高效VLA、强化学习与跨动作学习等研究方向,综合分析了当前在该领域的最新进展和探索效果;并从仿真环境、真实机器人与人类视频3个维度总结了VLA模型的数据集与评测基准。最后,围绕数据集质量、仿真到现实的迁移以及跨机器人适配性等核心瓶颈,深入讨论了VLA领域面临的挑战。  
      关键词:视觉语言动作(VLA)模型;具身智能;具身思维链;多模态推理;机器人控制   
      0
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 158697218 false
      更新时间:2026-06-18
    • 机器人灵巧手:迈向通用操作的关键技术 AI导读

      梁姝彤, 谢东锦, 李东, 张慧, 贾晓丰, 王飞跃, 李浥东, 李灵犀
      2026, 31(6): 1942-1970. DOI: 10.11834/jig.260100
      机器人灵巧手:迈向通用操作的关键技术
      摘要:灵巧手是人形机器人实现高维度、精细化物理交互的关键末端执行器,其高自由度、强接触非线性与多模态反馈耦合,使灵巧操作成为具身智能最具代表性的挑战任务之一。视觉—语言—动作模型与大语言模型等基础模型范式的兴起,结合扩散/流匹配等连续控制建模、强化学习与模仿学习的融合训练,以及高分辨率触觉、可变刚度与刚柔混合结构的发展,正推动灵巧手从“刚性高精度”的机械决定论走向“感知—学习—执行”闭环驱动的柔性智能体系。本文首先从历史视角系统回顾灵巧手机械结构与硬件范式的演进脉络,涵盖多指全驱动、欠驱动柔顺、腱绳传动以及软体与变刚度等代表性路线,并讨论其在尺寸重量、可靠性与可控性之间的权衡。其次,提出以感知能力演进为主线的五级灵巧智能分级框架(H1—H5),归纳各层级的关键技术、典型方法与能力边界,为评估“从可重复执行到开放世界任务规划,再到自主进化”的能力跃迁提供统一参照。进一步地,本文从真实交互与高保真仿真两个维度梳理训练数据来源与评测基准,强调数据生成体系与可诊断评估标准对任务泛化与可部署性的基础作用。最后,总结灵巧手走向通用化部署仍面临的机械可靠性与成本、实时推理与安全性、仿真可信化与标准化评测等关键挑战,并展望软硬件协同设计、多模态自监督预训练与世界模型驱动的长时序决策等研究方向。  
      关键词:灵巧手;具身智能;人形机器人;多模态触觉;视觉—语言—动作模型;任务泛化   
      409
      |
      414
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 154038951 false
      更新时间:2026-06-18
    • 智能驾驶大模型 AI导读

      胡建芳, 黄林江, 翟伟, 闫瑞松, 李成林, 郑伟诗, 赫然, 查正军, 熊红凯
      2026, 31(6): 1971-1988. DOI: 10.11834/jig.260085
      智能驾驶大模型
      摘要:智能驾驶大模型融合了视觉、语言与动作多模态学习,正引领自动驾驶从传统“感知—规划—控制”架构向端到端一体化演进。其统一表征、生成式推理及少样本泛化的能力,显著提升了智能驾驶系统的鲁棒性与决策智能。报告首先系统梳理了国际国内智能驾驶大模型领域的最新进展,包括决策规划、环境感知、视觉问答和数据生成等方面。其中,决策规划部分讨论了端到端可解释决策模型的兴起、多模态与序列化决策模型的融合以及世界模型与认知智能体的引入;环境感知部分从多模态感知与语义解释的融合、语言提示驱动的运动轨迹预测与行为理解两条主线出发进行探讨;视觉问答部分讨论了国内外研究者针对推理可解释性与决策验证提出的系列方法;数据生成部分则以数据来源为区分,探讨自动标注、生成式数据合成、世界模型以及虚实一体仿真等手段如何解决自动驾驶数据收集成本高、长尾场景覆盖率不足的问题。在此基础上进行横向对比,分析了我国在数据资源、算力生态、算法创新与标准体系方面的优势与短板。面向未来,提出应强化基础研究与公共底座、完善可信AI(artificial intelligence)评测体系、推进个性化驾驶与人机对齐、构建自主可控生态等建议。智能驾驶大模型已成为我国汽车产业高质量发展的关键突破口与人工智能应用的新高地。本文提及的算法及相关开源代码已汇总至:https://github.com/Ruisong-Yan/Intelligent-Driving-Foundation-Model,亦可通过https://doi.org/10.57760/sciencedb.j00240.00121获取。  
      关键词:智能驾驶;大模型;多模态学习;世界模型;端到端(E2E);可解释性   
      152
      |
      380
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 153982454 false
      更新时间:2026-06-18
    • 赵耀, 李甲, 金一, 魏云超, 赵一凡, 张慧, 王旭, 瞿梦雪, 曾宇乔, 王文状
      2026, 31(6): 1989-2016. DOI: 10.11834/jig.250644
      面向高阶智驾的交通数据智能生成:模型、系统与评测综述
      摘要:随着高阶智能驾驶对多模态感知、预测与决策的依赖不断提升,真实交通数据在极端天气、长尾场景与隐私敏感环境面临采集成本高、覆盖不足和标注困难等瓶颈,难以支撑系统规模化训练与验证。如何高效生成具备真实感与可控性的交通数据,以提升系统在极端情形下的可靠性,已成为亟待解决的关键问题。基于此,本文对面向高阶智驾的交通数据智能生成技术开展系统综述,旨在把握研究进展并指引工程化实践。首先,引入模型—系统—评测的典型流程,定义并分析当前面临的数据稀缺、跨模态对齐、条件可控、场景一致性与闭环验证等核心挑战;随后,围绕扩散模型、生成对抗网络、神经辐射场/三维高斯泼溅、世界模型与多模态大模型等技术脉络,系统梳理代表性生成方法及其在智能座舱、单车智驾与基于车路协同感知的多车协同感知三大应用方向中的关键应用与技术要点;最后,提出一套覆盖感知—预测—控制闭环度量与传感器物理一致性的多层次评测框架,并讨论了构建兼具真实性与多样性的工程化数据引擎的若干实践建议。本文提及的算法、数据集和评估指标已汇总至https://github.com/fayewong666999/higher-level-smart-driving-data-generation。本文力图为高阶智能驾驶的数据体系构建、评测规范与后续技术演进提供系统参考。  
      关键词:模型—系统—评测;高阶智能驾驶;数据智能生成;智能座舱;单车智驾;多车协同感知;多层次评测   
      157
      |
      555
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 149622363 false
      更新时间:2026-06-18
    • 具身智能前沿展望:数据、模型与系统演进 AI导读

      穆尧, 赵昊, 胡瑞珍, 张力, 李弘扬, 杨蛟龙, 王靖博, 韩磊, 苏永峰, 徐凯, 杨易, 李江, 戴若犁, 陈宝权, 刘烨斌, 弋力
      2026, 31(6): 2017-2025. DOI: 10.11834/jig.260059
      具身智能前沿展望:数据、模型与系统演进
      摘要:具身智能作为人工智能发展的关键领域,正面临数据异构性、强物理约束及交互昂贵等挑战,难以直接复制大语言模型的“大规模预训练 + 规模定律”范式。本文从数据、模型、系统与评测4个维度全面梳理了具身智能的前沿技术演进。在数据层面,提出了“数据金字塔”结构,主张利用底层庞大的仿真与互联网视频数据构建物理常识,通过中层人类交互数据进行行为映射,最终以顶层少量真机数据实现技能落地;在模型层面,探讨了主流视觉—语言—动作模型(vision-language-action,VLA)的扩展瓶颈,并指出“世界模型”作为具身预训练的新方向,能够通过模拟环境动力学与未来预演,赋予智能体更强的物理直觉与泛化能力;在系统层面,观察到架构正从单一端到端模型向类操作系统的“分层架构”演进,实现高层语义规划与底层运动控制的解耦。最后,本文审视了当前评测体系在真实性与可复现性上的挑战,并对行走与操作一体化及具身智能“ImageNet时刻”的到来进行了展望。  
      关键词:具身智能;数据金字塔;世界模型;VLA模型;分层控制架构;具身评测   
      297
      |
      381
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 153982537 false
      更新时间:2026-06-18
    • 面向存算一体的神经形态材料与器件综述 AI导读

      张腾, 王聪, 缪峰, 杨玉超
      2026, 31(6): 2026-2044. DOI: 10.11834/jig.260090
      面向存算一体的神经形态材料与器件综述
      摘要:神经形态计算作为一种受生物神经系统启发的计算范式,旨在通过硬件手段突破传统冯·诺依曼架构的存算分离瓶颈,实现高效、低功耗及大规模并行处理能力。本文综述了面向存算一体应用的神经形态材料与器件的最新研究进展。首先,详细探讨了基于不同材料体系的物理机制与器件实现,包括成熟的硅基场效应器件,以及基于忆阻、相变、铁电、自旋和光电效应的新兴材料器件。这些器件利用电阻开关、极化翻转或光电耦合等内禀动力学特性,成功模拟了长、短时程的突触可塑性及神经元积分—发放等关键生物功能。其次,系统阐述了人工突触与人工神经元的设计策略,涵盖了电学、光学及多物理场融合的器件结构及其在感知与计算中的具体应用。最后,从系统集成的角度,分析了突触—神经元协同单元、器件—算法协同优化设计以及大规模神经形态硬件系统在边缘计算、脑机接口和智能机器人等领域的应用前景。本综述旨在为构建下一代高能效、强自适应的类脑智能系统提供全面的材料基础与器件技术参考。  
      关键词:神经形态计算;存算一体;人工突触;人工神经元;新兴电子材料;类脑芯片   
      54
      |
      44
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 157006604 false
      更新时间:2026-06-18
    • 郑雅菁, 赵睿, 朱林, 刘俣伽, 黄铁军
      2026, 31(6): 2045-2069. DOI: 10.11834/jig.260128
      SpikeCV脉冲视觉综述:连续时间脉冲表征的层级建模与系统化进展
      摘要:随着神经形态视觉传感器技术的不断发展,脉冲相机作为一种基于积分—发放机制的连续时间成像设备,逐渐成为新型视觉感知的重要研究方向。不同于传统帧式图像,脉冲相机以连续二值脉冲流形式记录光强变化,具备超高时间分辨率、高动态范围及稀疏编码等特性,在高速运动、复杂光照以及微弱变化检测等场景中展现出独特优势。然而,其数据结构与统计分布显著区别于传统视觉数据,使得经典视觉算法难以直接适配,如何构建统一的连续时间表征与系统化算法体系成为该领域的重要研究问题。本文围绕连续时间脉冲表征的层级建模思想,对近年来脉冲视觉领域的代表性工作进行了系统梳理与分类总结,并提出从“可恢复”到“可理解”的脉冲视觉表征层级框架。该框架按照信息表征能力的提升,将现有研究划分为多个层次:层级0:面向脉冲相机成像机理与噪声特性的物理一致建模;层级1:从脉冲流恢复稳定视觉信息的二维光强与纹理重建任务;层级2:刻画强度变化与运动信息关系的连续时间时空耦合表征;层级3:利用脉冲数据完成目标检测、语义分割与多目标跟踪等视觉理解任务的结构与语义感知;层级4:基于神经隐式表示的三维场景建模与动态重建;层级5:支撑脉冲视觉研究发展的系统化基础设施与平台化工具链,包括数据集构建、模拟器设计、开源平台及统一评测协议等。在此基础上,本文进一步讨论面向实际应用的系统评测问题,从准确率、时延、吞吐率与能耗等多个维度总结现有方法的评估方式,并综述脉冲视觉开放生态在数据资源、算法工具与社区协作方面的发展情况。通过统计截至2026年的相关研究成果,并结合2025年举办的国际竞赛实例,分析开放基准与社区平台在推动任务标准化与方法演进方面的作用。最后,针对统一连续时间表征学习、多模态信息融合、系统指标驱动优化以及硬件—算法协同设计等关键问题进行了讨论,为连续时间视觉智能的发展提供参考。  
      关键词:SpikeCV;脉冲视觉;连续时间表征;神经形态视觉;高速运动;时空耦合建模;开源社区生态   
      104
      |
      180
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 153578257 false
      更新时间:2026-06-18
    • 脑启发的人工智能研究进展与展望 AI导读

      杨双鸣, 申江荣, 李尤君, 黄子罡, 陈霸东
      2026, 31(6): 2070-2102. DOI: 10.11834/jig.260022
      脑启发的人工智能研究进展与展望
      摘要:脑启发的人工智能以人类大脑的结构与功能机制为灵感,旨在构建具备低功耗与强泛化能力的新型智能系统。当前以深度学习为核心的人工智能方法在计算资源开销、能耗、可解释性与适应性方面仍存在显著不足,难以在复杂多变或资源受限的环境中实现持续学习与灵活推理。相比之下,大脑在并行处理、低功耗、快速泛化及自适应学习等方面展现出天然优势,这为突破传统人工智能范式提供了重要启示。本文系统综述了脑启发的人工智能领域的国内外研究进展。从脑结构启发的角度分析了神经元模型、神经环路与神经调制机制的多层级建模方法;从脑功能启发的角度探讨了感知、认知、学习、决策与控制等智能环节的算法创新路径;从硬件系统的角度总结了具有近内存与存算一体架构的新型类脑计算系统的发展现状,并且进一步比较了国际与国内在理论研究、算法优化与硬件实现等方面的差异与互补优势。最后,展望了未来脑启发的人工智能在算法—硬件协同、跨学科融合及产业化应用方面的发展趋势,提出了推动我国在该领域实现跨越式突破的关键方向。  
      关键词:脑启发;类脑智能;脑结构;脑功能;类脑计算系统   
      181
      |
      548
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 151835627 false
      更新时间:2026-06-18

      生成式人工智能与内容安全

    • 可视文本生成技术综述 AI导读

      舒言, 赵方敏, 陈泽宇, 赵天齐, 王逸竹, 李焜炽, 周宇, 王大寒, 彭良瑞, 高良才, 殷绪成
      2026, 31(6): 2103-2124. DOI: 10.11834/jig.260047
      可视文本生成技术综述
      摘要:可视文本图像生成与编辑是计算机视觉与自然语言处理交叉领域的重要研究方向,旨在实现图像中文本内容的无痕擦除、精准编辑与智能生成。不同于一般图像生成任务,可视文本兼具语义信息与视觉特征的双重属性,在字形结构、笔画细节、颜色纹理和排版布局等方面对模型的多模态表征能力和生成精度提出了更高的要求。随着生成对抗网络(generative adversarial network,GAN)、扩散模型以及多模态大模型的快速发展,该领域在技术范式与应用场景上取得了显著突破。本综述系统梳理了可视文本擦除(visual text removal)、可视文本编辑(visual text editing)与可视文本生成(visual text generation)三大核心任务的研究进展。在可视文本擦除方面,知识迁移、多任务学习与渐进式学习三大范式推动了文本检测与背景修复能力的协同优化,在保留背景完整性的前提下实现了文本的彻底消除;在可视文本编辑方面,从基于GAN的分步处理到端到端的条件生成,研究聚焦于文本风格特征、笔画特征与语义特征的精准提取与迁移,实现了风格保持与内容替换的统一建模;在可视文本生成方面,研究已从早期基于图形学的渲染合成演进到数据驱动的神经生成,通过引入字符感知编码、字形条件控制与多模态对齐机制,显著提升了文本拼写准确性、场景融合度与多语言泛化能力。本综述进一步分析了该领域面临的核心挑战:多语言复杂字符的精准渲染、跨场景跨风格的泛化能力、生成内容与人类意图的精确对齐,以及实时交互所需的计算效率。展望未来, 随着多模态大模型能力的持续增强、扩散模型架构的不断优化,以及高质量基准数据集的完善,可视文本图像生成与编辑技术将在智能媒体创作、信息可视化、文化遗产保护以及无障碍阅读等领域发挥更加重要的作用,成为推动人机交互与视觉智能发展的关键技术。  
      关键词:可视文本擦除(VTR);可视文本编辑(VTE);可视文本生成(VTG);扩散模型;多模态学习;图像生成   
      206
      |
      823
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 152863648 false
      更新时间:2026-06-18
    • 智能数字人内容生成技术综述 AI导读

      杨航, 柳娜, 孟雷, 毛启容, 李曼祎, 李祥, 汪铖杰, 朱俊伟, 王鹏杰
      2026, 31(6): 2125-2143. DOI: 10.11834/jig.260074
      智能数字人内容生成技术综述
      摘要:数字人技术作为计算机图形学与人工智能交叉领域的核心方向,目前已经从单一的形象展示向智能化、拟人化与情感化的应用阶段发展。当前,视频到数字人生成则通过单目、多目及开放场景技术路线,推动低成本、高保真建模成为可能,不过复杂环境下的几何完整性与动态一致性仍需突破;扩散模型凭借优秀的生成质量,成为3D人体运动合成与编辑的主流框架,但长时序连贯、动作精确编辑、多人复杂交互等仍是关键挑战;情感数字人在单一情感生成与多情感交互建模上取得进展,却面临情感细腻表达与多模态协同的瓶颈。本文系统综述数字人技术三大核心领域的前沿进展,涵盖主流模型、技术分类、数据集与评估体系,最后总结待解决挑战,为未来研究提供前瞻性指引。数字人技术的实现需经历“形态重建—动作赋予—情感交互”的递进过程:首先通过视频到数字人生成技术完成3D形态的基础构建,再通过3D人体运动合成与编辑赋予动态能力,最终通过情感数字人技术实现自然交互。本文所提到的算法,数据集等整理在https://github.com/blue-cola-bc/Overview-of-Intelligent-Digital-Humans.git,最终对未来可能的研究方向进行了展望。  
      关键词:数字人技术;3D人体运动合成与编辑;数字人智能生成;扩散模型;视频到数字人生成;多模态情感交互   
      191
      |
      171
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 152863484 false
      更新时间:2026-06-18
    • 跨模态3D生成:原理、方法与前沿进展 AI导读

      陈智能, 袁召全, 杨小汕, 曹艺馨, 李亮, 吴晓, 鲍秉坤
      2026, 31(6): 2144-2181. DOI: 10.11834/jig.250655
      跨模态3D生成:原理、方法与前沿进展
      摘要:随着虚拟现实、增强现实与数字内容创作等领域对高质量三维模型需求的快速增长,传统的人工建模与扫描方式逐渐暴露出效率低、成本高的不足,已难以满足实际应用需求。近年来,深度学习与预训练多模态大模型的发展显著推动了跨模态 3D 生成的性能提升与应用拓展。跨模态 3D 生成技术通过将文本、图像等多模态信息映射到三维表示,实现了从语义到 3D 内容的自动化生成,为智能化三维内容生产提供了新的可能。该方向融合了多媒体分析、计算机视觉、自然语言处理与计算机图形学等多领域的前沿技术,但当前方法在模态间语义对齐、3D 数据表示、高质量几何与纹理生成,以及生成结果的可控性与多样性等方面仍面临诸多挑战。本文梳理了跨模态 3D 生成中的 3D 数据表示方式,涵盖显式、隐式与混合三大类别;分析了文本到 3D 和图像到 3D 的典型数据集、语义对齐机制、主流模型架构及技术路线。进一步,本文系统梳理了文本驱动三维对象生成、图像驱动三维对象生成以及三维场景生成三大方向的发展脉络与核心技术路线,总结了各方向的核心机制、代表性方法及其优势与局限。在此基础上,本文深入探讨了跨模态 3D 生成的未来发展趋势,指出其正加速迈向具备时空理解与交互表达能力的世界模型时代。总体而言,本文对跨模态 3D 生成领域进行了系统综述,涵盖从数据表示到模型架构多个方面,旨在为后续研究提供知识框架,推动跨模态 3D 内容生成在世界理解与创造任务中的应用与发展。本文提及的数据集、算法已汇总至https://github.com/L-Matilda/Cross-modal-3D-Generation。  
      关键词:跨模态3D生成;文本—3D生成;图像—3D生成;三维场景生成;语义对齐   
      158
      |
      126
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 151835417 false
      更新时间:2026-06-18
    • 三维重建与生成前沿进展与展望 AI导读

      韩晓光, 修宇亮, 徐震, 连宙辉, 彭思达, 姚遥, 陈安沛, 黄经纬, 张邦, 许岚, 徐枫, 章国锋, 许威威, 虞晶怡, 刘利刚, 陈宝权, 刘烨斌, 周晓巍
      2026, 31(6): 2182-2197. DOI: 10.11834/jig.260070
      三维重建与生成前沿进展与展望
      摘要:三维视觉领域正经历一场深刻的范式转变,核心问题正从单一的“感知重建”逐步迈向“重建—生成—交互”的一体化新阶段。本文旨在系统梳理三维重建与生成技术的前沿进展,对三维重建、三维生成及三维数字人等方向进行综述,剖析优化式与前馈式重建方法的原理差异,评估物体级生成、CAD(computer-aided design)生成及具身智能场景生成的现状与挑战,并对比2D与3D数字人技术在实时渲染与复杂交互中的表现。分析显示,三维重建技术中,优化式方法虽然精度占优但计算冗余,而前馈式方法虽然推断迅速但细节不足,两者融合及多模态语义注入是当前主流;三维生成领域中,技术焦点已从单纯的视觉质量转向部件级可控性,但CAD生成仍面临“脏几何”难以满足制造标准的难题;三维数字人技术方面,2D生成技术展现了非凡的生成能力与迭代速度,而3D技术在处理复杂空间交互时具有不可替代性。研究表明,三维领域正经历从“观测驱动重建”向“数据驱动生成”的范式转变,未来发展将集中在前馈式与优化式方法的深度融合、三维生成向工业可用性与可编辑性演进以及三维技术与具身智能、数字人等场景深度耦合三方面。未来,三维重建与生成将不再是孤立的视觉问题,而是支撑虚实融合与智能决策的基础能力。  
      关键词:三维重建;三维生成;数字人;空间智能;具身智能   
      48
      |
      41
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 157006420 false
      更新时间:2026-06-18
    • 大模型赋能的可视化与可视分析研究综述 AI导读

      汪云海, 曹楠, 陈思明, 李晨辉, 曾伟, 陶钧, 曾琼, 王长波, 张加万
      2026, 31(6): 2198-2221. DOI: 10.11834/jig.260046
      大模型赋能的可视化与可视分析研究综述
      摘要:数据可视化作为连接人类认知与数据科学研究的重要技术基础,随着大模型的发展迎来范式转型。传统数据可视化主要依赖人工设计的视觉编码规则、图形语法与交互机制,通过显式映射和操作支持数据探索与信息传达。然而,面对日益增长的数据规模、多样化的数据类型以及复杂的分析与决策场景,基于静态图形和参数化交互的传统方法在效率、表达能力和语义支持方面逐渐显现局限。近年来,大规模预训练语言模型、多模态基础模型及数据智能体的兴起,为数据可视化的自动生成、智能分析和交互优化提供了新的技术动力。本文围绕可视化基础理论、可视分析、可视化叙事与可视化评估4个方面,对大模型赋能下的数据可视化研究进展进行系统综述,从基础理论层面看,大模型通过其强大的语义理解与推理能力,推动可视化从低层视觉编码向语义驱动的表达与感知建模演进。在可视分析层面,大模型与数据代理的结合使分析流程从以人为主导的工具操作,转向人—模型—知识协同的混合智能模式。在叙事可视化方面,大模型显著降低了数据叙事的创作门槛,使系统能够自动构建叙事结构、整合图文内容,并根据受众和情境动态调整表达方式。在可视化评估方面,大模型在图形质量评估与设计建议生成方面展现出潜力。本文分析当前面临的关键问题与发展趋势,为大模型时代的数据可视化研究与系统设计提供结构化的理论支撑。  
      关键词:可视化基础理论;可视化交互;可视化分析;可视化叙事;大模型   
      220
      |
      523
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 151295679 false
      更新时间:2026-06-18
    • 大模型时代的视频与图像安全研究进展 AI导读

      桑农, 黄凯奇, 赵耀, 高常鑫, 考月英, 谭创创, 王翔, 武美奇, 尹文体
      2026, 31(6): 2222-2259. DOI: 10.11834/jig.250656
      大模型时代的视频与图像安全研究进展
      摘要:随着多模态大模型与生成式人工智能技术的快速发展,图像与视频的获取、理解与生成方式正在发生深刻变革。以视觉—语言预训练模型和扩散生成模型为代表的新一代人工智能体系,在语义对齐、跨模态理解与高保真内容生成等方面展现出强大的能力,显著推动了智能安防、内容生产、工业检测和公共治理等应用场景的发展。然而,视觉智能能力的快速扩张也带来了日益突出的安全风险与治理挑战:在理解层面,模型在复杂环境、开放场景和弱监督条件下易产生误判、偏差与鲁棒性不足;在生成层面,高保真合成图像与视频被滥用于深度伪造、虚假信息传播和隐私侵犯,对社会信任与公共安全构成威胁。因此,围绕“大模型时代的视频与图像安全”开展系统性研究具有重要的理论价值与现实意义。本文从图像与视频理解安全和图像与视频生成安全两条主线出发,系统综述了相关技术的研究进展。在理解安全方面,重点总结了全监督、半监督、弱监督和无监督异常检测方法的技术演进,并进一步归纳了基于视觉—语言大模型的零样本、开放词汇和可解释异常检测新范式;在生成安全方面,围绕生成对抗网络与扩散模型的发展脉络,系统分析了图像与视频生成技术的安全风险、深度伪造检测方法及其在政策监管与工程实践中的应用现状。最后,本文讨论了当前研究面临的关键挑战,并展望了大模型时代图像与视频安全研究的未来发展趋势,为相关领域的学术研究与工程应用提供参考。  
      关键词:多模态大模型;生成式人工智能;图像视频安全;异常检测;深度伪造检测   
      243
      |
      478
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 152511142 false
      更新时间:2026-06-18
    • 深度伪造人脸检测技术发展与应用综述 AI导读

      李卫斌, 冯雨婷, 侯彪, 焦李成
      2026, 31(6): 2260-2278. DOI: 10.11834/jig.250556
      深度伪造人脸检测技术发展与应用综述
      摘要:由深度伪造技术(deepfake)生成的伪造图像和视频在网络上广泛传播,尤其针对名人的视频往往利用来损害他人名誉、引导舆论,极大威胁社会稳定,带来了诸多社会隐患。作为应对手段,深度伪造检测技术已成为学术界和业界的研究热点。本文主要聚焦于深度伪造人脸检测任务,介绍了常用的伪造方法类型,按照模型基础架构将深度伪造人脸检测技术分为基于卷积神经网络(convolutional neural network, CNN)的检测方法、基于Transformer的检测方法和新型范式3大类。基于卷积神经网络的检测方法是当前的主流方法,模型结构多样且成熟;基于Transformer的检测方法因其在长距离建模的优势快速发展;新型范式包括自监督/无监督学习方法和大模型检测方法,自监督/无监督学习方法能够有效避免特定数据、特定伪造方法所造成的偏差,大模型检测方法因加入了文本特征,能够提升检测模型的泛化性能和可解释性。此外,总结了深度伪造人脸检测领域的经典数据集和新一代多模态数据集,以及检测模型在分类性能、泛化性能和应用方面的评估指标。在实际应用方面,梳理了深度伪造人脸检测技术的四大应用场景,回顾了国内在深度合成相关的法律法规。最后,总结了深度伪造人脸检测领域的主要矛盾,并结合发展现状,提出与大模型融合、可解释性和泛化性、模型轻量化及行业法规细化等重要发展趋势和研究方向。相关内容总结开源地址:https://github.com/yttttkskr/2025-deepfake-detection。  
      关键词:深度伪造人脸;深度伪造人脸检测(DFD);卷积神经网络(CNN);Transformer;自监督/无监督学习;大语言模型(LLM)   
      297
      |
      460
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 147850750 false
      更新时间:2026-06-18
    0