最新刊期

    2022 27 6
    • 序言

      2022, 27(6): 1-2.
        
      58
      |
      93
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810092 false
      更新时间:2024-08-15

      视觉理解与计算成像

    • 基于深度学习的视觉目标检测技术综述

      曹家乐, 李亚利, 孙汉卿, 谢今, 黄凯奇, 庞彦伟
      2022, 27(6): 1697-1722. DOI: 10.11834/jig.220069
      基于深度学习的视觉目标检测技术综述
      摘要:视觉目标检测旨在定位和识别图像中存在的物体,属于计算机视觉领域的经典任务之一,也是许多计算机视觉任务的前提与基础,在自动驾驶、视频监控等领域具有重要的应用价值,受到研究人员的广泛关注。随着深度学习技术的飞速发展,目标检测取得了巨大的进展。首先,本文总结了深度目标检测在训练和测试过程中的基本流程。训练阶段包括数据预处理、检测网络、标签分配与损失函数计算等过程,测试阶段使用经过训练的检测器生成检测结果并对检测结果进行后处理。然后,回顾基于单目相机的视觉目标检测方法,主要包括基于锚点框的方法、无锚点框的方法和端到端预测的方法等。同时,总结了目标检测中一些常见的子模块设计方法。在基于单目相机的视觉目标检测方法之后,介绍了基于双目相机的视觉目标检测方法。在此基础上,分别对比了单目目标检测和双目目标检测的国内外研究进展情况,并展望了视觉目标检测技术发展趋势。通过总结和分析,希望能够为相关研究人员进行视觉目标检测相关研究提供参考。  
      关键词:视觉目标检测;深度学习;单目;双目;锚点框   
      723
      |
      683
      |
      43
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810091 false
      更新时间:2024-08-15
    • 面向复杂场景的人物视觉理解技术

      马利庄, 吴飞, 毛启容, 王鹏杰, 陈玉珑
      2022, 27(6): 1723-1742. DOI: 10.11834/jig.220157
      面向复杂场景的人物视觉理解技术
      摘要:面向复杂场景的人物视觉理解技术能够提升社会智能化协作效率,加速社会治理智能化进程,并在服务人类社会的经济活动、建设智慧城市等方面展现出巨大活力,具有重大的社会效益和经济价值。人物视觉理解技术主要包括实时人物识别、个体行为分析与群体交互理解、人机协同学习、表情与语音情感识别和知识引导下视觉理解等,当环境处于复杂场景中,特别是考虑“人物—行为—场景”整体关联的视觉表达与理解,相关问题的研究更具有挑战性。其中,大规模复杂场景实时人物识别主要集中在人脸检测、人物特征理解以及场景分析等,是复杂场景下人物视觉理解技术的重要研究基础;个体行为分析与群体交互理解主要集中在视频行人重识别、视频动作识别、视频问答和视频对话等,是视觉理解的关键行为组成部分;同时,在个体行为分析和群体交互理解中,形成综合利用知识与先验的机器学习模式,包含视觉问答对话、视觉语言导航两个重点研究方向;情感的识别与合成主要集中在人脸表情识别、语音情感识别与合成以及知识引导下视觉分析等方面,是情感交互的核心技术。本文围绕上述核心关键技术,阐述复杂场景下人物视觉理解领域的研究热点与应用场景,总结国内外相关成果与进展,展望该领域的前沿技术与发展趋势。  
      关键词:复杂场景;视觉理解;人物识别;深度学习;行为分析   
      130
      |
      484
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810090 false
      更新时间:2024-08-15
    • 面向智慧交通的图像处理与边缘计算

      曹行健, 张志涛, 孙彦赞, 王平, 徐树公, 刘富强, 王超, 彭飞, 穆世义, 刘文予, 杨铀
      2022, 27(6): 1743-1767. DOI: 10.11834/jig.211266
      面向智慧交通的图像处理与边缘计算
      摘要:随着全球人口的持续增长和城市化进程的加速,道路拥挤、交通事故和污染排放增加等问题日益严重。智慧交通系统旨在借助先进的信息与通信技术建成高效安全、环保舒适的交通与运输体系,提供全方位的交通信息服务和安全高效、经济快捷的交通运输与出行服务。经过各国多年来的竭力推进与发展,智慧交通系统在交通管理、自动驾驶与车路协同等方向均得到广泛的应用。智慧交通的发展离不开通信、计算机与控制等研究方向的突破与创新。其中,图像处理作为智慧交通系统的核心技术之一,它的研究进展直接影响着智慧交通系统的部署。图像处理技术是指计算机对图像进行增强、复原、提取特征、分类和分割等技术处理,通过对交通视觉图像的处理,为智慧交通系统的感知、识别、检测、跟踪和路径规划等功能提供了最直接与重要的信息。此外,面对智慧交通系统所产生的大量数据计算任务,边缘计算技术则将中心云服务下沉至各边缘节点附近,不但能够优化算力负载分配,还能够满足智慧交通应用与服务对低时延、高响应速度的需求。本文从智慧交通系统的发展现状入手,分别围绕面向智慧交通的图像处理与边缘计算技术,阐述其研究热点与前沿进展,汇总与比较国内外的相关学术和产业成果,并对智慧交通系统中的图像处理及边缘计算技术未来的发展进行总结分析与趋势展望。  
      关键词:智慧交通系统(ITS);图像处理;边缘计算;自动驾驶;车路协同(CVIS);深度学习   
      386
      |
      128
      |
      8
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810088 false
      更新时间:2024-08-15
    • 视觉弱监督学习研究进展

      任冬伟, 王旗龙, 魏云超, 孟德宇, 左旺孟
      2022, 27(6): 1768-1798. DOI: 10.11834/jig.220178
      视觉弱监督学习研究进展
      摘要:视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning, MIL)和期望—最大化(expectation-maximization, EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性。在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考。  
      关键词:弱监督学习;目标定位;目标检测;语义分割;实例分割;动作识别   
      182
      |
      372
      |
      10
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810089 false
      更新时间:2024-08-15
    • 智能遥感:AI赋能遥感技术

      孙显, 孟瑜, 刁文辉, 黄丽佳, 张新, 骆剑承, 高连如, 王佩瑾, 闫志远, 郜丽静, 董文, 冯瑛超, 李霁豪, 付琨
      2022, 27(6): 1799-1822. DOI: 10.11834/jig.220161
      摘要:随着人工智能的发展和落地应用,以地理空间大数据为基础,利用人工智能技术对遥感数据智能分析与解译成为未来发展趋势。本文以遥感数据转化过程中对观测对象的整体观测、分析解译与规律挖掘为主线,通过综合国内外文献和相关报道,梳理了该领域在遥感数据精准处理、遥感数据时空处理与分析、遥感目标要素分类识别、遥感数据关联挖掘以及遥感开源数据集和共享平台等方面的研究现状和进展。首先,针对遥感数据精准处理任务,从光学、合成孔径雷达等遥感数据成像质量提升和低质图像重建两个方面对精细化处理研究进展进行了回顾,并从遥感图像的局部特征匹配和区域特征匹配两个方面对定量化提升研究进展进行了回顾。其次,针对遥感数据时空处理与分析任务,从遥感影像时间序列修复和多源遥感时空融合两个方面对其研究进展进行了回顾。再次,针对遥感目标要素分类识别任务,从典型地物要素提取和多要素并行提取两个方面对其研究进展进行了回顾。最后,针对遥感数据关联挖掘任务,从数据组织关联、专业知识图谱构建两个方面对其研究进展进行了回顾。除此之外,面向大智能分析技术发展需求,本文还对遥感开源数据集和共享平台方面的研究进展进行了回顾。在此基础上,对遥感数据智能分析与解译的研究情况进行梳理、总结, 给出了该领域的未来发展趋势与展望。  
      关键词:遥感大数据;数据处理;时空处理与分析;目标要素分类识别;数据关联挖掘;开源数据集;共享平台   
      385
      |
      174
      |
      10
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810157 false
      更新时间:2024-08-15
    • 脉冲视觉研究进展

      黄铁军, 余肇飞, 李源, 施柏鑫, 熊瑞勤, 马雷, 王威
      2022, 27(6): 1823-1839. DOI: 10.11834/jig.220175
      脉冲视觉研究进展
      摘要:视频是视觉信息处理的基础概念,传统视频的帧率只有几十Hz,不能记录光的高速变化过程,成为限制机器视觉速度的天花板,其根本原因在于视频概念脱胎于胶片成像,未能发挥电子和数字技术的潜力。脉冲视觉模型通过感光器件捕获光子,累积能量达到约定阈值时产生脉冲,形成脉冲的时间越长,表明收到的光信号越弱,反之光信号越强,据此可估计任意时刻的光强,从而实现连续成像。采用普通器件,研制了比影视视频快千倍的超高速成像芯片和相机,进而基于脉冲神经网络实现了超高速目标检测、跟踪和识别,打破了机器视觉提速依赖算力线性增长的传统范式。本文从脉冲视觉模型表达视觉信息的生物学基础和物理原理出发,介绍了脉冲视觉原理的软件模拟器及其模拟真实世界光子传播的计算过程,描述了基于脉冲视觉原理的高灵敏光电传感器件及芯片的工作机理和结构设计、基于脉冲视觉的影像重建原理以及脉冲视觉信号与普通图像信号融合的计算摄像算法与计算摄像系统,介绍了基于脉冲神经网络的超高速运动目标检测、跟踪与识别,通过对比国际国内相关研究内容和发展现状,展望了脉冲视觉的发展与演进方向。脉冲视觉芯片和系统在工业(高铁、电力和轮机等不停机监测,智能制造高速监视等)、民用(高速相机、智能交通、辅助驾驶、司法取证和体育判罚等)以及国防(高速对抗)等领域都具有巨大应用潜力,是未来值得重点关注和研究的一个重要方向。  
      关键词:脉冲视觉;脉冲神经网络;视觉信息处理;类脑视觉;人工智能   
      210
      |
      1166
      |
      6
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810247 false
      更新时间:2024-08-15
    • 计算成像前沿进展

      顿雄, 付强, 李浩天, 孙天成, 王建, 孙启霖
      2022, 27(6): 1840-1876. DOI: 10.11834/jig.220061
      计算成像前沿进展
      摘要:计算成像是融合光学硬件、图像传感器和算法软件于一体的新一代成像技术,突破了传统成像技术信息获取深度(高动态范围、低照度)、广度(光谱、光场、3维)的瓶颈。本文以计算成像的新设计方法、新算法和应用场景为主线,通过综合国内外文献和相关报道来梳理该领域的主要进展。从端到端光学算法联合设计、高动态范围成像、光场成像、光谱成像、无透镜成像、低照度成像、3维成像和计算摄影等研究方向,重点论述计算成像领域的发展现状、前沿动态、热点问题和趋势。端到端光学算法联合设计包括了可微的衍射光学模型、折射光学模型以及基于可微光线追踪的复杂透镜的模型。高动态范围光学成像从原理到光学调制、多次曝光、多传感器融合以及算法等层面阐述不同方法的优点与缺点以及产业应用。光场成像阐述了基于光场的3维重建技术在超分辨、深度估计和3维尺寸测量等方面国内外的研究进展和产业应用,以及光场在粒子测速及3维火焰重构领域的研究进展。光谱成像阐述了当前多通道滤光片,基于深度学习和波长响应曲线求逆问题,以及衍射光栅、多路复用和超表面等优化实现高光谱的获取。无透镜成像包括平面光学元件的设计和优化,以及图像的高质量重建算法。低照度成像包括低照度情况下基于单帧、多帧、闪光灯和新型传感器的图像噪声去除等。3维成像主要包括针对基于主动方法的深度获取的困难的最新的解决方案,这些困难包括强的环境光干扰(如太阳光)、强的非直接光干扰(如凹面的互反射、雾天的散射)等。计算摄影学是计算成像的一个分支学科,从传统摄影学发展而来,更侧重于使用数字计算的方式进行图像拍摄。在光学镜片的物理尺寸、图像质量受限的情况下,如何使用合理的计算资源,绘制出用户最满意的图像是其主要研究和应用方向。  
      关键词:端到端成像;高动态范围成像;光场成像;光谱成像;无透镜成像;低照度成像;主动3维成像;计算摄影   
      471
      |
      2241
      |
      7
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810254 false
      更新时间:2024-08-15
    • 移动在线实时绘制技术研究综述

      刘畅, 霍宇驰, 张严辞, 张乾, 郑家祥, 唐睿, 余耿, 王锐, 贾金原
      2022, 27(6): 1877-1897. DOI: 10.11834/jig.220177
      移动在线实时绘制技术研究综述
      摘要:移动在线实时绘制技术受移动互联网发展的驱动,为3维可视化、计算机视觉、虚拟现实、增强现实、扩展现实和元宇宙等新兴研究领域提供了核心技术的支撑。本文以在线实时绘制技术为切入点,探讨了该技术在移动端、Web端、云端和多端协同这4类平台下的发展重心和研究现状,并深度阐述了工业级在线云平台的实施方案。首先,针对移动端的在线实时绘制,分析了近年来移动端绘制硬件构架设计的优化方向;探讨了在功耗和带宽受到制约的情况下移动端如何对渲染算法进行加速,如何对高功耗的光线跟踪算法进行优化;列举了包括图形应用程序编程接口(application programming interface,API)和游戏引擎在内的移动端渲染工具。然后,针对Web端在线实时绘制,分析了Web端的3D渲染机制,梳理了以3D场景的轻量化预处理、大规模3D场景的细粒度化网络传输、3D场景的对等传输以及Web3D在线特效渲染为代表的Web端在线绘制的关键技术(尤其面向大规模3D场景),列举了国内外知名Web3D引擎并探讨了主流游戏引擎对Web3D应用的支持。再后,针对云端在线实时绘制,从应用托管、资源调度和串流这三大云平台的核心功能入手,调研了以串流应用优化技术为核心的在线云绘制现状。此后,从多端绘制任务分摊机制入手,分析了以“端云”协同和“端边云”协同为目标的在线多端协同绘制的发展。最后,以当前工业级在线云绘制平台为研究对象,分析了包括微软、英伟达、Unity、酷家乐等一线云绘制企业的在线实时云绘制平台方案,验证了移动在线绘制技术在工业界的实用性。  
      关键词:在线实时绘制;云渲染;Web3D;端云协同;远程绘制   
      219
      |
      905
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810288 false
      更新时间:2024-08-15

      数据挖掘和信息交互

    • 表格识别技术研究进展

      高良才, 李一博, 都林, 张新鹏, 朱子仪, 卢宁, 金连文, 黄永帅, 汤帜
      2022, 27(6): 1898-1917. DOI: 10.11834/jig.220152
      表格识别技术研究进展
      摘要:表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。  
      关键词:表格区域检测;表格结构识别;表格内容识别;深度学习;单元格识别;表格信息抽取   
      457
      |
      647
      |
      8
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810293 false
      更新时间:2024-08-15
    • 多媒体隐写研究进展

      张卫明, 王宏霞, 李斌, 任延珍, 杨忠良, 陈可江, 李伟祥, 张新鹏, 俞能海
      2022, 27(6): 1918-1943. DOI: 10.11834/jig.211272
      多媒体隐写研究进展
      摘要:大数据分析可以跳过数据内容而仅从数据背景挖掘情报,传统的加密通信已经难以满足安全通信的需求。隐写技术是将秘密消息嵌入各种载体(如数字图像、音频、视频或文本)中实现隐蔽通信的技术,是应对大数据情报获取的有效手段,是密码技术的必要补充。人工智能,尤其是深度学习,在计算机视觉、语音和自然语言处理等领域的巨大成功,给隐写术带来了新机遇,提出了新挑战,促使基于图像、音/视频和文本的隐写术出现了一系列新思想、新方法。本文介绍隐写术的概念、分类、主要作用和研究意义,概述隐写术的发展历史、研究近况和应用场景。注意到各类载体上的隐写术虽然有差别,但是其核心追求有共通之处,可以提炼成通用的隐写编码问题。所以本文首先介绍隐写编码的基本思想与关键技术,然后针对最重要和流行的载体、图像、视频、音频和文本,分别介绍隐写术的进展。总体而言,本文从隐写编码、图像隐写、视频隐写、音频隐写和文本隐写5个方面概述隐写术的国际/国内发展现状,总结差异,对比优势和劣势,并分析发展趋势。  
      关键词:隐写编码;文本隐写;图像隐写;音频隐写;视频隐写   
      288
      |
      177
      |
      6
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810363 false
      更新时间:2024-08-15
    • 大脑多模态成像技术定量研究进展

      叶慧慧, 何宏建, 方静宛, 童琪琦, 周子涵, 刘华锋
      2022, 27(6): 1944-1955. DOI: 10.11834/jig.220153
      大脑多模态成像技术定量研究进展
      摘要:现代医学成像技术是脑科学研究和脑疾病诊断的利器,不同模态的成像技术提供不同的信息可协同表征脑部结构和功能。其中定量成像技术着眼于和生理、物理相关的内在参量,旨在提供更精准的信息。本文以正电子发射扫描成像(positron emission tomography,PET)和磁共振成像(magnetic resonance imaging,MRI)两种生物医学成像模态为例, 针对性地讨论它们在定量刻画大脑微观结构和功能领域的发展状况,目前尚存的关键技术问题和未来的可能发展方向。围绕定量MRI,从表观参数定量开始,介绍其中的单参数定量的现状和不足,以及目前多参数同时定量的发展动态;围绕微观参数定量,介绍针对髓鞘成像的两大方法,包括多组分T2定量和基于超短回波时间髓鞘直接成像,介绍磁共振定量成像特别是磁共振扩散成像的可比较性和可重复性研究。围绕定量PET,从最广泛的代谢动力学模型——房室模型开始介绍,对生理参数与示踪剂摄取量的关系进行了详细描述,展开到定量的误差来源包括模型选择、图像质量以及输入函数测量误差3个方面进行分析,介绍最新进展包括硬件设备、图像重建方法以及定量分析方法。最后对MRI定量、PET定量以及PET/MRI定量领域进行了展望。  
      关键词:多模态成像;定量磁共振成像(MRI);定量正电子发射扫描成像(PET);多参数同时定量;髓鞘水成分定量;多中心融合;房室模型   
      251
      |
      101
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810397 false
      更新时间:2024-08-15
    • 多模态人机交互综述

      陶建华, 巫英才, 喻纯, 翁冬冬, 李冠君, 韩腾, 王运涛, 刘斌
      2022, 27(6): 1956-1987. DOI: 10.11834/jig.220151
      多模态人机交互综述
      摘要:多模态人机交互旨在利用语音、图像、文本、眼动和触觉等多模态信息进行人与计算机之间的信息交换。在生理心理评估、办公教育、军事仿真和医疗康复等领域具有十分广阔的应用前景。本文系统地综述了多模态人机交互的发展现状和新兴方向,深入梳理了大数据可视化交互、基于声场感知的交互、混合现实实物交互、可穿戴交互和人机对话交互的研究进展以及国内外研究进展比较。本文认为拓展新的交互方式、设计高效的各模态交互组合、构建小型化交互设备、跨设备分布式交互、提升开放环境下交互算法的鲁棒性等是多模态人机交互的未来研究趋势。  
      关键词:多模态人机交互;大数据可视化交互;声场感知交互;实物交互;可穿戴交互;人机对话交互   
      762
      |
      572
      |
      17
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810404 false
      更新时间:2024-08-15
    • 文化遗产活化关键技术研究进展

      耿国华, 何雪磊, 王美丽, 李康, 贺小伟
      2022, 27(6): 1988-2007. DOI: 10.11834/jig.220198
      文化遗产活化关键技术研究进展
      摘要:中华民族文化资源丰富、种类繁多且艺术形式多样,源于民族,植根民间,承载着历史记忆,延续着文化血脉,是中华民族的根与魂。文化遗产分布广、流传年代长,具有多样性、独特性和不可再生性等特点,是研究古代人类文明发展的珍贵资料。目前随着信息技术的迅猛发展以及全球化的冲击,其传承形式发生了根本性变化,特别是非物质文化遗产的人际传承方式,因此亟待在资源与媒介、内容与技术之间搭建技术的桥梁,支撑中华文化遗产的数字化传承。本文基于先进的智能计算、数字媒体和虚拟现实/增强现实技术,结合文化遗产的传播过程和艺术特点,对文化遗产收集理解、虚实结合智能展示交互和智慧化平台建设等活化关键技术的发展现状、前沿动态、热点问题和发展趋势进行分析和综述。在文化遗产收集理解方面,针对复杂文物数字化所存在的瓶颈问题,介绍数字化采集与重建关键技术;介绍文化遗产元素、主题和风格等特征提取算法,分析文化遗产的构图特征、分布特征、色彩特征和造型特征等数字化模拟过程中的关键技术,介绍基于语义特征分析、理解和识别的文化遗产理解及建设关键技术。对比和分析传统图形图像处理和深度学习方法在民族文化数字化仿真过程的优缺点,比较算法特点和算法效率,阐述存在的问题和难点,并对民族文化数字化仿真进行展望。在虚实结合智能展示交互方面,针对文化遗产的实体化展示和虚拟化展示特点,结合前沿信息技术,以多模态图像处理、小样本学习以及风格化图像生成方法为技术手段,基于多源异构大数据分析、知识图谱及深度学习等研究,综述文化遗产数字化修复的关键技术。面向文化遗产3D交互展示的需求,结合文本、音频、视频、语义和故事检索,介绍基于内容的自然人机交互技术;通过实时逼真、虚实融合渲染以及基于增强现实技术介绍相应的数字展品虚拟交互展示新技术。在智慧化平台建设方面,针对目前文化遗产智慧化平台系统管理分散导致业务协同不畅、数据缺乏统一规范导致数据难以共享,系统维护难度大、管理成本高以及用户使用不便等诸多问题,介绍文化遗产大数据模型与私有云架构关键技术研究以及相关的智慧平台建设项目。通过以上文化遗产活化的关键技术主动融入国家发展重大战略,有利于挖掘和提升民族文化遗产保护传承技术,促进文化遗产活化技术的合理利用,扩大传播影响,对弘扬中华文明、促进文化繁荣、建设少数民族示范区以及构筑文化自信具有重要意义。  
      关键词:文化遗产;数字化;虚拟修复;虚拟交互;智慧平台   
      221
      |
      1592
      |
      4
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810438 false
      更新时间:2024-08-15
    • 情感计算与理解研究发展概述

      姚鸿勋, 邓伟洪, 刘洪海, 洪晓鹏, 王甦菁, 杨巨峰, 赵思成
      2022, 27(6): 2008-2035. DOI: 10.11834/jig.220085
      摘要:情感在感知、决策、逻辑推理和社交等一系列智能活动中起到核心作用,是实现人机交互和机器智能的重要元素。近年来,随着多媒体数据爆发式增长及人工智能的快速发展,情感计算与理解引发了广泛关注。情感计算与理解旨在赋予计算机系统识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高、更全面的智能。根据输入信号的不同,情感计算与理解包含不同的研究方向。本文全面回顾了多模态情感识别、孤独症情感识别、情感图像内容分析以及面部表情识别等不同情感计算与理解方向在过去几十年的研究进展并对未来的发展趋势进行展望。对于每个研究方向,首先介绍了研究背景、问题定义和研究意义;其次从不同角度分别介绍了国际和国内研究现状,包括情感数据标注、特征提取、学习算法、部分代表性方法的性能比较和分析以及代表性研究团队等;然后对国内外研究进行了系统比较,分析了国内研究的优势和不足;最后讨论了目前研究存在的问题及未来的发展趋势与展望,例如考虑个体情感表达差异问题和用户隐私问题等。  
      关键词:情感计算;情感识别;孤独症;图像识别;表情识别   
      593
      |
      1629
      |
      6
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810511 false
      更新时间:2024-08-15
    • 跨模态脑图谱数据融合研究进展

      罗娜, 宋明, 杨正宜, 蒋田仔
      2022, 27(6): 2036-2056. DOI: 10.11834/jig.220036
      跨模态脑图谱数据融合研究进展
      摘要:脑图谱是研究脑结构和功能及脑疾病的基础,不同类型的脑图谱从不同角度提供了脑的组织模式或连接信息。随着图像采集和生物检测技术的发展,不同模态的脑影像和生物组学数据迅速增长。相较于单模态,多模态融合数据能够同时考察不同模态数据间的多元化信息,挖掘蕴含的未知新信息。因此,开展跨模态脑图谱数据融合研究有助于更全面地理解大脑的结构和功能,并辅助加深对脑发育、老化和病变机理的理解。本文根据参与融合的模态是否具有空间信息,将近年来有代表性的跨模态脑图谱融合技术分为脑影像融合和脑数据融合两大类。脑影像融合是指对宏观脑影像(磁共振等)和组织学脑影像(胞体染色、轴突染色等)等具有空间信息的数据进行融合,构建涵盖脑结构和功能信息的跨模态多尺度脑图谱, 为研究宏观特征的介观机制以及介观特征的宏观表征提供了重要途径。脑数据融合是指对缺乏脑空间信息的生物大数据,包括基因组、电生理、认知和行为等,利用脑图谱提供精细空间信息,挖掘高维、异构生物大数据蕴含的信息,明确脑图谱的生理意义,并提升其应用价值。本文将针对这两类融合类型阐述国内外有代表性的研究进展,并对比国内外研究现状的差异。此外,为促进跨模态脑图谱数据融合领域的交流和发展,总结了部分有代表性的大样本公开数据集。最后讨论了当前该领域待解决的问题以及未来的发展趋势。  
      关键词:脑图谱;跨模态;空间信息;脑影像;多组学;公开数据集   
      223
      |
      847
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 58810535 false
      更新时间:2024-08-15
    0