最新刊期

2021 年第 26 卷第 6 期

序言

序言封面论文封底论文增强出版 AI导读

2021, 26(6)

90

|

81

|

0

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704103 false

更新时间：2024-05-07

图像处理与通信技术

视频处理与压缩技术封面论文封底论文增强出版 AI导读

贾川民, 马海川, 杨文瀚, 任文琦, 潘金山, 刘东, 刘家瑛, 马思伟
2021, 26(6): 1179-1200. DOI: 10.11834/jig.200861

摘要：视频处理与压缩是多媒体计算与通信领域的核心主题之一，是连接视频采集传输和视觉分析理解的关键桥梁，也是诸多视频应用的基础。当前“5G+超高清+AI”正在引发多媒体计算与通信领域的新一轮重大技术革新，视频处理与压缩技术正在发生深刻变革，亟需建立视频大数据高效紧凑表示理论和方法。为此，学术研究机构和工业界对视频大数据的视觉表示机理、视觉信息紧凑表达、视频信号重建与恢复、高层与低层视觉融合处理方法及相应硬件技术等前沿领域进行了广泛深入研究。本文从数字信号处理基础理论出发，分析了当前视频处理与压缩领域的热点问题和研究内容，包括基于统计先验模型的视频数据表示模型及处理方法、融合深度网络模型的视频处理技术、视频压缩技术以及视频压缩标准进展等领域。详细描述了视频超分辨率、视频重建与恢复、视频压缩技术等领域面临的前沿动态、发展趋势、技术瓶颈和标准化进程等内容，对国际国内研究内容和发展现状进行了综合对比与分析，并展望了视频处理与压缩技术的发展与演进方向。更高质量视觉效果和高效率视觉表达之间将不再是单独研究的个体，融合类脑视觉系统及编码机理的视频处理与压缩技术将是未来研究的重要领域之一。

关键词：多媒体技术;视频信号处理;视频压缩;人工智能;深度学习

134

|

79

|

4

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704119 false

更新时间：2024-05-07
面向体验质量的多媒体计算通信封面论文封底论文增强出版 AI导读

陶晓明, 杨铀, 徐迈, 段一平, 黄丹蓝, 刘文予
2021, 26(6): 1201-1215. DOI: 10.11834/jig.200864

摘要：随着移动互联网和通讯技术的发展，多媒体通信技术成为国家信息产业发展的重大需求，广泛地应用在视频会议、各类直播应用、远程医疗、远程监控和远程教育等方面。然而，大容量多媒体通信业务面临着网络带宽的压力。本文将媒体计算引入通信系统，建立新的多媒体通信研究范式，从提升体验质量（quality of experience，QoE）的角度，形成新的多媒体编码与传输方法，从根本上降低网络带宽需求的压力。体验质量即信息接收者结合自身期望对客观信息载体的有关性能给出的主观评价，是区别于服务质量（quality of service，QoS）的通信质量评价准则。本文介绍了QoE的评价准则，分为基于用户的评价方法和基于客观参数的评价方法，通过用户主观评分或对用户的相关生理、心理指标进行测量进而分析、推测用户的感受；或者通过对业务客观指标的主观化修正实现体验质量的评价。本文综述了多媒体编码方法，主要包括基于波形的编码和基于内容的编码方法。前者对任意视频信号进行有效编码而不需要分析视频内容，如一系列视频编码标准；后者识别视频序列中的物体和相关区域并对它们进行编码。本文阐述了5G+AI（artificial intelligence）时代的新型视频传输方法，如多视点视频编码、4 K、8 K视频编码，3D立体视频，点云、光场、AR（augmented reality）、VR（virtual reality）等视频业务。

关键词：计算通信;多媒体通信;评价准则;多媒体编码;多媒体传输

47

|

49

|

1

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704102 false

更新时间：2024-05-07
数字媒体取证技术综述封面论文封底论文增强出版 AI导读

李晓龙, 俞能海, 张新鹏, 张卫明, 李斌, 卢伟, 王伟, 刘晓龙
2021, 26(6): 1216-1226. DOI: 10.11834/jig.210081

摘要：面对每天有数以百万计通过网络传播的多媒体数据，到底哪些内容是真实可信的，虚假内容的背后又经历了哪些篡改？数字取证技术将给出答案。该技术不预先嵌入水印，而是直接分析多媒体数据的内容，达到辨别真实性的目的。任何篡改和伪造都会在一定程度上破坏原始多媒体数据本身固有特征的完整性，由于其具有一致性和独特性，可作为自身的“固有指纹”，用于鉴别篡改文件。随着篡改媒体的数量与日俱增，社会稳定甚至国家安全受到了严重威胁。特别地，随着深度学习技术的快速发展，虚假媒体与真实媒体之间的感官差距越来越小，这对媒体取证研究提出了巨大挑战，并使得多媒体取证成为信息安全领域一个重要的研究方向。因此，目前迫切需要能够检测虚假多媒体内容和避免危险虚假信息传播的技术和工具。本文旨在对过去多媒体取证领域所提出的优秀检测取证算法进行总结。除了回顾传统的媒体取证方法，还将介绍基于深度学习的方法。本文针对当今主流的多媒体篡改对象：图像、视频和语音分别进行总结，并针对每种媒体形式，分别介绍传统篡改方法和基于AI（artificial intelligence）生成的篡改方法，并介绍了已公开的大规模数据集以及相关应用的情况，同时探讨了多媒体取证领域未来可能的发展方向。

关键词：多媒体取证;多媒体溯源;篡改检测;篡改定位;虚假人脸

275

|

188

|

13

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704117 false

更新时间：2024-05-07
面向智慧城市的交通视频结构化分析前沿进展封面论文封底论文增强出版 AI导读

赵耀, 田永鸿, 党建武, 付树军, 王恒友, 万军, 安高云, 杜卓然, 廖理心, 韦世奎
2021, 26(6): 1227-1253. DOI: 10.11834/jig.210035

摘要：随着智慧城市建设的不断深入，大量的传感器设备铺置在城市公路和轨道等交通场景，为多维度全方位感知城市交通状态构建了广泛的感知网络，产生了海量的交通视频数据。海量交通视频数据是城市管理的数据宝藏，理解与分析这些数据是智慧城市建设的关键。面对高度冗余的交通视频数据，如何高效准确地挖掘和提取结构化信息，实现对重点目标（如人、车、物）的快速检测、识别与检索，是交通视频处理的核心问题——交通视频结构化分析。交通视频结构化分析包括车辆视频结构化分析、人员结构化分析及其行为分析。其中，车辆结构化作为一个复杂的多步骤任务，主要由车辆的检测、车辆的属性（车牌、车型和颜色）识别以及车辆的检索和重识别等子任务构成。人脸结构化和行人结构化是交通视频中行人结构化智能分析中的两个重要研究方向，主要分析人脸或者行人的一些表观属性。行人行为分析是指对行人在复杂交通环境下做出的动作进行识别和预测。本文从交通视频中的车辆、行人及其行为分析等方面，阐述交通视频结构化分析领域的研究热点及前沿进展，汇总比较国内外的相关成果，并对交通视频结构化分析领域的研究进行总结分析与展望。

关键词：交通视频;车辆结构化分析;行人结构化分析;行为结构化分析;车辆检测;车辆属性识别;车辆检索;人脸结构化分析

133

|

344

|

4

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704118 false

更新时间：2024-05-07
生物特征识别学科发展报告封面论文封底论文增强出版 AI导读

孙哲南, 赫然, 王亮, 阚美娜, 冯建江, 郑方, 郑伟诗, 左旺孟, 康文雄, 邓伟洪, 张杰, 韩琥, 山世光, 王云龙, 茹一伟, 朱宇豪, 刘云帆, 何勇
2021, 26(6): 1254-1329. DOI: 10.11834/jig.210078

摘要：从手机解锁、小区门禁到餐厅吃饭、超市收银，再到高铁进站、机场安检以及医院看病，人脸、虹膜和指纹等生物特征已成为人们进入万物互联世界的数字身份证。生物特征识别赋予机器自动探测、捕获、处理、分析和识别数字化生理或行为信号的高级智能，是一个典型而又复杂的模式识别问题，一直处于人工智能技术发展前沿，在新一代人工智能规划、“互联网+”行动计划等国家战略中具有重要地位。由于生物特征识别涉及公众利益攸关的隐私、道德和法律等问题，近期也引起了广泛的社会关注。本文系统综述了生物特征识别学科发展现状、新兴方向、存在问题和可行思路，深入梳理了人脸、虹膜、指纹、掌纹、静脉、声纹、步态、行人重识别以及多模态融合识别的研究进展，以人脸为例重点介绍了生物特征识别领域近些年受到关注的新方向——对抗攻击和防御、深度伪造和反伪造，最后剖析总结了生物特征识别领域存在的3大挑战问题——“感知盲区”、“决策误区”和“安全红区”。本文认为必须变革和创新生物特征的传感、认知和安全机制，才有可能取得复杂场景生物识别学术研究和技术应用的根本性突破，破除现有生物识别技术的弊端，朝着“可感”、“可知”和“可信”的新一代生物特征识别总体目标发展。

关键词：生物特征识别;人脸;虹膜;指纹;掌纹;静脉;声纹;步态;行人重识别;多模态

477

|

4127

|

16

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704167 false

更新时间：2024-05-07
自然场景文本检测与识别的深度学习方法封面论文封底论文增强出版 AI导读

刘崇宇, 陈晓雪, 罗灿杰, 金连文, 薛洋, 刘禹良
2021, 26(6): 1330-1367. DOI: 10.11834/jig.210044

摘要：许多自然场景图像中都包含丰富的文本，它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展，许多新的应用场景都需要利用这些文本信息，例如招牌识别和自动驾驶等。因此，自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一，该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则，且模型设计复杂、效率低、泛化性能差。随着深度学习的发展，自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展，其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景，对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结，阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法，进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外，列举说明了部分主流公开数据集，对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。

关键词：自然场景文本检测;自然场景文本识别(STR);端到端自然场景文本检测与识别;深度学习;光学字符识别(OCR);综述

193

|

1307

|

19

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704198 false

更新时间：2024-05-07
基于深度学习的跨模态检索综述封面论文封底论文增强出版 AI导读

尹奇跃, 黄岩, 张俊格, 吴书, 王亮
2021, 26(6): 1368-1388. DOI: 10.11834/jig.200862

摘要：由于多模态数据的快速增长，跨模态检索受到了研究者的广泛关注，其将一种模态的数据作为查询条件检索其他模态的数据，如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异，如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果，研究者提出了一系列以深度学习为基础的跨模态检索方法，极大缓解了不同模态间相似性度量的挑战，本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文，基于所提供的跨模态信息将这些方法分为3类：基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说，上述3类方法提供的跨模态信息呈现递增趋势，且提供学习的信息越多，跨模态检索性能越优。在上述不同类别下，涵盖了7类主流技术，即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术，本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别，以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法，总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。

关键词：跨模态检索;跨模态哈希;深度学习;共同表示学习;对抗学习;似然分析;学习排序

508

|

1266

|

11

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704235 false

更新时间：2024-05-07

三维视觉和图形技术

三维视觉前沿进展封面论文封底论文增强出版 AI导读

龙霄潇, 程新景, 朱昊, 张朋举, 刘浩敏, 李俊, 郑林涛, 胡庆拥, 刘浩, 曹汛, 杨睿刚, 吴毅红, 章国锋, 刘烨斌, 徐凯, 郭裕兰, 陈宝权
2021, 26(6): 1389-1428. DOI: 10.11834/jig.210043

摘要：在自动驾驶、机器人、数字城市以及虚拟/混合现实等应用的驱动下，三维视觉得到了广泛的关注。三维视觉研究主要围绕深度图像获取、视觉定位与制图、三维建模及三维理解等任务而展开。本文围绕上述三维视觉任务，对国内外研究进展进行了综合评述和对比分析。首先，针对深度图像获取任务，从非端到端立体匹配、端到端立体匹配及无监督立体匹配3个方面对立体匹配研究进展进行了回顾，从深度回归网络和深度补全网络两个方面对单目深度估计研究进展进行了回顾。其次，针对视觉定位与制图任务，从端到端视觉定位和非端到端视觉定位两个方面对大场景下的视觉定位研究进展进行了回顾，并从视觉同步定位与地图构建和融合其他传感器的同步定位与地图构建两个方面对同步定位与地图构建的研究进展进行了回顾。再次，针对三维建模任务，从深度三维表征学习、深度三维生成模型、结构化表征学习与生成模型以及基于深度学习的三维重建等4个方面对三维几何建模研究进展进行了回顾，并从多视RGB重建、单深度相机和多深度相机方法以及单视图RGB方法等3个方面对人体动态建模研究进展进行了回顾。最后，针对三维理解任务，从点云语义分割和点云实例分割两个方面对点云语义理解研究进展进行了回顾。在此基础上，给出了三维视觉研究的未来发展趋势，旨在为相关研究者提供参考。

关键词：立体匹配;单目深度估计;视觉定位;同步定位与地图构建(SLAM);三维几何建模;人体动态重建;点云语义理解

507

|

726

|

26

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704287 false

更新时间：2024-05-07
大规模室外图像3维重建技术研究进展封面论文封底论文增强出版 AI导读

颜深, 张茂军, 樊亚春, 谭小慧, 刘煜, 彭杨, 刘宇翔
2021, 26(6): 1429-1449. DOI: 10.11834/jig.200842

摘要：基于图像的3维重建旨在从一组2维多视角图像中精确地恢复真实场景的几何形状，是计算机视觉和摄影测量中基础且活跃的研究课题，具有重要的理论研究意义和应用价值，在智慧城市、虚拟旅游、数字遗产保护、数字地图和导航等领域有着广泛应用。随着图像采集系统（智能手机、消费级数码相机和民用无人机等）的普及和互联网的高速发展，通过搜索引擎可以获取大量关于某个室外场景的互联网图像。利用这些图像进行高效鲁棒准确的3维重建，为用户提供真实感知和沉浸式体验已经成为研究热点，引发了学术界和产业界的广泛关注，涌现了多种方法。深度学习的出现为大规模室外图像的3维重建提供了新的契机。首先阐述大规模室外图像3维重建的基本串行过程，包括图像检索、图像特征点匹配、运动恢复结构和多视图立体。然后从传统方法和基于深度学习的方法两个角度，分别系统全面地回顾大规模室外图像3维重建技术在各重建子过程中的发展和应用，总结各子过程中适用于大规模室外场景的数据集和评价指标。最后介绍现有主流的开源和商业3维重建系统以及国内相关产业的发展现状。

关键词：3维重建;图像检索;图像特征点匹配;运动恢复结构;多视图立体

159

|

613

|

5

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704334 false

更新时间：2024-05-07
视觉传感成像技术与数据处理进展封面论文封底论文增强出版 AI导读

王程, 陈峰, 汶德胜, 雷浩, 宋宗玺, 赵航芳
2021, 26(6): 1450-1469. DOI: 10.11834/jig.200852

摘要：本文以视觉传感的新视觉传感硬件、处理技术和应用场景为主线，通过综合国内外文献和相关报道来梳理该领域在成像技术和数据处理方面的主要进展。从激光扫描成像、大动态范围光学成像技术、偏振成像与传感技术和海洋声学层析成像等研究方向，重点论述视觉传感领域的发展现状、前沿动态、热点问题和趋势。基于激光扫描的3维建模技术虽然取得了一些进展，但仍面临居多挑战。随着硬件设备和数据处理技术的发展，未来激光扫描系统将在众多民用领域得到广泛应用，满足不同的探测和建模任务；大动态范围光学成像相关技术已逐步应用于红外成像、光谱成像、偏振成像、超声成像和单光子成像等领域，将为多维信息获取、智能处理以及数据挖掘等提供有力支撑；充分挖掘偏振成像的应用潜能，与其他先进成像传感技术相结合，实现更优性能，对各个尺度下的成像场景都具有重要的应用价值；海洋声学层析成像需要与其他方法相结合，发展基于分布式水下传感网络、卫星观测、海底电缆、人工与自然噪声机会声源等联合观测的低成本、长期观测网络。对国内外视觉传感领域进展情况进行梳理、总结，有助于发现该领域的发展趋势以及明确下一步的研究方向。

关键词：视觉传感;激光扫描;大动态范围成像;偏振成像;海洋声学层析成像

64

|

69

|

3

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704452 false

更新时间：2024-05-07
视觉—惯性导航定位技术研究进展封面论文封底论文增强出版 AI导读

司书斌, 赵大伟, 徐婉莹, 张勇刚, 戴斌
2021, 26(6): 1470-1482. DOI: 10.11834/jig.200863

摘要：视觉—惯性导航定位技术是一种利用视觉传感器和惯性传感器实现载体的自定位和周围环境感知的无源导航定位方式，可以在全球定位系统(global positioning system，GPS)拒止环境下实现载体6自由度位姿估计。视觉和低精度惯性传感器具有体积小和价格低的优势，得益于二者在导航定位任务中的互补特性，视觉—惯性导航系统(visual inertial navigation system，VINS)引起了极大关注，在移动端的虚拟现实(virtual reality，VR)、增强现实(augmented reality，AR)以及无人系统的自主导航任务中发挥了重要作用，具有重要的理论研究价值和实际应用需求。本文介绍视觉—惯性导航系统，总结概括该系统中初始化、视觉前端处理、状态估计、地图的构建与维护以及信息融合等关键技术的研究进展。对非理想环境下及基于学习方法的视觉—惯性导航定位算法等热点问题进行综述，总结用于算法评测的方法及标准数据集，阐述该技术在实际应用中所面临的主要问题，并针对这些问题对该领域未来的发展趋势进行展望。

关键词：视觉—惯性导航系统(VINS);同步定位与建图(SLAM);信息融合;状态估计;深度学习

341

|

699

|

4

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704472 false

更新时间：2024-05-07
三维视觉测量技术及应用进展封面论文封底论文增强出版 AI导读

张宗华, 刘巍, 刘国栋, 宋丽梅, 屈玉福, 李旭东, 魏振忠
2021, 26(6): 1483-1502. DOI: 10.11834/jig.200841

摘要：三维视觉测量是计算机视觉与精密测量原理交叉融合的前沿高新技术，是工业4.0的基础支撑，是以网络化、智能化制造为变革特征的先进制造业的核心关键技术。经过几十年的发展，三维视觉测量技术在基础研究和应用研究上均获得了快速深入发展，形成了理论方法、技术工艺、系统研发和产品应用四位一体较为完备的方向体系，呈现出理论系统化、方法多维化、精度精准化和速度快捷化的发展趋势，成为智能制造过程控制、产品质量检验保证和装备整机服役测试的不可或缺的优选技术。本文主要围绕单相机、双相机和结构光等典型三维视觉测量技术展开论述，概要介绍其关键技术内涵，综述其发展现状、前沿动态、热点问题和发展趋势。重点论述条纹投影三维测量技术和相位测量偏折术。最后给出了三维视觉测量的发展趋势与未来展望。

关键词：三维视觉测量;条纹投影轮廓术;相位测量偏折术;相位计算;标定;综述

466

|

640

|

27

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704519 false

更新时间：2024-05-07
虚实融合场景中的深度感知研究综述封面论文封底论文增强出版 AI导读

平佳敏, 刘越, 翁冬冬
2021, 26(6): 1503-1520. DOI: 10.11834/jig.210027

摘要：混合现实系统可以提供虚拟信息和真实环境实时叠加的虚实融合场景，在教育培训、文物保护、军事仿真、装备制造、手术医疗和展览展示等领域具有十分广阔的应用前景。混合现实系统首先利用标定数据构建虚拟摄像机模型，然后根据头部跟踪结果和虚拟摄像机位置实时绘制虚拟内容并将其叠加在真实环境中，用户通过虚实融合场景中渲染的图形化线索和虚拟物体特征感知其深度信息，但存在用于指导虚实融合场景绘制的视觉规律和感知理论匮乏、图形化线索可提供的绝对深度信息缺失和虚拟物体的渲染维度和特征指标不足等问题。本文分析了面向虚实融合场景绘制渲染的视觉规律，从用户感知的角度出发，围绕虚实融合场景中图形化线索绘制和虚拟物体渲染等展开综述，并对虚实融合场景中深度感知的研究趋势和重点进行展望和预测。

关键词：虚实融合场景;绘制渲染;深度感知;混合现实;视觉规律;深度线索;感知匹配

109

|

136

|

4

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704524 false

更新时间：2024-05-07
可微绘制技术研究进展封面论文封底论文增强出版 AI导读

许威威, 周漾, 吴鸿智, 过洁
2021, 26(6): 1521-1535. DOI: 10.11834/jig.200853

摘要：可微绘制技术是当前虚拟现实、计算机图形学与计算机视觉领域研究的热点，其目标是改造计算机图形学中以光栅化或光线跟踪算法为主的真实感绘制流程，支持梯度信息回传以计算由输出图像的变化导致的输入几何、材质属性变化，通过与优化及深度学习技术等相结合支持从数据中学习绘制模型和逆向推理，是可微学习技术在计算机图形学绘制技术中的应用的具体体现，在增强/虚拟现实内容生成、三维重建、表观采集建模和逆向光学设计等领域中有广泛的应用前景。本文对可微绘制当前的发展状况进行调研，重点对该技术在真实感绘制、3维重建和表观采集建模中的研究和应用情况进行综述，并对可微绘制技术发展趋势进行展望，以期推动可微技术在学术界和产业界的进一步发展。

关键词：可微绘制;3维重建;表观采集建模;基于图像的绘制;表达学习;深度学习

184

|

455

|

3

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704529 false

更新时间：2024-05-07
沉浸式立体显示技术在临床医学领域中的应用封面论文封底论文增强出版 AI导读

邰永航, 石俊生
2021, 26(6): 1536-1544. DOI: 10.11834/jig.200851

摘要：随着现代科学技术的快速发展，立体显示技术为临床医生的双眼视觉功能和临床应用场景，提供了现实模拟度更高的载体，并成为当前计算机视觉和临床医学领域共同研究的热点。在微创手术术前，与传统的平面显示技术相比，沉浸式立体显示技术能够提供更生动、准确的3维人体生理和病理影像，使医生更易于判断病变的层次、形状和血管等复杂结构及解剖关系；同时虚拟现实能够为医学培训及手术预演提供沉浸式的手术情境模拟，帮助医生高效地掌握手术技巧，提高医学术前诊断效率，从而进一步降低手术风险。在微创手术术中，基于增强现实的三维成像导航技术，能够将微创手术过程立体、直观地展现在医生面前，使术区各组织及其与手术器械间的位置关系和距离更加容易判断，同时通过叠加相同区域的术前检查影像，为手术提供实时的路径导航，实现精准微创手术。此外，在临床医疗资源共享中占据重要比重的远程诊疗领域，立体显示技术能够为远程诊断、线上会诊以及机器人手术等提供更为精确的深度信息，以及更多维度的图像信息，使医学数据的远程显示结果更具有真实性和实用性。现阶段立体显示技术在临床医学领域中也存在显示模式转换不舒适、三维重建图像信息缺失以及立体显示软、硬件系统带来的视觉疲劳等问题，但该技术在医学领域已经展露头角，在未来的临床医学进步中会成为不可或缺的一部分。本文详细分析了沉浸式立体显示技术在临床医学中的代表性应用，介绍了微创外科手术以及远程诊疗领域国内外的研究现状，从影像诊断、手术训练、规划与导航、治疗和教育培训4个方面，总结了立体显示技术在临床医学领域中的研究进展。

关键词：立体显示;增强现实;图像重建;手术模拟;手术导航;远程手术

109

|

31

|

2

<HTML>
<网络PDF><Meta-XML>

<引用本文> <批量引用> 55704531 false

更新时间：2024-05-07