《中国图象图形学报》多媒体智能专刊简介

朱文武; 黄庆明; 黄华; 蒋树强; 彭宇新; 刘青山; 王井东; 纪荣嵘; 邓伟洪; 方玉明; 刘家瑛; 韩向娣

发布时间： 2022-09-17
摘要点击次数： 2157
全文下载次数： 783
DOI: 10.11834/jig.2200009
2022 | Volume 27 | Number 9

《中国图象图形学报》多媒体智能专刊简介

朱文武¹, 黄庆明², 黄华³, 蒋树强⁴, 彭宇新⁵, 刘青山⁶, 王井东⁷, 纪荣嵘⁸, 邓伟洪⁹, 方玉明¹⁰, 刘家瑛⁵, 韩向娣¹¹(1.清华大学, 北京 100084;2.中国科学院大学, 北京 100049;3.北京师范大学, 北京 100091;4.中国科学院计算技术研究所, 北京 100094;5.北京大学, 北京 100091;6.南京信息工程大学, 南京 210044;7.微软亚洲研究院, 北京 100190;8.厦门大学, 厦门 361005;9.北京邮电大学, 北京 100876;10.江西财经大学, 南昌 330013;11.《中国图象图形学报》编辑部, 北京 100190)

摘要

近年来，人工智能和高性能计算快速发展，大规模多媒体数据的智能应用需求日趋广泛，多媒体数据的融合、转换、理解、搜索、推理与推荐等方向的新问题也不断涌现，推动了多媒体智能处理与分析技术的迅速发展，在学术界和产业界均引起极大关注。为更好地推动多媒体智能处理与分析理论、技术、应用的发展，及时记录我国多媒体智能领域的最新技术、前沿进展、学者观点、算法研究、数据集构建及应用落地等方面的优秀成果，《中国图象图形学报》邀请国内多位一线专家共同策划推出“多媒体智能”专刊，以期为图像视频处理与分析、多媒体信息检索和推荐、多媒体内容分发、数据挖掘与机器学习等相关领域的研究人员提供参考。经过严格评审，“多媒体智能”专刊共收录学术论文15篇，包括“学者观点”3篇、“综述”4篇、“多媒体智能安全”3篇、“目标智能检测”2篇、以及“多媒体分析与理解”3篇。 “学者观点”栏目中，《多媒体智能：当多媒体遇到人工智能》围绕“大数据”时代多媒体与人工智能融合的背景，提出了多媒体智能的新概念，探讨了多媒体和人工智能之间的相互影响，具体包括以下两个方向：1)多媒体推动人工智能向着更具可解释性的方向发展；2)人工智能促进多媒体推理能力的发展。这两个方向形成了一个多媒体智能循环，其中多媒体和AI以交互和迭代的方式相互促进增强。该文讨论了每一循环中的研究进展，特别是研究多媒体如何推动机器学习发展以及机器学习如何反过来推动多媒体发展。总结了循环中已经完成的工作，并指出了完成循环所需要做的未来工作，然后对值得进一步深入探索的多媒体智能相关研究方向进行了思考。《视觉知识：跨媒体智能进化的新支点》介绍了一种新的智能表达方式——视觉知识的3个基本要素，即视觉概念、视觉关系、视觉推理，并对每个要素展开详细讨论与分析。视觉知识有助于实现数据与知识驱动的统一框架，学习可归因可溯源的结构化表达，推动跨媒体知识关联与智能推理。视觉知识具有强大的知识抽象表达能力和多重知识互补能力，为跨媒体智能进化提供了新的有力支点。《面向海洋的多模态智能计算：挑战、进展和展望》首次从多模态数据技术的视角，系统地介绍面向海洋现象/过程的智能感知、认知和预知的交叉研究进展。通过梳理海洋科学大数据全生命周期的阶段演进过程，明确海洋多模态智能计算的研究对象、科学问题和典型应用场景。在海洋多模态大数据内容分析、推理预测和高性能计算3个典型应用场景中展开现有工作的系统性梳理和介绍。针对海洋数据分布和计算模式的差异性，提出海洋多模态大数据表征建模、跨模态关联、推理预测、高性能计算4个关键科学问题中的挑战，并提出未来展望。 “综述”栏目中，《基于深度学习的人—物交互关系检测综述》一方面分析空域人—物交互关系检测任务，从数据内容场景、标注粒度两方面总结和分析当下数据库和基准。然后从两阶段分段式方法和单阶段端到端式方法两个流派出发系统性地阐述当前检测方法的发展现状，分析两个流派方法的特性和优劣，厘清该领域方法的发展路线。另一方面，对时空域人—物交互关系检测任务进行总结，分析现有时空域交互关系数据集构造与特性和现有基线算法的优劣。最后对未来的研究方向进行展望。《人类面部重演方法综述》对现阶段面部重演领域的发展进行梳理和总结。从面部重演模型入手，对面部重演存在的问题、模型的分类以及驱动人脸特征表达进行阐述，列举并介绍了训练面部重演模型常用的数据集及评估模型的评价指标，对面部重演近年研究工作进行归纳、分析与比较，最后对面部重演的演化趋势、当前挑战、未来发展方向、危害及应对策略进行了总结和展望。《视觉语言多模态预训练综述》总结了视觉语言多模态预训练领域的进展，对常见的预训练数据集和预训练方法进行了汇总，然后对目前最新方法和经典方法进行系统概述，按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类，阐述了各方法之间的共性和差异，并将各模型在具体下游任务上的实验情况进行了汇总。最后总结了视觉语言预训练面临的挑战和未来发展趋势。《Bayer阵列图像去马赛克算法综述》对Bayer采样阵列原理和图像去马赛克技术进行概述；将现有方法按照传统方法和基于深度学习方法两类进行总结，根据去马赛克任务是否具有独立性，将深度学习方法进一步细分为独立去马赛克任务和联合去马赛克任务两类，进一步分析了不同方法的原理和优缺点，并重点阐述了基于深度学习的去马赛克方法网络结构和重建机理，介绍去马赛克领域中常用的公共数据集和性能评价指标，并对相关实验进行分析对比。最后，围绕网络深度、运算效率、实用性等方面分析了现阶段图像去马赛克技术面临的挑战及未来的发展方向。我们期待广大读者和科技人员通过“多媒体智能”专刊，能够更深入、更全面地了解该领域的最新方法和应用，吸引更多学者从事相关研究并产生具有国际影响力的优秀成果，为本领域的发展做出新的贡献。

关键词

()

Abstract

Keywords