网刊加载中。。。

0引言互联网和社交网络已成为人们获取和分享各类数字媒体的主要平台。其中以图像、视频和音频为主的数字媒体承载着巨大的信息量，最为引人注目。目前，随着计算机视觉技术的发展，图像、视频的编辑软件和工具更是层出不穷。这些编辑软件不仅使多媒体修改的过程快速便捷、修改的方式千变万化，而且图像伪造的效果逼真、视频剪辑合成的效果自然流畅。此外，随着深度学习技术的日益成熟，图像生成技术也突飞猛进，生成图像的视觉效果能够以假乱真。可见，数字媒体内容的真实性越来越不能得到保证，其真伪越来越受到质疑，多媒体鉴伪已经成为信息安全领域的一个研究热点和难点。多媒体伪造问题已经成为研究人员关注的重点。伪造的目的可能是为了娱乐(比如利用美图秀秀等工具对图像进行美颜修饰)、恶意更改图像或视频的内容(比如蓄意修改重要任务的照片或者故意夸大新闻事件的严重程度)、恶意配音等。近年出现的各种关于多媒体伪造的事件也不断提醒着人们关注媒体内容安全。比如，“华南虎”、“广场和平鸽”、青藏铁路“藏羚羊”以及广州“白云山雪景”等伪造图像严重误导了人们的认知。国际上，多媒体伪造的例子也层出不穷，美国战地记者关于伊拉克战争报道的照片拼接事件引发了民众的不信任(图 1左图)，伊朗发布的篡改导弹发射的照片对世界安全造成了威胁(图 1中图)。多媒体伪造已经涉及政治、科学、新闻、战争和娱乐等诸多领域。据公开报道，美国研究诚信办公室(office of Research Integrity, ORI)主任John Dahlberg表示，多媒体伪造是一个“日益显著的问题，需要我们进行解决”。同时，心理学研究也表明有大约30%的人会被虚假信息欺骗，这将严重影响公众看待事物的观点(例如图 1右图的换脸图片)，甚至可能会引起严重后果。图1 多媒体篡改的典型示例 Example of multimedia tamperingFig 1如今，每天有数以百万计的多媒体数据通过网络传播，到底哪些内容是真实可信的，虚假内容的背后又经历了哪些篡改？近年来提出的数字取证技术将会给出答案，该技术不预先嵌入水印，而是直接分析内容，达到真实性取证的目的。任何类型的篡改都会在媒体文件中留下“痕迹”，这些“痕迹”违背了相机成像的规则，通过检测“痕迹”实现鉴别篡改文件。本文旨在对过去多媒体取证领域的科研工作者们提出的优秀检测取证定位算法进行总结。除了介绍基于传统方法的多媒体取证方法，还将总结基于深度学习的方法。本文针对当今主流的多媒体篡改对象：图像、视频和语音分别进行总结，并针对每种媒体形式，分别介绍传统篡改方法和基于AI(artificial intelligence)生成的篡改方法，介绍了已公开的大规模数据集以及相关应用的情况。1视频伪造检测技术视频篡改主要分为帧内篡改和帧间篡改。帧内篡改以视频帧为单位，删除画面中的某个物体，或是做“复制-移动”操作，如图 2所示。随着硬件技术的发展，篡改者借助深度学习缩小了篡改后的视频与真实视频在视觉上的差距。最近备受关注的深度换脸技术(DeepFakes) 就是利用深度学习将视频中的人脸替换为其他人脸，该技术的开源代码，包括详细的使用说明，都可在软件项目托管平台GitHub上获取。这样，深度换脸的学习成本和篡改成本极低，篡改者可通过简单的操作，或者借助深度生成网络，如生成对抗网络(generative adversarial network, GAN)，直接生成人脸，或者修改人脸的表情和口型等属性信息。图2 “复制-移动”篡改示例 Example of copy-move forgery ((a) original image; (b) object copy-move; (c) manipulated regions; (d) manipulated image)Fig 2帧间篡改则以视频序列为单位，增加或删除帧。随着视频编辑技术的发展，视频篡改变得愈发容易，所以研究能够有效检测视频真伪的取证算法变得尤为重要。1.1针对传统方法伪造视频的检测技术有些传统方法伪造视频的检测技术通过关键点来对视频进行表示。Laptev(2005)的研究是记录视频在时域上变化比较大的点以反映物体的运动信息。Heng等人(2013)借助光流追踪图像特征点随时间的变化，作者还提取灰度图像梯度直方图(histogram of oriented gradient, HOG)、光流直方图(histogram of oriented optical flow, HOF)和运动边界直方图(motion boundary histogram, MBH)等作为特征来检测篡改视频。随着深度学习的发展，基于神经网络的方法显示出其优越的性能。Donahue等人(2015)使用卷积神经网络对每一个帧提取具有判别力的特征，然后使用长短时记忆(long short-term memory, LSTM)网络分析时序信息。双流法(Simonyan和Zisserman，2014)则是在光流图上获取时序信息，再与图像RGB通道的空间信息进行联合训练来分析视频。多帧的检测方法可以分为视频编码痕迹检测、视频内容不一致检测、视频帧的重复篡改与复制粘贴检测，简述如下：1)基于视频编码痕迹检测的方法。可以注意到，常见的视频往往是经过压缩的，这些篡改方法首先解码视频，经过篡改后再进行编码。所以篡改视频一定经过多重压缩，这种多次编码会在视频中留下痕迹。Liao等人(2011)利用量化非零交流系数对视频的二次压缩进行检测，具体就是以这些检测结果为基础，再结合其他技术进一步分析。Stamm等人(2012)对运动向量的统计特征进行更为深入的分析，将经过处理的特征用于机器学习算法来提高检测效果。由于实际应用中数字视频多数经过压缩编码，因此直接利用视频压缩域特征进行篡改检测的方法应用更为有效，近年来越发受到研究者重视。2)基于视频内容不一致的检测方法。当视频遭到篡改时，视频内容将不可避免地出现异常。Wang和Farid(2007a)利用相关系数矩阵及相位谱矩阵来分别对视频的帧重复篡改与帧内区域重复篡改进行检测。Wang和Farid(2007b)也研究了篡改操作对隔行扫描视频的影响，根据其去隔行效应特征对视频篡改进行检测。3)基于视频帧的重复篡改与复制粘贴检测方法。林晶等人(2016)利用了量化离散余弦变换系数以及相似度分析等方法进行检测。1.2针对基于AI生成的伪造视频的检测技术随着深度学习技术的发展，多媒体内容篡改和网络造谣等问题日益凸显，世界各国纷纷加大了对虚假媒体取证的研究投入。DeepFake是一款利用深度学习将视频中的人脸替换为目标人脸的技术，其基本原理如图 3所示。这类AI造假技术给虚假媒体检测带来很大的挑战。图3 DeepFake核心思想 Core idea of DeepFake forgeryFig 3研究人员利用AI生成的视频仍不完美的特性，给出利用人脸图像中的对称性、牙齿和眼睛细节等特定特征检测人脸图像是否为AI生成的方法(Marra等，2018；Korshunov和Marcel，2018)。Li等人(2018a)提出了基于高维统计特征的检测方法。国外学者提出利用DeepFake生成的视频中，人没有眨眼、呼吸等特征，能够以很高的准确率识别出假视频(Afchar等，2018；Güera和Delp，2018)。基于生物特征的检测中，Li等人(2018b)利用视频中人物眨眼频率的生理特征，提出了长期循环神经网络(long-term recurrent convolutional network, LRCN)模型；Ciftci等人(2020)用远程光电体积描记法(remote photoplethysmograph, rPPG)来捕捉RGB视频中微弱的颜色和运动变化，再结合分类器来判别伪造视频；Yang等人(2019)通过人脸区域内部的特征点与人脸区域内部边界的特征点估计出两个头部方向，若这两个方向的夹角大于阈值，则判定为虚假图像。以Afchar等人(2018)的研究为代表，在基于视频语义特征来检测的方法中，考虑到视频经过压缩后，低层噪声分布特征发生改变，中高层人脸特征不能反映伪造视频制作痕迹，因此，利用神经网络的中层语义来判别伪造视频。作者在AI换脸(DeepFake)视频数据集与面部重现(Face2Face)视频数据集上取得了良好的分类效果。图像噪声在视频压缩的环境下严重退化，所以基于图像噪声的微观分析在这种情况下无效。在更高的语义层次上，人类很难分辨真假。所以采用了一种折衷的方法，即使用浅层神经网络(shallow network)进行检测。Agarwal和Varshney(2019)将GAN生成媒体的检测转化为一个假设检验问题，并结合统计分析框架来定义真实图像与深度伪造图像之间的距离。也有基于单帧图像的两阶段模型(Hsu等，2020)，检测计算机生成人脸与自然人脸(Dang-Nguyen等，2012；Rahmouni等，2017)，人脸形变问题(Raghavendra等，2017)等。来自美国加州大学伯克利分校的Farid(2019)认为，利用深度学习生成的人脸是有固定模式的，但是每个人有其独特的面部微表情，Farid将人面部表情和动作用人脸特征点表示出来，用于表示特定个人的说话模式。尽管这些相关性在视觉上并不明显，但它们在伪造过程中常常被忽视，因此可以用于DeepFake伪造视频检测。说话人具有其独特的面部表情和动作，通过处理连续的视频帧，记录面部与头部特定区域的运动轨迹。处理的最小元组为10 s的片段，每帧提取19维特征，共提取190维特征，再使用支持向量机(support vector machine, SVM)进行分类。该方法的研究人员利用FaceForensics++数据库中1 000条视频数据与某些国家领导人的视频进行训练和测试，使用SVM作为分类器。通过不同特征点的组合，最终达到了99%的准确率。1.3主要伪造视频样本库1.3.1DFDC数据库Facebook等互联网公司以及科研机构组织在Kaggle平台上发布了DeepFake Detection Challenge (DFDC)AI生成假脸的检测比赛，全球近2 300支团队参加比赛。DFDC公布的数据集包括多达12万个视频，单个视频时长约为10 s，帧率范围为15~30帧/s，分辨率范围为320×240~3 840×2 160像素。训练视频中有大约2万个视频为真实视频，10万个假脸视频。真实视频由430名演员拍摄，在此基础上，使用多种假脸生成算法生成假脸。1.3.2FaceForensics++在深度换脸领域，最流行的数据库之一是FaceForensics++，该数据集于2019年公开。FaceForensics++包含了1 000个真实视频，使用了DeepFake、Face2Face、FaceSwap等3种人脸篡改方法生成假脸。对于FaceSwap、DeepFake的假视频，分别使用计算机图形学和深度学习相关的方法生成，这些算法都具有良好的生成效果，并且都已在GitHub上开源。Face2Face(Justus等，2016)是2016年由科研人员在学术会议CVPR(IEEE Comference on Computer Vision and Pattern Recognition)上提出的。FaceForensics++数据库中，每种假脸方法生成了1 000个假视频。随后，在谷歌的支持下，FaceForensics++中增加了DeepFakeDetection数据集和NeuralTextures数据集。DeepFakeDetection数据集包含了在16个不同场景中28个演员录制的363个视频，以及3 000多个换脸视频。NeuralTextures数据集优化了Face2Face数据集的视觉效果。值得注意的是，FaceForensics++数据库提供了3种不同压缩情况下的视频，为科研人员提供强大的数据支持。1.3.3Celeb-DF2019年11月，研究人员结合反取证技术，提出了一个具有挑战性的大规模DeepFake视频数据集-Celeb-DF(Li等，2020), 如图 4所示。Celeb-DF包含590个真实视频，共225.4 k帧，以及5 639个虚假视频，共2 116.8 k帧。图4 Celeb-DF数据集 Celeb-DF datasetFig 41.3.4DeeperForensics-1.0新加坡南洋理工大学的研究人员构建了一个大规模的人脸伪造检测数据集(Jiang等，2020)，包含近6万个视频。合成视频具有更高的多样性，让检测算法更注重于挖掘篡改方法留下的痕迹。数据集是由一个新提出的端到端人脸交换框架生成的。用户调查显示，生成的视频质量相较于目前的数据集效果更好。2图像伪造检测技术数字图像取证技术对数字图像的完整性和真实性进行验证，方法总体可以分为主动式方法和被动式方法。主动式的图像取证要在数字图像中嵌入水印或签名。而被动式的盲取证(blind forensics)方法则不受这些因素的限制，它通过检测篡改图像中的操作痕迹来鉴别图像。常见的图像伪造和篡改包括增强、润饰、区域复制和拼接合成等。总体来说，图像篡改一般要经历4个操作步骤：1) 获取原始图像；2) 执行篡改操作；3) 后处理；4) 重编码、压缩操作。各种操作都会留下篡改痕迹，图像取证技术则通过检测这些痕迹判断图像是否经过篡改，以及经历过何种篡改。数字图像取证可以分为设备指纹检测、区域复制篡改检测、图像处理指纹检测和重压缩指纹检测等几种。2.1针对局部替换图像的检测技术局部替换图像的检测分为：1)区域复制移动篡改检测。把图像中的部分区域复制并粘贴到其他区域。在复制过程中，复制区域可能会经历多种几何变换与后期处理。2)图像处理指纹检测。简单的区域复制、拼接篡改带来的视觉差异仍较为明显，伪造者使用缩放、旋转、模糊等后处理抹除这些痕迹。3)重压缩指纹检测。篡改图像必然会经过重压缩，因此检测重压缩痕迹能有效地检测篡改图像。2.1.1区域复制篡改检测Cozzolino等人(2015)针对检测中的块匹配方法，使用Patch Match思想来进行相似块的匹配，提高了算法的运行效率，但是该算法并不鲁棒，无法抵抗旋转、缩放等攻击。Li等人(2015)在关键点提取前对图像分割，降低了匹配任务的难度，大大提高了匹配的精确度。2.1.2图像处理指纹检测Popescu和Farid(2005)通过图像相邻像素之间周期性的线性关系来鉴别篡改图像。苏文煊和方针(2019)利用CFA(color filter array)插值特性检测篡改痕迹，使用CFA插值特性的变化作为特征，并根据相邻块间的CFA插值特征的不一致来检测篡改图像。图像对比度增强可以调整全局亮度。增强图像局部的对比度让合成的图像更真实。Cao等人(2014)通过从JPEG压缩和像素值映射产生的直方图峰值、间隙中零高间隙(zero-height gap)指纹来识别全局对比度增强。高铁杠等人(2016)使用基于超像素和游程直方图来检测图像对比度修改。中值滤波常用来平滑图像拼接的边缘。杨晓花(2018)提出一种使用图像像素间相关性的数字图像盲取证算法。该方法通过设定阈值，对像素级区域的聚类结果进行筛选，进而检测模糊操作的痕迹，进行篡改区域定位。2.1.3重压缩指纹检测Galvan等人(2014)以DCT(discrete cosine transform)系数矩阵水平、垂直、对角和反对角方向差分的高阶马尔可夫转移概率作为分类特征实现JPEG重压缩图像检测。Thai等人(2017)将量化效应和DCT系数统计相结合，对先前压缩并存储为无损的图像进行量化步长的估计。Tagliasacchi等人(2013)给出了一个一般估计使用的图像变换技术和量化步长的方法。2.2针对伪造图像的溯源检测技术大部分图像都是经相机拍摄采集的，相机的一般物理结构以及不同相机之间的物理差异会在拍摄的图像上留下痕迹，这些痕迹(相机指纹)在图像上表现为一系列特征。通过考察图像上所嵌有的设备指纹可以识别这个图像的获取设备，这种方法称为设备指纹检测。由于每一次加工中出现的变化以及加工工艺无法达到百分之百完美，相机中的每一个感光单元都有着细微的差异。因此，即使在相同的光照强度下，图像中的不同像素也可能被赋予不同的值，这种不均衡性称为非一致模式噪声(photo reshponse non-uniformity, PRNU)。PRNU是每个图像获取设备所固有的独一无二的设备指纹，因此基于PRNU的数字取证具有广泛的应用场景。基于PRNU的相机识别通常先利用图像去噪的方法估计PRNU。由于PRNU可能会受到图像中其他噪声以及图像内容的干扰，如何精确估计和识别PRNU便是此类研究的一个重点。Chierchia等人(2014a)利用适应性权重重新定义判断方程来提高基于PRNU的取证方法的准确率，该方法可有效应用于小尺寸拼接图像的设备源识别中。另外，Chierchia等人(2014b)利用Markov随机场来描述PRNU的统计分布，并利用Bayesian判决来提高识别PRNU的准确性。然而，PRNU的提取不可避免地受到图像内容和其他噪声的影响，因此Lawgaly和Khelifi (2017)在提取的各个阶段做出了改进，包括在滤波阶段改进了局部自适应离散余弦变换过滤器，在估计阶段提出了新技术WA (weighted averaging)，在后处理阶段联合不同的彩色通道综合估计，取得了更好的效果。设备指纹检测可以用来鉴别图像是否来自于合法的设备，除此之外，同一图像上指纹的不一致，也可以作为图像被拼接过的证据(吴韵清等，2019)。由于拼接篡改可能会使用来自不同图像的区域，如果这些图像来自不同的设备，便会呈现出不同的设备指纹。然而，这类方法无法检测同一图像的区域复制，例如区域复制操作。此外，设备指纹信号通常很微弱，其检测结果很容易受到各种因素的影响。2.3针对AI整体生成图像的检测技术McCloskey和Albright(2018)分析了GAN的生成过程，以检测真实和虚假图像之间的不同伪影。作者基于真实图像与虚假图像在颜色空间的差异性提取特征进行分类。随后，Yu等人(2019)分析了GAN指纹的存在性和唯一性，以检测假图像。特别地，他们使用探测了不同网络结构特有的结构指纹。因此，他们学习了每个生成模型的指纹，使用图像指纹和每个模型指纹之间的相关指数进行分类。Wang等人(2019)提出了一种通过监控网络神经元行为来识别AI生成假脸的方法。作者提出了一种用于逐层捕获神经元激活行为的神经元覆盖准则(mean neuron coverage, MNC)。最后，FakeSpotter用一个简单的二值分类器区分4种不同类型的假脸(整体生成、属性修改、表情修改和Deepfakes换脸)。与传统基于学习的方法相比，FakeSpotter的输入不是最终层神经元的输出，而是将各层神经元的行为作为特征。研究表明，被激活的神经元能够很好地感知输入的细微特征，这些细微特征能够鉴别真实面部图像和合成面部图像。研究人员利用真实人脸样本CelebA(CelebFaces Attributes Dataset)与FFHQ(Flickr-Faces-High-Quality)，以及虚假人脸样本FaceForensics++、DFDC、Celeb-DF以及StyleGAN2生成的人脸数据进行训练和测试，数据划分比例为5 ∶1。经过对测试集的测试，最终在4种篡改方法的检测结果分别为：整体生成98.6%；属性修改90.1%；表情篡改100%；Deepfakes换脸97.8%。来自德国弗里德里希亚历山大大学纽伦堡分校的Matern等人(2019)发现，现有的Deepfakes篡改的视频虽然看起来很真实，但总会在细节上有些许差异，许多人脸编辑算法呈现出类似于经典计算机视觉问题的伪影，这种视觉上的伪影可以用于鉴别Deepfakes伪造视频。如图 5所示，Deepfakes伪造视频、图像存在伪影，具体表现在：双眼不一致性图 5(a)、反射缺失图 5(b)、牙齿细节图 5(c)、人脸拼接图 5(d)、光照估计和鼻子几何形状不精确图 5(e)等方面。这些伪影是计算机视觉一直存在的问题，这些问题仍然没有完全解决。通过识别这些视觉伪影，能够有效地鉴别虚假图像。研究人员经过对测试集的测试，最终在虚假人脸图像识别的最优准确率为86.6%。图5 伪造伪影 Forgery artifacts((a)binocular inconsistency; (b)reflex deficiency; (c)dental details; (d)face splicing; (e)inaccurate light estimation and nose geometry)Fig 52.4主要伪造图像样本库2.4.1CoMoFoD数字图像取证的目的是确定数字图像的真实性。复制移动是最常用的伪造方法之一，通过将图像的一部分复制到同一图像的另一个位置来实现。数字图像中的复制移动伪造检测(copy-move forgery detection, CMFD)仍然是一个亟需解决的问题。虽然现有的复制移动伪造检测算法已经不少，但是可用于算法评估的基准数据库很少。用于复制移动伪造检测的CoMoFoD数据库包含260个伪造的图像集，分为两类(512×512像素和3 000×2 000像素)。根据应用的操作将图像分为5类：平移、旋转、缩放、组合和变形。对所有伪造和原始图像应用不同类型的后处理方法，如JPEG压缩、模糊、噪声添加和颜色减少等。2.4.2GRIPGRIP包含80幅原始图像和80幅逼真的复制移动篡改图像，大小都是768×1 024像素。值得注意的是，GRIP中的一些篡改补丁非常光滑，这对基于稀疏采样(如SIFT(scale-invariant feature transform))的复制-移动篡改检测是一个挑战。3音频伪造检测技术音频伪造最初研究从文本到语音(text-to-speech，TTS)的转换。音频伪造技术主要包括：1)拼接法；2)参数法；3)混合法和4)基于人工智能的方法。拼接式语音合成方法主要将多个语音词典中的单个词或词组按照语法拼接。参数法首先从文本中提取声码器能够识别的特征，进而使用声码器生成音频。常见的参数法TTS技术是基于隐马尔可夫模型来实现音频合成。混合法是拼接法和参数法的结合。现在基于人工智能的音频伪造技术逐渐成为热点，研究人员通过分析各类媒体之间的共性，结合图像、视频处理领域的经验，提出了基于人工智能的语音合成方法，包含基于生成对抗网络(GAN)、自编码器(autoencoder, AE)、自回归模型(autoregressive model, AR)等音频伪造技术。语音转换(voice conversion)技术是指将一个人的声音变成另一个人的声音，同时保持说话内容不变。语音转换方法主要为声道谱转换方法。其中语音转换的研究主要集中在如何对声道谱进行建模和设计更有效的映射规则。目前，对声道谱转换模型的方法主要是先对语音进行统计分析，再通过参数映射的方式实现转换。声道谱转换方法包括基于码书映射的转换方法、基于高斯混合模型的转换方法、基于隐马尔可夫模型的转换方法、基于频率弯折的转换方法、基于神经网络的转换方法和基于波形生成的转换方法等6种转换技术。声道谱转换映射的研究突破了训练需要大量语音数据量、平行语音的限制，效率与质量也得到了提高，但是目前的转换技术仍有不足之处，所以声道谱转换是语音转换中需要重点解决的问题。传统的音频编辑方法常见的有音频片段的删除、插入、替代和拼接，此外还有上采样篡改、下采样篡改和压缩编码篡改等。3.1针对传统伪造语音的检测技术在过去的几十年里，一些数字音频取证研究致力于检测各种形式的音频篡改(Zakariah等，2018)。这些方法检查音频文件的元数据(Koenig和Lacey, 2012)，并检查来自3个Olympus记录器的11个音频记录的数字标头数据以进行音频篡改检测。Zhao和Malik(2013)提出通过将声环境特征作为检测音频伪造的重要特征验证数字音频的完整性。3.2针对AI生成语音的检测技术AlBadawy等人(2019)首先致力于人工智能合成的假声音的检测研究。在他们的工作中，提出了一种双谱分析方法来检测人工智能合成的假声音。他们观察到，用DNN(deep neural network)合成的假声音中显示出特殊而不寻常的光谱相关性，其称为双谱伪影。因此，他们探索利用高阶多光谱特征对伪声音进行识别。Bishop(1994)探讨了一种方法，即利用简单的二分类器来监测基于DNN的说话人识别系统中神经元的行为来区分真伪声音。神经元的分层行为可以捕捉到区分真实和虚假声音时更细微的特征。3.3主要伪造语音样本库3.3.1ASVspoof 2019数据集ASVspoof(Todisco等，2019) 于2019年提出，用于第3次自动说话者验证欺骗和对策挑战的数据库(http://www.asvspoof.org)。SVspoof 2019数据库包含两个部分，用于评估逻辑访问(logical access, LA)和物理访问(physical acces, PA)方案。两者均来自VCTK(the voice cloning toolkit)基本语料库，该语料库为从107位说话者(男46位，女61位)中录制的语音数据。LA和PA数据库本身都分为3个数据集，即训练集、测试集和验证集，包括来自20位(8位男性，12位女性)，10位(4位男性，6位女性)和48位(21位男性，27位女性)演讲者的语音数据。就说话人而言，这3个分区是不相交的，并且所有源数据的记录条件都相同。训练集和测试集包含使用相同算法/条件生成的欺骗攻击(称为已知攻击)，而验证集还包含使用不同算法/条件生成的欺骗攻击(称为未知攻击)。3.3.2TIMIT数据集TIMIT (The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus)是由美国麻省理工学院(Massachusetts Institute of Technology, MIT)、斯坦福研究所(stanford Research Institute, SRI)和德州仪器公司(Texas Instruments, TI)共同发布的语音语料库。TIMIT数据集一共包含6 300段语音，由630人录制，采样频率为16 kHz，所有的句子都进行了手动分割、标记。数据集中，70%的人为男性，30%的人为女性；以白人居多。3.3.3RSR2015数据集RSR2015(The Robust Speaker Recognition 2015)(Larcher等，2012)数据库包含了超过71 h的英语使用者的讲话记录，涵盖了新加坡的各种口音。演讲者由300名参与者(143名女性和157名男性)组成，年龄从17岁到42岁。4结论可以清楚地看到，在过去的几十年中，多媒体取证的研究得到了很大的发展。特别是华人学者在该方向也取得了很大的学术成就，例如，中国科技大学俞能海和张卫明教授团队在2020年的DeepFake检测大赛中取得了第2名的好成绩，并且与第1名的检测结果相差无几。然而，许多问题仍然没有可靠的方案来解决，新的挑战每天都有。当然，深度学习的出现给媒体操纵方法和取证工具带来了巨大的推动力，开辟了新的研究领域。然而，更根本的原因是这个研究领域具有两方参与的性质。篡改方法的迭代更新往往使得旧有检测方法失效，研究者们需要提出更具鲁棒性、泛化性的方案来应对不可预见的威胁。在这个前提下，努力找出未来研究最有前景的领域是很重要的。当前多媒体取证未来可能的研究方向包括：1) 随着操作变得越来越聪明，单个工具对付各种攻击的效率将越来越低。因此，多种检测工具、多种网络、多种方法必须一起工作，而如何更好地结合所有可用的信息片段应该是一个更持久的研究目标。2) 基于深度学习方法的可解释性研究。深度学习的黑箱特性使得人们很难理解为什么会做出某个决定。深度网络可以正确地将猫的图像分类为猫，但不知道是哪些特定特征促使了这一决定。当然，对于一些取证应用程序来说，这是一个严重的问题。例如，法官几乎不会只根据统计数据作出决定。更一般地说，能够追踪深度网络的推理将有助于改进其设计和训练阶段，并对恶意攻击提供更高的鲁棒性。尽管多媒体取证有着悠久的历史，但它似乎还处于全面发展的阶段，工业和社会对多媒体取证有着很高的要求，很多应用面临着落地的问题。