网刊加载中。。。

论文引用格式：Zhou Y D， Fang Y D and Qin C. 2024. Large-scale image dataset for perceptual hashing. Journal of Image and Graphics， 29（02）：0343-0354（引用格式:周元鼎，房耀东，秦川. 2024. 面向感知哈希的图像数据集. 中国图象图形学报， 29（02）：0343-0354）［0　引言随着互联网和多媒体技术的发展，图像数据交换、搜索和识别的需求不断增加。与此同时，未经授权的图像复制、篡改等侵权行为也导致版权问题更加突出（Jing等，2022；赵若宇等，2023）。在这种背景下，快速查询图像是否侵权已成为一项重要任务。感知图像哈希又称图像摘要或图像指纹，是一种主动认证图像版权的方法，该技术通过将图像的鲁棒特征转化为固定长度的哈希序列来实现图像版权认证（Xing等，2023）。通过比较目标图像和原始图像哈希序列的相似程度，可判断目标图像是否由原始图像经过修改后得到。感知哈希算法认证时不需要对图像进行修改，可以将图像数据转化为较短的特征值，从而减小存储空间需求。感知图像哈希有3个主要的性能指标：感知鲁棒性、抗冲突性和密钥依赖安全性（欧阳杰等，2011）。感知鲁棒性要求原始图像经过内容保留操作得到的相似图像和原图之间的哈希距离尽可能小。抗冲突性要求不相似图像产生的哈希序列和原图完全不同，也就是原图和不相似图像的哈希距离较大。密钥依赖安全性要求不同密钥生成相同哈希序列的概率几乎为0，使得攻击者无法伪造哈希序列。感知图像哈希任务中图像的分类如图1所示，绿色的部分代表原始图像和感知相似的图像，感知相似图像的定义为原始图像经过各种图像内容保留操作后得到的图像，这些编辑图像保留了原始图像的鲁棒特征。感知不相似图像则是除了感知相似图像以外的其他图像（图1中的灰色部分），首先是与原图具有相同语义对象的图像，由于感知图像哈希侧重于保护图像的鲁棒特征，并不关注语义信息，所以这些与原图语义对象相同的图像也应该被认为是感知不相似的图像。其余感知不相似的图像是与原图毫无关联的图像。感知图像哈希领域的数据集也可以分为原图、感知相似图像和感知不相似图像3个部分。原图一般是从其他图像领域所使用的数据集中挑选出来的，感知相似图像是原图经过图像内容保留操作后得来的，感知不相似图像则是从其他数据集里随机挑选的。10.11834/jig.230397.F001图1原图、感知相似与感知不相似图像的划分Fig.1Division of original， perceptual identical and perceptual distinct images感知哈希的研究已进行了很久，但目前该领域所使用的数据集仍然存在一些普遍问题（黄小燕等，2021）。首先，现有的图像内容保留操作比较简单，而现实中的图像编辑是比较复杂的，通过简单图像内容保留操作训练出来的神经网络效果有限，难以成为良好的内容认证手段。其次，现有数据集在结构上不够完善，原图与不相关图像的差距过大，导致面对比较难以分辨的图像时容易判断错误，模型的泛化能力有待提高。为了解决这些问题，本文构建了一个全新的感知图像哈希数据集（perceptual image hashing dataset，PIHD）。该数据集中所使用的内容保留操作更加复杂、丰富，本文将现在常用的图像内容保留操作进行总结，并分类得到了35种单一的图像内容保留操作。现实中对于图像的编辑参差不齐，所以对于每一个图像内容保留操作，本文都设计了一个参数范围，在这个范围中随机选择参数，影响内容保留操作的强度。现实中对于图像的编辑也往往不是单一的操作，所以除了单一的图像内容保留操作，还设计了13种随机的组合操作，丰富了相似图像的种类，增加了数据集的复杂度。对于不相似图像，除了使用之前数据集所使用的随机图像以外，还挑选了许多和原图语义相似的图像，增加了数据集的挑战性，也提高了所训练模型的泛化性能。本文的新数据集一共包含116 400幅图像，充足的图像基数也保证了模型的有效训练。本文所构建的数据集PIHD旨在提高感知图像哈希技术在实际应用中的效果和泛化能力。本文所构建的数据集创新点如下：1）数据集的原始图像来源广泛，其感知相似图像所使用的图像内容保留操作复杂、丰富，不相似图像的选择也更加符合感知图像哈希任务。2）大量的实验结果表明，在本文数据集上训练得到的神经网络模型不需要重新训练或微调，直接迁移到其他数据集上也能达到很好的效果。本文的研究成果将进一步推动感知图像哈希技术的发展和实际应用，有助于更好地保护图像版权。1　相关工作1.1　感知图像哈希算法研究者已经提出了许多感知图像哈希算法，根据哈希序列的提取方式，现有的感知哈希算法可以分为基于空间域、变换域、降维和学习的4类。1.1.1　基于空间域的算法这类算法通常从空间域中提取鲁棒特征，该类算法对噪声、失真等攻击有很强的鲁棒性。Tang等人（2016）通过提取梯度场的方式将图像分成多个同心环，计算每个环的熵得到特征向量，从而产生哈希序列。此外，他们还提出了一种基于环分区和不变向量距离的算法，该算法提取每个同心环的梯度特征向量和局部二进制模式（local binary patterns，LBP）纹理特征。随后，将这两组特征向量合并以生成哈希码。Shen和Zhao（2020）将彩色图像转换为颜色拮抗对，并根据颜色分量的特性对每个分量进行降采样，然后使用四叉树结构对每个通道进行划分，利用其颜色分量计算其特征向量，并最后整合得到哈希码。Choi和Park（2012）将图像分成多个连续的区域，并对每个区域生成一个直方图。然后将每个直方图进行压缩和离散化，以生成哈希码。1.1.2　基于变换域的算法这类算法通常从变换域中提取鲁棒特征，然后利用系数生成最终的哈希值，该类算法对平移、旋转和缩放等攻击具有很强的鲁棒性。Ouyang等人（2016）将图像转换成四元数域上的复数，然后利用四元数Zernike矩来提取图像特征，最后将特征映射为哈希码。Liu和Huang（2019）基于局部特征点检测对图像进行预处理，并且使用方向梯度直方图（histogram of oriented gradient，HOG）算法提取图像的全局特征，之后利用局部特征和全局特征来构建图像的哈希码。Tang等人（2013a）将图像分解为多个小波子带，然后基于局部熵的特性来选择图像的不同频带，对选定的频带进行小波系数量化，生成哈希码。1.1.3　基于降维的算法基于降维的感知哈希算法将图像特征降低到较低的维度后映射为哈希码。Sun和Zeng（2014）利用压缩感知技术将图像重构为稀疏表示，并基于这种表示构造图像哈希码。Tang等人（2014）将图像划分成多个环形区域，然后利用非负矩阵分解（nonnegative matrix factorization，NMF）技术提取每个区域的特征，并将这些特征组合成最终的哈希码。Qin等人（2016）将图像分为多个大小相等的块，然后利用块截断编码算法对每个块进行压缩，并将压缩后的数据作为哈希码的第一部分，同时利用图像的梯度信息、边缘信息和色彩信息来构建哈希码的另一部分，以提高哈希码的鲁棒性和区分度。除此之外，他们还利用图像的局部结构特征，包括边缘、角点和空白区域等信息来构建哈希码，并且采用选择性采样机制，将图像中的结构特征进行筛选和排序，选取最显著的特征进行哈希编码。1.1.4　基于学习的算法在这类算法中，可以通过大量的数据训练卷积神经网络，将图像哈希生成过程纳入神经网络的学习过程中，最终的哈希码是根据学习到的神经网络参数生成的。Li等人（2020）提出了一种基于去噪自编码器的图像哈希算法，通过向自编码器添加内容保留操作进行模型训练。Qin等人（2021）则提出了一种基于多约束卷积神经网络（convolutional neural network，CNN）的感知哈希算法，使用两种约束进行模型训练，并动态调整约束值以提高感知鲁棒性和判别能力。而Sun和Zhou（2022）提出的CNN算法基于哈希中心，将原始图像及其感知上相似的图像视为同一类别，并将它们收敛到相应的哈希中心。除了监督学习之外，Gao等人（2023）提出了一种基于对比学习的无监督感知图像哈希模型。该模型利用对比增强结构，通过改变样本增强方式和强度来优化模型，同时还设计了一个综合损失函数帮助模型学习未标记数据的感知特征表示。虽然现有的感知图像哈希算法在增强感知鲁棒性方面取得了一定的进展，但现有数据集中使用的内容保留操作种类较少，在面对实际应用中日趋复杂的编辑图像时性能会显著下降。因此，在未来的研究中除了需要进一步探索和改善感知图像哈希算法以外，还需要优化数据集的构建，引入更多、更实际的图像内容保留操作以提高算法的实用性。1.2　感知图像哈希中的常用数据集感知哈希算法中的数据来源一般是一些公开的图像数据集（Huang等，2023；Yang等，2022）。由于图像处理的需求不断增加，研究人员构建了许多数据集。1）COCO（common objects in context）数据集（Lin等，2014）。COCO数据集是一个用于目标检测、图像分割和图像字幕等任务的大规模数据集。该数据集中包含了超过330 000幅图像，每幅图像都包含多个目标，总共涉及80个不同的目标类别，如人、车、动物、食物等。除了图像和标注信息外，COCO数据集还提供了一个图像字幕的数据集，包含了超过200 000幅图像和相关字幕，使得COCO数据集可以用于多个计算机视觉任务。2）CASIA（Chinese Academy of Sciences， Institute of Automation）数据集（Dong等，2013）。CASIA数据集是基于哈希算法的篡改检测领域中常用的一个数据集。CASIA v1.0包含800幅原始图像和921幅篡改图像，涵盖了不同的图像类别，包括场景、建筑、植物、人物、动物、物品、自然景观和纹理等。这些图像都是以JPEG格式存储的，尺寸为256 × 384像素。CASIA v2.0包含了更多的图像类别，同时也包含了更加复杂的篡改场景。3）RAISE（raw images dataset）数据集（Dang-Nguyen等，2015）。RAISE数据集是一个用于数字伪造检测算法评估的大规模数据集。它包含了超过8 000幅高分辨率RAW图像，图像采用了3种不同的相机，拍摄于不同的场景和时刻。RAISE数据集为每幅幅图像提供了丰富的标注，涵盖了室内、室外、景观、自然、人、物品和建筑等标注，其中也包含了多种复杂的伪造场景，如数字插入、删除、平滑、复制、粘贴等。图像尺寸从580 × 387像素到5 760 × 3 840像素不等。4）UCID（uncompressed colour image dataset）数据集（Schaefer和Stich，2004）。UCID 数据集中包括1 338幅RGB 非压缩图像，其分辨率为384 × 256像素或256 × 384像素。UCID数据集中的图像涵盖了多种场景和主题，如自然风光、城市街景、室内场景、人物照等。UCID数据集也提供了丰富的图像特征和注释，非常适合于图像处理、计算机视觉和机器学习方面的研究和实践。5）USC-SIPI（University of Southern California， Signal and Image Processing Institute）数据集。USC-SIPI数据集是由美国南加利福尼亚大学信号与图像处理实验室收集和整理的，是广泛应用于图像处理和计算机视觉领域的经典数据集之一。该数据库根据图像的基本特征分为多个分类卷，包括纹理、航拍和序列等。所有的图像都以TIFF格式储存。6）VOC2012（visual object classes）数据集。VOC2012数据集是图像识别领域一个非常受欢迎的数据集。该数据集包含从互联网上搜集的20个物体类别，共20 000幅图像，其中每个类别的样本图像数量不少于500幅。每个物体都提供了高标准的标注信息，所有图像均由手动标注物体区域，给出了物体所在的像素坐标（如边缘点、顶点），便于计算机视觉专业人员的研究和工作。该数据集广泛用于目标检测、分割以及物体识别领域的研究和应用。7）现有感知图像哈希数据集存在的问题。传统的感知哈希数据集通常从公开数据集中选取原始图像，然后在这些原始图像上使用设计好的内容保留操作生成感知哈希数据集。然而，这些数据集往往存在着以下问题：1）图像内容保留操作的种类较少，一般不超过10个，因此训练出的神经网络模型泛用性较差；2）在以往的数据集中，待认证的图像与无关图像的差别过大，使得神经网络模型能够很容易地学习到这些图像之间特征的差别，从而在这些数据集上取得良好的认证效果。而在实际的认证场景中，情况通常更加复杂，因此很多在这些简单数据集上训练得到的模型实用性较差。为了解决这些问题，本文提出了一个新的感知哈希数据集，更加贴近现实中的应用场景，从而提高了模型的泛用性。2　数据集构建本文在以往感知哈希数据集的基础上构建了新的数据集，该数据集同样由原始图像、感知相似图像和不相似图像构成。下面将从这3个部分介绍本文的数据集。原始图像是感知哈希任务中需要认证的图像，本文数据集中一共有1 200幅原始图像，一部分来源自现有的图像处理数据集，另一部分则是从互联网上选取的。ImageNet-1K（a large-scale ontology of images built upon the backbone of the worldnet， 1 000 classes ）数据集（Deng等，2009）是目前图像分类领域常用的数据集，该数据集中共有1 000个类别的图像数据，所涉及的图像种类非常丰富，涵盖了大部分生活中可见的图像类别。本文首先从这1 000类的每个类中挑选1幅图像作为原图。还有200幅原始图像是从互联网上选取的，本文让ChatGPT（chat generative pre-trained Transformer ）（Brown等，2020）随机生成200个物体的名字，然后去互联网上爬取对应的图像。图2展示了数据集中的一部分原始图像。数据集中挑选的都是分辨率较高的图像，在预处理阶段统一将其压缩到224 × 224像素进行后续处理。10.11834/jig.230397.F002图2数据集的部分原始图像Fig.2Some of the original images in our dataset感知相似图像是原图经过图像内容保留操作之后得到的，针对以往数据集中感知相似图像过于简单的情况，首先丰富了图像内容保留操作的种类。将图像内容保留操作大致分为4个类别，分别是几何变换、图像增强、滤波操作以及图像编辑。每一个大类下面又细分成了许多种不同的操作类型，一共35种单一的图像内容保留操作。为了充分保证随机性，对于每一种操作都在一个限定的范围里随机设置其参数。使用2021 Image Similarity Dataset and Challenge提供的官方工具库AugLy（Douze等，2022）来制作内容保留操作，表1展示了本文所使用的操作名称及其参数范围。10.11834/jig.230397.T001表1本数据集所使用的图像内容保留操作及其参数范围Table 1The image content-preserving manipulations and their parameter ranges used in our dataset操作类型操作名称参数范围图像增强模糊范围∈(1.5, 2.5)亮度范围∈(0.5, 1.5)对比度范围∈(0.5, 2)颜色抖动模式∈(明度, 对比度, 饱和度)图像质量范围∈(5, 50)灰度模式∈luminosity,average透明度范围∈(0.4, 0.8)马赛克范围∈(0.2, 0.5)饱和度范围∈(0.3, 3)锐化范围∈(0.5, 5)像素重组范围∈(0.2, 0.4)随机噪声均值∈(0.2, 0.5), 方差∈(0.01, 0.1)颜色模式模式∈{1, L, P, CMYK, YCbCr, HSV}填充颜色随机，填充比例∈(0.05, 0.2)图像编辑重叠背景图像背景图像大小∈(0.8, 1.2)添加条纹颜色、方向随机，宽度∈(0.1, 0.4)添加文字位置随机，文字大小∈(0.05, 0.2)添加标题栏文字∈{'Augly','Meta','Apple'几何变换水平翻转方向∈(水平)垂直翻转方向∈(垂直)旋转角度∈(60°, 300°)剪裁剪裁比例∈(0.64 , 0.81)图像放缩范围∈(0.5, 3)改变尺寸（任意）宽度、高度∈(200, 1 000)改变尺寸（固定）范围∈(200×200, 1 200×1 200)纵横比范围∈(0.5, 2)滤波操作细节滤波、边缘滤波、平滑滤波、核滤波、秩滤波、最大值滤波、最小值滤波、中值滤波、波型滤波组合操作随机组合上述4种单一操作现实中对于图像的篡改也往往不是单一的内容保留操作，所以还设计了13种组合操作，它们是从35种单一操作中随机选取4种作用于原图得来的。由于随机性的存在，数据集的测试集里会出现一些在训练集中没有学习过的组合操作，这也是符合实际情况的，因为现实场景中也会出现许多没有学习过的组合图像篡改方式。35种单一操作加上13种组合操作，本文数据集的图像内容保留操作共48种，超过了大多数现在使用的感知哈希数据集。感知不相似图像的范围非常广泛，除了原图经过适当强度的内容保留操作得到的图像以外，其他图像都是感知不相似的。之前数据集所采用的感知不相似图像往往是随机选择的，本文则在此基础上加入了来自同类别的其他图像，原图来自于哪个图像类别，则不相似图像也从这个类别中进行挑选，这部分图像是手动筛选的，挑选的都是与原始图像比较接近的同类图像。这也是符合感知图像哈希任务的，因为感知图像哈希是认证图像内容的，并不涉及语义信息，所以语义相同的其他图像也应该被认为是感知不相似的。为了平衡感知相似和不相似图像的数量，对于每一幅原始图像，本文也挑选了48幅感知不相似图像，其中24幅是同类别的其他图像，另外24幅是随机挑选的图像。图3展示了2幅原始图像和它们所对应的一些感知相似与不相似图像。10.11834/jig.230397.F003图3数据集的图像示例Fig.3Image examples in our dataset综上所述，与以往的数据集相比，本文所提出的数据集原始图像来源广泛，相似图像所使用的内容保留操作种类更加丰富多样，不相似图像的选择也更加符合感知图像哈希任务。该数据集称为PIHD，意为面向感知图像哈希任务的数据集，本文期望通过该数据集训练得到的模型，在实际的应用中能有更好的认证效果，并且有一定的泛化能力。3　数据集验证与评估3.1　实验设置为了验证本文数据集PIHD的性能，选取不同的深度学习模型在多个数据集上进行对比。在数据集的选择上，选取了感知哈希领域比较经典的4个方案所使用的数据集进行对比，分别是HCE（Hash CEnter ）（Sun和Zhou，2022）、DAE（Denoising AutoEncoder ）（Li等，2020）、MCND（Multi-Constraint Network Dataset ）（Qin等，2021）和RPIVD（Ring Partition and Invariant Vector Distance）（Tang等，2016），由于这4个方法均没有公开数据集，所以按照其论文中所提供的图像内容保留操作及参数复现了这4个数据集。复现数据集的原始图像来自1.2节中所提到的感知图像哈希常用的数据集，表2列出了从这些数据集中所选取的图像数量，先从前5个数据集中选取，不够时再从COCO数据集中补充。10.11834/jig.230397.T002表2对比数据集的图像来源和数量Table 2Source and number of images in the dataset used for comparison数据集图像数量/幅CASIA7 000RAISE500UCID1 000USC-SIPI30VOC201217 000COCO补充需要注意的是，为了使复现的数据集能够用于训练神经网络模型，图像数量与原文中的略有不同，具体的图像数量如表3所示。所有的数据集都按照7∶2∶1的比例来划分训练、测试和验证集。复现数据集的图像组成方式与本文数据集一样，每一批输入神经网络的图像组都是按照1幅原图、m幅感知相似图像I^和m幅感知不相似图像I¯组成。这2m+1幅图像可以表示为I, I^1, I^2, ⋯, I^m, I¯1, I¯2, ⋯, I¯m2m+1 （1）10.11834/jig.230397.T003表3本文数据集PIHD与4个对比数据集中训练、验证、测试集图像数量/幅Table 3Number of training， validation， and test images in our PIHD and four compared datasets数据集训练集测试集验证集PIHD81 48023 28011 640MCND（Qin等，2021）405 000135 0006 750HCE（Sun和Zhou，2022）64 05018 3009 150DAE（Li等，2020）50 75014 5007 250RPIVD（Tang等，2016）56 35016 1008 050在模型的选择上，本文选取了图像感知哈希领域效果很好的深度学习模型MCCNN（multi-constraint convolutional neural network）（Qin等，2021）和经典的ResNet50（deep residual network-50）（He等，2016）、Convnext（convnet for next decade-tiny）（Liu等，2022）、AlexNet（Alex Krizhevsky network ）（Krizhevsky等，2012）作为比较的深度感知哈希模型，将网络最后的输出层换成了哈希生成网络，分别在表3中的5个数据集上进行训练并测试。3.2　有效性首先，验证在PIHD数据集上训练得到的模型性能，通过错误接受率（false acceptance rate， FAR）和错误拒绝率（false rejection rate， FRR）来评价感知图像哈希方法的性能。FAR 用于计算感知不相似图像被错误判断为感知相似的概率，而FRR则用于计算相似图像被错误判断为感知不相似图像的概率。FAR和FRR值越小，代表模型的认证性能越好，对于原始图像I、相似图像 I^ 和不相似图像 I¯，FAR和FRR计算为FART=P(D(I, I^) ≤T 不相似图像) FRRT=P(D(I, I¯) T 相似图像) （2）式中，D(I,I^)代表原图与相似图像的哈希距离，P∙则代表概率函数，通过设置不同的阈值T，可以得到相应的FAR和FRR，从而画出受试者特征曲线（receiver operating characteristic curve，ROC），结果如图4所示，横坐标是FRR，纵坐标是1-FAR，画出的ROC曲线越接近左上角，则代表该模型的性能越好。图4是将上文提到的4个深度学习模型在PIHD训练集上训练，并在该数据集测试集上测试得到的结果。可以看出，虽然本文所提出的数据集本身比较复杂，但是这4个深度学习框架在该数据集上均取得了不错的结果，这说明数据集本身的结构设计是合理的，在该数据集上训练得到的模型具有图像认证的能力。除此之外，还在PIHD数据集上测试了DCP（dual-cross pattern）（Qin等，2018）、DAE（denoising auto encoder）（Li等，2020）和RPIVD（ring partition and invariant vector distance）（Tang等，2016）这3个方法。其中，DCP和RPIVD是传统方法，DAE虽然是深度学习方法，但是也不需要训练。结果如图4所示，可以看出本文所提数据集是具有一定难度的，这3个方法在该数据集上表现均不理想。10.11834/jig.230397.F004图47个感知图像哈希方法在PIHD数据集上的ROC曲线Fig.4ROC curves of the seven perceptual image hashing schemes on the PIHD dataset3.3　泛用性接下来，验证PIHD数据集的泛用性。本文希望在该数据集上训练后的网络模型可以应对目前大多数的内容保留操作。在PIHD数据集上，分别训练3.1节中所提到的4个深度学习模型（MCCNN、AlexNet、ResNet50、Convnext-T），并直接在表3中所提到的5个数据集上进行测试，结果如图5（b）（d）（f）（h）所示，由于PIHD数据集使用的内容保留操作更加丰富，不相似图像也更加符合感知图像哈希任务，所以可以看出，即使不在MCND、HCE、DAE、RPIVD这4个数据集上进行重新训练或者微调，在PIHD上训练完的网络也可以取得较好的结果。图5（a）（c）（e）（g）是在另外4个数据集上训练，再在PIHD数据集上测试的结果。可以发现，在这些图中都是在PIHD数据集上训练之后的测试效果最好。横向对比每一行也可以发现，相同模型在图5左列其他数据集上训练并测试的结果普遍低于右列在PIHD数据集上训练后的结果。这充分证明了本文所提出的PIHD数据集的泛用性，即使面对从未见过的图像内容保留操作，在该数据集上训练得到的模型也能较好地完成图像内容认证。10.11834/jig.230397.F005图54个深度学习模型在不同数据集上测试得到的ROC曲线Fig.5ROC curves of the four deep learning models on different datasets3.4　稳定性最后，验证PIHD数据集的稳定性。稳定性要求神经网络模型在该数据集训练后，在其他数据集进行测试，性能表现不会出现较大波动。使用曲线下面积（area under curve，AUC）来评价各神经网络的性能，该数值是ROC曲线下与坐标轴围成的面积，数值越接近1代表性能越好，结果如表4所示。10.11834/jig.230397.T004表4不同模型在相应训练—测试数据集的AUC值以及差值Table 4AUC values and differences of different models on corresponding training-testing datasets模型训练集-测试集AUC训练集-测试集AUCAUC差值MCCNNPIHD-PIHD0.961 1PIHD -MCND0.978 60.017 5MCND-MCND0.999 9MCND- PIHD0.889 40.110 5PIHD-PIHD0.961 1PIHD-HCE0.926 70.034 4HCE-HCE0.996 0HCE- PIHD0.911 30.084 7PIHD-PIHD0.961 1PIHD-DAE0.991 20.030 1DAE-DAE0.998 8DAE-PIHD0.899 30.099 5PIHD-PIHD0.961 1PIHD-RPIVD0.998 40.037 3RPIVD-RPIVD0.999 3RPIVD-PIHD0.930 00.069 3ResNetPIHD-PIHD0.999 9PIHD -MCND0.999 90MCND-MCND0.999 9MCND- PIHD0.969 40.030 5PIHD-PIHD0.999 9PIHD-HCE0.999 90HCE-HCE0.999 9HCE- PIHD0.988 70.011 2PIHD-PIHD0.999 9PIHD-DAE0.999 90DAE-DAE0.999 9DAE-PIHD0.981 70.018 2PIHD-PIHD0.999 9PIHD-RPIVD0.999 90RPIVD-RPIVD0.999 9RPIVD-PIHD0.922 20.077 7Convnext-TPIHD-PIHD0.962 2PIHD -MCND0.991 00.028 8MCND-MCND0.999 9MCND- PIHD0.927 90.072 0PIHD-PIHD0.962 2PIHD-HCE0.944 50.017 7HCE-HCE0.987 8HCE- PIHD0.913 10.074 7PIHD-PIHD0.962 2PIHD-DAE0.995 90.033 7DAE-DAE0.998 7DAE-PIHD0.918 80.079 9PIHD-PIHD0.962 2PIHD-RPIVD0.996 80.034 6RPIVD-RPIVD0.999 2RPIVD-PIHD0.928 80.070 4AlexNetPIHD-PIHD0.967 7PIHD -MCND0.996 60.028 9MCND-MCND0.999 9MCND- PIHD0.927 30.072 6PIHD-PIHD0.967 7PIHD-HCE0.966 80.000 9HCE-HCE0.993 1HCE- PIHD0.897 30.095 8PIHD-PIHD0.967 7PIHD-DAE0.996 80.029 1DAE-DAE0.998 8DAE-PIHD0.899 30.099 5PIHD-PIHD0.967 7PIHD-RPIVD0.966 80.000 9RPIVD-RPIVD0.999 4RPIVD-PIHD0.918 60.080 8注：加粗字体为每两行比较AUC差值更低的结果，值越低效果越好。以MCCNN部分的内容为例说明表4。第1行表示以PIHD数据集训练集训练MCCNN模型，再在PIHD、MCND数据集测试集上进行测试得到的AUC值，结果分别是0.961 1和0.978 6，差值为0.017 5。第2行则是MCCNN模型在MCND数据集训练集上训练，并在MCND、PIHD数据集测试集上进行测试的结果，AUC值分别为0.999 9和0.889 4，差值为0.110 5。可以发现，在MCND数据集上训练的模型在不同数据集上测试的结果差值远大于在PIHD数据集上训练的模型，第1、第2行最后两个差值之间相差了0.093，类似的结果也出现在其他3个对比数据集上，对应行数之间的差值相差分别是0.069 4、0.050 3、0.032 0。该结果表明，MCCNN模型在PIHD数据集上训练后在其他数据集上测试结果变化较小，而在另外4个对比数据集上训练后的结果变化较大，说明本文所提出的PIHD数据集具有更好的稳定性。表4的后3部分则是在另外3个深度模型上的测试结果，结果也与MCCNN模型类似，进一步说明了本文数据集的稳定性。4　结论目前，感知图像哈希领域缺少一个通用的数据集，其他方法构建的数据集也存在着许多问题。在这些数据集上训练出来的神经网络模型泛用性较差，难以应对现实中复杂多样的图像编辑操作，这一问题已经成为制约感知图像哈希领域发展的重要因素。基于上述认识，本文提出了一个针对感知哈希任务的图像数据集。首先，将目前感知图像哈希领域常用的内容保留操作总结并归类为4大类 35种单一的图像内容保留操作，除此之外，还随机组合多种单一的内容保留操作形成组合操作，进一步丰富了内容保留操作的种类。在不相似图像的构建上，除了保留之前数据集所使用的完全不相关的图像之外，还加入了语义相似的同类图像来增加数据集的难度，提高所训练神经网络模型的泛用性。数据集总共116 400幅的图像基数也保证了神经网络模型的有效训练。大量的实验表明，在该数据集上训练得到的模型较为稳定且具有一定的泛化能力，能够应对复杂多样的实际环境。本文的工作有助于更好地保护图像版权，促进感知图像哈希技术的发展与应用。