发布时间: 2019-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180444
2019 | Volume 24 | Number 5

图像分析和识别

卷积神经网络的人脸隐私保护识别

章坚武¹, 沈炜¹, 吴震东²

1. 杭州电子科技大学通信工程学院, 杭州 310018;

2. 杭州电子科技大学网络空间安全学院, 杭州 310018

收稿日期: 2018-07-10; 修回日期: 2018-10-03

基金项目: 国家自然科学基金项目（61772162）；国家重点研发计划项目（2016YFB0800201）；浙江省自然科学基金项目（LY16F020016）

第一作者简介: 章坚武, 1961年生, 男, 教授, 博士生导师, 主要研究方向为移动互联网、多媒体通信技术和网络安全。E-mail:jwzhang@hdu.edu.cn;
吴震东, 男, 副教授, 主要研究方向为信息安全。E-mail:wzd@hdu.edu.cn.

中图法分类号: TN911.73;TP391.4

文献标识码: A

文章编号: 1006-8961(2019)05-0744-09

摘要

目的近年来，随着人脸识别认证技术的发展及逐渐普及，大量人脸照片存放在第三方服务器上的现象十分普遍，如何对人脸进行隐私保护这个问题变得十分突出。方法首先对人脸图像进行预处理，然后采用Arnold变换对人脸关键部位进行分块随机置乱，并将置乱结果图输入到深度卷积神经网络中。为了解决人脸照片在分块置乱时由于本身拍照角度的原因导致的分块不均等因素，在预处理时根据人眼进行特性点定位，再据此进行对齐处理，使得预处理后的照片人眼处于同一水平线。针对人脸隐私保护及加扰置乱后图像的识别，本文提出了基于分块随机加扰的深度卷积神经网络模型。不包含附加层，该模型网络结构由4个卷积层、3个池化层、1个全连接层和1个softmax回归层组成。服务器端通过深度神经网络模型直接对置乱后人脸图像进行验证识别。结果该算法使服务器端全程不存储原始人脸模板，实现了对原始人脸图像的有效加扰保护。实验采用该T深度卷积神经网络对处理过后的ORL人脸库进行识别，最终识别准确率达到97.62%。同时通过多组对比实验，验证了本文方法的有效性。结论与其他文献中手工提取特征并利用决策树和随机森林进行训练识别的方法相比，本文方法减少了人工提取特征的工作量，且具有高识别率。

关键词

人脸识别认证; 卷积神经网络; Arnold变换; 人脸对齐; 人脸隐私保护

Recognition of face privacy protection using convolutional neural networks

Zhang Jianwu¹, Shen Wei¹, Wu Zhendong²

1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China;

2. School of Cyberspace, Hangzhou Dianzi University, Hangzhou 310018, China

Supported by: National Natural Science Foundation of China (61772162); National Key Research and Development Program of China (2016YFB0800201)

Abstract

Objective The development and popularization of face recognition authentication technology in recent years has made the storage of a large number of face photos in third-party servers highly common. Face recognition plays an important role in clothing, food, housing, and various industries, and moves from theoretical research to practical application of the "blowout period". However, faces are relatively open features compared to irises and fingerprints, and many people post selfies on various social platforms. Not only can you get face photos easily through the Internet, but you can also use a variety of image processing tools to fake faces. Thus, the protection of the privacy of face information has become prominent. At present, the research content in the field of face recognition focuses on directly recognizing face images, and there is a problem of privacy leakage; or the face image is encrypted and decrypted, but the encryption and decryption operation has the disadvantage of high computational complexity. Method To solve the problem of the unevenness of the face in a scrambled photo due to camera angles, this study preprocesses the face image as follows. First, we determine whether a given image contains a face. If a face does exist, then we find the border that contains the complete face. Next, we must locate the key points such as the nose and eyes, align the face images on the basis of these key point positions, and normalize them to the same size following the key mechanism of vision. That is, the human eye consistently sees the center of the photo first and then gradually moves to the last four corners. Then, the key parts of the face (eyes, ears, mouth, and nose) are scrambled and blocked by Arnold transform for a random number of times. Second, to achieve face privacy protection and image recognition after scrambling, this study proposes a deep convolutional neural network based on block random scrambling, which does not include an additional layer. The network structure of the model is composed of four convolutional layers, three pooling layers, one fully connected layer, and a softmax regression layer. The convolution kernel sizes of the four convolutional layers are 6×6, 3×3, 3×3, and 2×2. In the training phase, the preprocessed samples are divided into training sets and test sets. At the beginning of training, the convolution kernel parameters are randomly initialized to a small value, and small random numbers are used to ensure that the network does not enter a saturated state due to excessive weights. The training process is divided into the forward propagation and backward propagation phases. After the input passes by the multiple convolutional layers and pooling layers, it is transferred to the output layer. In the process, the input is actually multiplied by each layer of the weight matrix, and a calculation is performed to obtain the output result. The difference between the actual output and the ideal output is calculated in the backward propagation phase, and the weight is adjusted in reverse on the basis of the minimization error method. The server side directly verifies and recognizes the scrambled face image by the deep neural network model. Prior to transmission or storage on the server, the preprocessed and randomized scrambled images are encrypted, and the key is saved to further improve security. Then, the color histogram of the image will show a straight line. When identification is necessary and if a legal key is available, it can be correctly restored to the previous state to perform the identification operation. Result This algorithm enables the server to not store the original face template throughout the entire process, thereby achieving effective scrambling protection of the original face image. Using the block random scrambling proposed in this paper, a higher recognition rate can be obtained. Further considering the security problem, the image after random scrambling is twice encrypted and the key is saved before being transmitted or stored in the server. The experiment uses this deep convolutional neural network to identify the ORL face database, and the final recognition accuracy rate reaches 97.62%. Concurrently, the effectiveness of the proposed method is verified by multiple sets of comparative experiments. The face of the original image before processing has a strong correlation with adjacent pixels. After the pixel position is scrambled, the pixel points of the key positions of the face have a uniform distribution trend on the whole image, and the correlation is obviously weakened. Thus, the algorithm has a good effect on hiding the pixel points of the face. Conclusion Compared with other methods that are used to manually extract features and methods based on decision trees and random forest for training recognition in the literature, the proposed method reduces the workload of manually extracting features and retains a higher recognition rate. From the experimental results, the Arnold random parameter scrambling on the block image effectively reduces the correlation of the ciphertext image, and still maintains a high recognition rate for deep neural network recognition. This paper also uses the chaotic map encryption method for secondary encryption. The results show that the correlation of ciphertext images is further reduced, which not only enhances the protection of face privacy, but also has strong robustness to the image recognition after scrambling transformation.

Key words

face recognition authentication; convolutional neural network; Arnold transform; face alignment; face privacy protection

0 引言

随着信息技术与多媒体技术的高速发展，数字图像已经逐渐成为人们信息交流的载体。当前，人脸识别在衣食住行的各个领域和行业起到重要作用，迎来实际应用的井喷期。但是人脸特征相对虹膜和指纹而言，是一个较为弱隐私的生物特征。人脸图像可以通过多种渠道获得，伪造他人的3维头像也不是难事^[1]。例如，很多人都会在各种社交平台上发布自拍照，这也是相对公开的特征。面对这一现状，如何能够安全地保护用户的隐私就成了亟需面对的问题。近段时间内各类信息泄露事件也都预示着用户对于加强个人隐私保护的迫切性。

生物特征加密技术的目的是通过融合特征信息和信息安全技术，用以解决以往生物特征识别方法可能造成的隐私泄露等问题^[2]。生物特征加密算法应满足以下几点要求：1)差异性：不同系统中的同一个认证者的生物特征模板不能交叉匹配；2)不可逆性：将生物特征模板做逆变换不会得到原始的生物特征信息；3)可撤销更新性：若模板遭遇安全威胁，可能导致丢失或泄露，则可通过使用同一生物特征再次生产不同的模板；4)安全性：生物特征模板加密后原始生物特征不会被泄露^[3]。

Bodo在1994年的专利中第1次写到生物特征加密这个名词，Tomko等人^[4]在Bodo的基础上加深了对生物特征加密技术的研究。对于生物特征加密技术的研究主要是生物特征模板保护，大致可分为基于帮助数据理论和生物特征哈希两类。在帮助数据理论方面，Lee等人^[5]研究出了模式聚类方法，在独立成分分析基础上对虹膜特征进行提取，为基于虹膜的生物特征加密构建了模糊保险箱方案。Teoh等人^[6]根据对生物特征哈希的研究，提出了生物哈希算法来保证生物模板不被窃取并且具有可撤销性。1999年王星明等人^[7]基于生物特征加密的概念开发了一套指纹加密系统。目前生物特征加密技术在指纹识别中的应用已经相对成熟，但是在人脸识别中的研究仍然比较缺乏，原因在于两者的特征不同。

近几年来，随着对生物特征加密技术研究的逐渐深入，引入了信息隐藏等技术，例如利用数字水印技术^[8]将需要进行保护的特征信息嵌入或隐藏在载体中，进而使得生物特征得到有效保护。信息置乱变换可以作为信息隐藏的一种方法，而且也可以作为后续加密处理的预处理过程，引起了众多研究学者的关注。对于任何的2维人脸图像，都可以较方便地转化为2维矩阵的形式。直观上来看，图像置乱就是将一幅给定的数字图像转换为一幅肉眼看上去杂乱无章的图像，达到图像包含的信息不能被他人随意获取的目的。当前，比较常见的图像加密方法主要有两种：1)基于像素置乱的方法，例如Arnold变换，幻方变换、Gray码变换等置乱算法，主要是利用这些变换具有的周期性特点，但是安全性较差，容易攻破；2)基于混沌动力系统的加密方法，具有非周期的不可预测性、类随机性、遍历性^[9]，但是混沌加密后的人脸图像过于随机，应用在人脸隐私保护上存在机器识别困难的问题。

人脸识别方法主要有3类：1)基于线性判别分析方法的人脸识别方法，这是模式识别的经典方法，目的是使得不同类别的样本间距离尽可能大，相同类样本间距离尽可能小，模型根据已知的类别样本建立^[10]；2)基于支持向量机的人脸识别方法，基本思想是将输入的非线性可分样本的向量，经过非线性变换映射到高维空间中，并在其中寻找一个最优的超平面，使分类能力达到最优^[11]；3)基于神经网络的人脸识别方法。

Arnold变换作为基于空间域的一种像素置乱算法，具备置换、替代等加密要素，采用的是将图像像素点的空间位置打乱，因简单有效成为运用最广泛的一类图像置乱算法。但传统的Arnold变换的同余参数只有一个，并具有变换的周期性，安全性能较差。基于此，本文提出一种分块Arnold随机置乱的方法，不同于对图像整体进行相同次数的置乱，而是通过将图像分成若干方块，再对方块采用2维等长Arnold变换进行随机参数的置乱。

综上，本文首先将人脸图像根据关键部位所在位置进行对齐预处理，然后根据视觉关键机制将其分块处理，对分块进行随机参数的Arnold变换置乱，之后输入到深度卷积神经网络模型中进行识别。从实验结果来看，对分块图像进行Arnold随机参数置乱后，有效降低了密文图像的相关性，而且对于深度神经网络识别仍然保持较高的识别率。此外，本文利用混沌映射加密方法进行二次加密，结果表明密文图像的相关性进一步降低。本文方法不仅加强了对人脸隐私的保护，而且对置乱变换后图像的识别依然具有较强的顽健性。

1 基于分块随机置乱的人脸隐私保护方法

本文提出的基于分块随机置乱的人脸隐私保护的算法主要包括4个模块：图像预处理、图像分块、图像置乱、深度神经网络构建。

1.1 图像预处理

在人脸图像质量较好时，大部分人脸识别方法一般都能取得较为理想的识别率，但是当人脸图像受到诸如拍摄角度、距离等问题干扰导致图像质量下降时，最终的识别率可能会大大降低。因此要在验证识别之前对图像做预处理，本文算法中的图像预处理主要包含2个步骤：人脸检测、人脸关键点定位。

人脸对齐可分为两个步骤，1)对人脸进行检测，即判断人脸是否包含在需要检测的图像中；2)对人脸所在区域进行定位，找出关键点所在的位置。本文采用香港中文大学提供的人脸检测和关键点检测方法(https://github.com/RiweiChen/FaceTools)，将人脸的左右上下边界提取出来，然后按照提供的面部检测器进行修复，之后将此作为关键点检测的输入。关键点检测即检测面部的5个关键点：两个眼部中心、鼻尖和两个嘴角。根据这些关键点位置将人脸图像进行对齐处理，并归一化到相同大小。如图 1所示，可以看到眼睛基本处于一条直线上，鼻子也从两侧对齐到中间，这种配准处理降低了由人脸姿态造成的对后续的不利影响^[12]。

图 1 预处理效果

Fig. 1 Preprocessing effect

((a) before preprocessing; (b) after preprocessing)

1.2 图像分块

不同类别的图像包含不一样的特征，这是对图像进行分类的前提。举例来说，可以通过眼睛、嘴巴和鼻子来区分不同的人。因此，本文首先对预处理后的人脸图像进行分块，让每一小块均包含人脸的特征。当从切片中提取特征时，等效于从单一来源提取特征，并且提取的特征可以被更好地分类。

因此，分块大小选择的基本原理是每个片段应该只包含人脸特征的一部分，如眼睛、嘴或鼻子。太大或太小的片段可能会导致从片段提取的特征不是单一来源。在实际应用中，碎片的大小主要与人脸图像的大小和划分大小有关。

假定切片尺寸的大小为$p$×$q$，在这个切片尺寸下可以保证每个切片尽可能地只包含人脸图像的1个特征。2维人脸图像$\mathit{\boldsymbol{X}}$大小为$a$×$b$，则经过分块后切片总数为

$ s = (a - p + 1) \times (b - q + 1) $

(1)

原始图像被划分为以下小块

$ {\mathit{\boldsymbol{X}}_i} = \left[ {{\mathit{\boldsymbol{X}}_{i,1}},{\mathit{\boldsymbol{X}}_{i,2}}, \cdots ,{\mathit{\boldsymbol{X}}_{i,s}}} \right] \in {{\bf{R}}^{pq \times s}} $

(2)

式中，${\mathit{\boldsymbol{X}}_i}$代表第$i$幅人脸图像，${\mathit{\boldsymbol{X}}_{i, m}}, m = 1, 2, \cdots, s$代表当前人脸图像经过分块切片后的第$m$块。

传统的图像处理分块方法没有考虑视觉关键机制，只是将人脸图像直接划分为几个部分，不能简单地将图像进行分块操作，还需考虑视觉观察的先后重要性区别。因此，本文提出了基于关键部位的分块方法。通常，当观察一张照片时，视觉关键机制会使得眼睛最先聚焦到中间区域，然后聚焦到中间区域附近，最后落到角落。基于这一思想，首先将图像均匀分割成块(人脸图像分块后使用${\mathit{\boldsymbol{a}}_i}$, ${\mathit{\boldsymbol{b}}_i}$, ${\mathit{\boldsymbol{c}}_i}$, $i$=1, 2, 3, 4来表征)，然后根据视觉注意力机制划分为$\mathit{\boldsymbol{A}}$、$\mathit{\boldsymbol{B}}$和$\mathit{\boldsymbol{C}}$ 3个区域，如图 2所示。然后在含眉毛、眼睛、鼻子和嘴的$\mathit{\boldsymbol{B}}$和$\mathit{\boldsymbol{C}}$部分进行Arnold随机参数置乱。

图 2 视觉关键机制示意图

Fig. 2 Schematic diagram of visual key mechanism

1.3 图像置乱

Arnold变换，俗称猫脸变换(cat mapping)，是俄国数学家弗拉基米尔·阿诺德(Vladimir Igorevich Arnold)在遍历理论的研究中提出的一种裁剪变换。将Arnold变换^[13]应用到数字图像中，会对其中的像素坐标按照一定规则进行重新排列。数字图像可以很容易转换成矩阵形式，经过Arnold变换后，可以得到一幅新的面目全非的呈现如雪花状的图像。本文采用Arnold变换的目的是使得人脸图像根据伪随机载体嵌入的位置，打乱像素点分布的位置，从而使无关人员在不知道Arnold变换的情况下，无法逆向直接正确得出包含的秘密信息，增强了人脸图像的保密性。Arnold变换的定义式为

$ \begin{array}{l} \;\;\;\;\;\;\left( {\begin{array}{*{20}{l}} {{x^\prime }}\\ {{y^\prime }} \end{array}} \right) = {\left( {\begin{array}{*{20}{l}} {{n_1}}&{{n_2}}\\ {{n_3}}&{{n_4}} \end{array}} \right)^k}\left( {\begin{array}{*{20}{l}} x\\ y \end{array}} \right)(\,{\rm{mod}}\;N)\\ \left( {\begin{array}{*{20}{c}} {{n_1}}&{{n_2}}\\ {{n_3}}&{{n_4}} \end{array}} \right) = \left( {\begin{array}{*{20}{c}} 1&a\\ b&{1 + ab} \end{array}} \right),a > 0,b > 0 \end{array} $

(3)

式中，${\rm{mod}}\;\mathit{N}$表示取模运算，$x, y \in \left\{ {1, 2, 3, \cdots, N-1} \right\}$是原始图像中矩阵像素点的位置，$x'$, $y'$是经过Arnold置乱变换后当前像素点新的位置，$k$为Arnold变换次数。$\left( {\begin{array}{*{20}{c}} 1&a\\ b&{1 + ab} \end{array}} \right)$矩阵是变换矩阵，行列式值为1。因此，该映射是一个保面积不变的一一映射，单位正方形内任意一点变换到其中任何一点都是唯一存在的。而且这个变换具有产生混沌运动的两个标志性的因素：拉伸(乘以矩阵$\left( {\begin{array}{*{20}{c}} 1&a\\ b&{1 + ab} \end{array}} \right)$使得像素点$x$, $y$的值变大)和折叠(取模运算又折回单位矩形内)。当$a$=$b$=1时，即为经典的Arnold变换。

置乱的实质是新位置和旧位置的映射，且该映射是一一对应的，其物理意义是先在水平方向上错切，然后在此基础上再做一次竖直方向的错切，两次操作后对图像求模运算，即切割回填操作。只要满足矩阵行列式的值为1时，错切的单位满足取模回填，原图与变换后的图即可一一对应。在一个周期内，置乱程度与Arnold变换次数没有固定的比例关系，置乱次数多不意味着置乱程度也一定高^[14]。

Arnold变换具有周期性，即经过多次变换迭代计算以后，图像数据又会回到初始值，这个过程类似于循环移位。迭代的次数与数据图像大小有关，假设图像的阶数用正整数$N$表示，令Arnold变换的周期为$T$，则当$N$>2时，Arnold变换的周期满足$T$ < $N$²/2。

将Arnold变换应用于112×112像素的ORL数据库人脸图像，假设($x$, $y$)是原图像的像素点，($x'$, $y'$)是变换后图像的像素点，将图像分别做1次、2次、3次Arnold变换，得到的结果如图 3所示。由于Arnold变换固有的周期性，若对图像进行全局置乱，则安全性较差。因此本文首先对人脸图像分块，后对其进行随机参数的Arnold变换。对于Arnold变换，当$a$、$b$、$k$三者任何一个值不同时，变换后的图像也是不相同的，并且可通过控制分块大小$NS$进一步提高安全性。得到分块随机置乱后的效果如图 4所示。实验表明，通过对图像像素点的位置置乱，可以明显减少相邻像素间的相关性，但同时深度神经网络对其特征提取仍有较强敏感性。

图 3 通过Arnold变换对人脸加扰的效果

Fig. 3 Faces scrambling by Arnold transform effect

((a) original image; (b) one Arnold transform; (c) two Arnold transform; (d) three Arnold transform)

图 4 分块随机置乱后效果

Fig. 4 Effect of block random scrambling

1.4 深度神经网络构建

本文使用卷积神经网络(CNN)进行特征提取，模型结构如图 5所示。除去输入输出层，共有8层，其中包括4个卷积层、1个全连接层和1个输出层，在前3个卷积层之后都连接着1个池化层。经过的4个卷积层包含的卷积核个数分别为20, 40, 60, 80，卷积核大小分别是6×6，3×3，3×3，2×2，网络模型中全连接层的神经元个数为160，最后利用softmax分类器进行识别。卷积神经网络的核心思想是局部感知(local field)、权值共享(shared weights)和下采样(subsampling)，从而获得了某种程度的位移、尺度、形变不变性，可以在很大程度上提高运算速度和精度^[15]。

图 5 CNN前向传播流程

Fig. 5 Forward propagation process of convolution neural network

将分块置乱后的人脸图像按7 :3分为训练样本和测试样本，并按照图 5的网络模型进行配置。卷积网络实质上为输入输出的映射，可以自己学习大量输入输出间的映射关系，不需要任何精确的数学表达式，只要用已知的模式对卷积网络进行训练，网络就具有将输入映射到输出的能力。首先，卷积核大小需要随机初始化为较小的值，否则可能无法完成整个训练。之后将分块置乱后的10张人脸照片作为一个batch，分别送入训练网络，学习率设置为0.000 1，迭代训练5 000步，通过此过程可得到最优的网络模型参数。训练过程分为前向传播和后向传播两个阶段。后向传播是根据前向传播得到的参数计算实际输出和理论值的残差。从softmax层到全连接层依次往前反向计算误差来更新调整权值。

2 实验与分析

2.1 数据库及实验设置

为了验证本文算法的有效性，在Linux环境下进行实验。实验设备配置：操作系统Ubuntu 16.04 LTS，处理器Intel Core i7-6700K CPU @ 4.00 GHz，内存8 GB，硬盘256 GB SSD。实验中，本文算法预处理的人脸和关键点检测在OpenCV和Python环境下实现，人脸分块和Arnold置乱在MATLAB 2016a中实现，CNN训练和测试在caffe + Python环境下实现。

实验样本来源于英国剑桥大学的ORL人脸数据库，包括40个人的400幅人脸灰度图像，每个人10幅尺寸为92×112像素的图像，图像背景主要呈黑色，包含不同光照条件下人脸的角度、姿态、面部表情和面部细节变化等。

2.2 不同卷积核对网络识别率的影响

卷积核的大小将影响网络对图片的特征提取，在卷积核较大时可以提取到更多有用的局部细节特征，但是卷积核过大意味着参数会增加，进而会降低网络训练速度，同时也可能造成过拟合现象的出现，使得识别率降低。在图 5的卷积神经网络前向传播流程图中，改变第1个卷积核的大小，其余参数不变。

在其他层参数不变的前提下，实验选取第1个卷积层卷积核大小进行变化。权值更新的参数设置：学习率为0.000 1，梯度下降率为0.9，最大迭代步数为5 000，softmax分类器中权值衰减系数为e^－4。为了显示更加直观，训练过程在每迭代100次测试1次后将结果输出到日志文件。实验选取的卷积核大小为2×2、4×4、6×6、8×8，识别率见表 1。

表 1 卷积核不同情形下识别率比较
Table 1 Comparison of recognition rates for different convolution kernel sizes

下载CSV

卷积核大小	识别率/%
2×2	97.43
4×4	95.86
6×6	97.62
8×8	96.78

从表 1可以看出，卷积核大小为6×6时，识别率最高。故将第1个卷积核大小设置为上述大小，待训练平稳后观察识别率，为了更加直观地看到识别率随迭代次数的变化，本文根据训练日志绘制了损失值(loss)曲线和识别率(accuracy)曲线。accuracy曲线随着迭代次数的增加，识别率逐渐上升，同时loss值逐渐下降，两个值最后都将会收敛到一个固定值，识别率曲线最后收敛的值即为最终的识别率。loss曲线和accuracy曲线如图 6所示。从图 6可以看出，当迭代步数在700步左右时，训练损失值和识别率值有较大幅度变化，并且在约1 500步时趋于平稳。由训练日志可得识别率曲线最终收敛于97.62%，这也是分块置乱后的识别率。

图 6 损失值和识别率曲线

Fig. 6 Train loss curve and test accuracy curve

((a) train loss curve; (b) test accuracy curve)

实验采用由4个卷积层组成的深度神经网络对分块随机参数置乱后的人脸图像进行识别，并与领域内其他方法进行比较。传统的人脸识别算法主要有主成分分析法(PCA)、PCA+SRC(sparse representation-based classifier)、决策树算法、随机森林算法等。在同样的实验条件下，这些方法识别人脸需要经过繁杂的特征提取和降维操作，当人脸关键特征进行隐私保护后，以上算法将受到挑战。而本文提出的方法不需要人工的特征提取和降维，且在较少训练样本的条件下仍然保持较高的识别率，识别率对比见表 2。

表 2 不同方法识别率对比
Table 2 Recognition rates of different methods

下载CSV

/%
方法	识别率
PCA	90.7
SRC	93
SRC+PCA	93.3
C 4.5决策树	72.5
随机森林	95.83
本文	97.62
注：加粗字体为最优结果。

2.3 本文方法安全性分析

数字图像数据对所有像素而言一般会有非常大的冗余存在，同时相邻像素间也会有很强的相关性，攻击者可以对其进行分析来构造攻击信息。在实验中，对明文图像和Arnold随机参数置乱后的部分选取5 000对相邻像素进行相关性分析，结果如图 7所示。

图 7 相邻像素相关性图

Fig. 7 The maps of adjacent pixel correlation

((a) adjacent pixel correlation of plaintext images; (b) adjacent pixel correlation after scrambling random number of blocks)

从图 7可以看出，处理前的人脸原图像相邻像素具有很强的相关性。经过像素位置置乱后，如图 7(b)所示，人脸关键位置像素点在整个图像上有均匀分布的趋势，相关性明显减弱。说明该算法对隐藏人脸关键位置像素点具有较好的效果。Arnold变换具有周期性，对置乱图片多次进行Arnold变换可以恢复原图。但本文使用3个随机参数构造Arnold，如果需要对图像进行还原，必须知道这3个参数。因此，使用本文的Arnold变换方法可以增大破解置乱图片的难度。但同时为了通过深度神经网络进行识别，仍需要保留一定的相关性，若为如图 7(b)所示的相邻像素相关性，则很难从中提取到有效特征用于识别。

利用本文提出的分块随机置乱可以取得较高的识别率，进一步考虑到安全性问题，在传输或存放到服务器前，对分块随机置乱后的图像进行二次加密并将密钥保存。如图 8(a)所示。图 8(b)是本文使用混沌加密后得到的相邻像素相关性图，由像素点之间的表现可知，相关性得到了进一步降低。但实验结果表明，二次加密后很难从中提取到有效特征用于分类识别，识别率仅约为20%。因此在允许牺牲少量安全性的前提下，本文方法具有很好的应用空间。

图 8 二次加密示意及其相邻像素相关性图

Fig. 8 Secondary encryption and its adjacent pixel correlation map ((a) secondary encryption diagram; (b) adjacent pixel correlation after secondary encryption)

3 结论

提出了一种基于分块随机置乱的深度神经网络模型，并结合加密技术应用于人脸隐私保护问题。实验表明，本文方法不仅在特征提取和降维操作复杂度上优先传统人脸识别算法，而且在训练样本少的情况下，仍能保持高识别率。在进行分块置乱后，相邻像素点之间的相关性明显降低，由此达到隐私保护的目的。在未来的研究中，将进一步对Arnold算法进行深入研究，以期获得更大范围和更低相关度的隐私保护，同时进一步提高识别率。

参考文献

[1] Chen W C. The research of biometric template protection based on chaotic encryption[D]. Beijing: Beijing Jiaotong University, 2014. [程维春.基于混沌加密的生物特征模板保护研究[D].北京: 北京交通大学, 2014.]

[2] Jiang G H. The research of biometric encryption method based on fingerprint[D]. Xi'an: Xidian University, 2017. [蒋广涵.基于指纹的生物特征加密技术研究[D].西安: 西安电子科技大学, 2017.]

[3] Gomez-Barrero M, Fierrez J, Galbally J, et al. Implementation of fixed-length template protection based on homomorphic encryption with application to signature biometrics[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, NV, USA: IEEE, 2016: 259-266.[DOI: 10.1109/CVPRW.2016.39]

[4] Tomko G J, Soutar C, Schmidt G J. Fingerprint controlled public key cryptographic system: US, US 5541994 A[P]. 1996.

[5] Lee Y J, Bae K, Lee S J, et al. Biometric key binding: fuzzy vault based on iris images[C]//Advances in Biometrics, International Conference, ICB 2007, Seoul, Korea, August 27-29, 2007, Proceedings. Springer-Verlag, 2007.

[6] Teoh A B J, Goh A, Ngo D C L. Random multispace quantization as an analytic mechanism for biohashing of biometric and random identity inputs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12): 1892–1901. [DOI:10.1109/TPAMI.2006.250]

[7] Wang X M, Tian J, Wu Y. A security mechanism combining automated fingerprint verification with cryptography[J]. Computer Engineering, 1999(s1): 144–146. [王星明, 田捷, 武岩. 一种结合自动指纹认证与密码技术的安全机制[J]. 计算机工程, 1999(s1): 144–146. ]

[8] Juarez-Sandoval O, Fragoso-Navarro E, Cedillo-Hernandez M, et al. Improved unseen-visible watermarking for copyrigth protection of digital image[C]//Proceedings of the 5th International Workshop on Biometrics and Forensics. Coventry, UK: IEEE, 2017: 1-5.[DOI: 10.1109/IWBF.2017.7935084]

[9] Chen Z. Analysis and control of chaotic systems and their application in image encryption[D]. Changsha: Hunan University, 2018. [陈中.混沌系统分析与控制若干问题及其图像加密的应用研究[D].长沙: 湖南大学, 2018.]

[10] Zhao Z H, Chen L. A context-aware recommendation method with multi-feature fusion based on fisher linear discriminant analysis[J]. Journal of Xi'an Jiaotong University, 2017, 51(8): 40–46. [赵志华, 陈莉. 融合Fisher线性判别分析的多维特征融合情景感知推荐方法[J]. 西安交通大学学报, 2017, 51(8): 40–46. ] [DOI:10.7652/xjtuxb201708007]

[11] Xu J M, Li L. A face recognition algorithm based on sparse representation and support vector machine[J]. Computer Technology and Development, 2018, 28(2): 59–63. [徐静妹, 李雷. 基于稀疏表示和支持向量机的人脸识别算法[J]. 计算机技术与发展, 2018, 28(2): 59–63. ] [DOI:10.3969/j.issn.1673-629X.2018.02.014]

[12] Sun N, Gu Z D, Liu J X, et al. End-to-end trainable deep fusion network for facial age estimation[J]. Journal of Image and Graphics, 2018, 23(1): 133–143. [孙宁, 顾正东, 刘佶鑫, 等. 面向人脸年龄估计的深度融合神经网络[J]. 中国图象图形学报, 2018, 23(1): 133–143. ] [DOI:10.11834/jig.170305]

[13] Zou J C, Tie X Y. Arnold transformation of digital image with two dimensions and its periodicity[J]. Journal of North China University of Technology, 2000, 12(1): 10–14. [邹建成, 铁小匀. 数字图像的2维Arnold变换及其周期性[J]. 北方工业大学学报, 2000, 12(1): 10–14. ]

[14] Huang L Y, Xiao D G. The best image scrambling degree of binary image based on Arnold transform[J]. Journal of Computer Applications, 2009, 29(2): 474–476, 483. [黄良永, 肖德贵. 二值图像Arnold变换的最佳置乱度[J]. 计算机应用, 2009, 29(2): 474–476, 483. ]

[15] Xu Z, Feng C H. Modified scale dependent pooling model for traffic image recognition[J]. Journal of Computer Applications, 2018, 38(3): 671–676. [徐喆, 冯长华. 用于交通图像识别的改进尺度依赖池化模型[J]. 计算机应用, 2018, 38(3): 671–676. ] [DOI:10.11772/j.issn.1001-9081.2017082054]