发布时间: 2019-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180497
2019 | Volume 24 | Number 7

图像分析和识别

注意力迁移的联合平衡领域自适应

汪荣贵, 姚旭晨, 杨娟, 薛丽霞

合肥工业大学计算机与信息学院, 合肥 230601

收稿日期: 2018-08-27; 修回日期: 2019-01-17

第一作者简介: 汪荣贵, 1966年生, 男, 教授, 主要研究方向为深度学习、智能视频处理与分析、视频大数据与云计算。E-mail:wangrgui@foxmail.com;
姚旭晨, 女, 硕士研究生, 主要研究方向为迁移学习、数字图像处理。E-mail:yanxn@mail.hfut.edu.cn;
薛丽霞, 女, 副教授, 主要研究方向为数字图像处理, 地理信息系统。E-mail:xlxzzm@163.com.

中图法分类号: TP18

文献标识码: A

文章编号: 1006-8961(2019)07-1116-10

摘要

目的现有的图像识别方法应用于从同一分布中提取的训练数据和测试数据时具有良好性能，但这些方法在实际场景中并不适用，从而导致识别精度降低。使用领域自适应方法是解决此类问题的有效途径，领域自适应方法旨在解决来自两个领域相关但分布不同的数据问题。方法通过对数据分布的分析，提出一种基于注意力迁移的联合平衡自适应方法，将源域有标签数据中提取的图像特征迁移至无标签的目标域。首先，使用注意力迁移机制将有标签源域数据的空间类别信息迁移至无标签的目标域。通过定义卷积神经网络的注意力，使用关注信息来提高图像识别精度。其次，基于目标数据集引入网络参数的先验分布，并且赋予网络自动调整每个领域对齐层特征对齐的能力。最后，通过跨域偏差来描述特定领域的特征对齐层的输入分布，定量地表示每层学习到的领域适应性程度。结果该方法在数据集Office-31上平均识别准确率为77.6%，在数据集Office-Caltech上平均识别准确率为90.7%，不仅大幅领先于传统手工特征方法，而且取得了与目前最优的方法相当的识别性能。结论注意力迁移的联合平衡领域自适应方法不仅可以获得较高的识别精度，而且能够自动学习领域间特征的对齐程度，同时也验证了进行域间特征迁移可以提高网络优化效果这一结论。

关键词

迁移学习; 领域自适应; 注意力机制; 无监督学习; 图像识别; 卷积神经网络

Learning transferrable attention for joint balanced domain adaptation

Wang Ronggui, Yao Xuchen, Yang Juan, Xue Lixia

School of Computer and Information, Hefei University of Technology, Hefei 230601, China

Abstract

Objective Many image recognition methods demonstrate good performance when applied to training and test data extracted from the same distribution. However, these methods are unsuitable in practical scenarios and result in low performance. Using domain adaptive methods is an effective approach for solving such problem. Domain adaptation aims to solve various problems, such as when data are from two related domains but with different distributions. In practical applications, labeling data takes substantial manual labor. Thus, unsupervised learning has become a clear trend in image recognition. Transfer learning can extract knowledge from the labeled data in the source domain and transfer it to the unlabeled target domain. Method We propose a joint balanced adaptive method based on attention transfer mechanism, which transfers feature representations extracted from the labeled datasets in the source domain to the unlabeled datasets in the target domain. Specifically, we first transfer the labeled source-domain space category information to the unlabeled target domain via attention transfer mechanism. Neural networks reflect the basic characteristics of the human brain, and attention is precisely an important part of the human visual experience and closely related to perception. Artificial attention mechanism started to be developed as artificial neural network has become increasingly popular in various fields, such as computer vision and pattern recognition. Allowing a system to learn attending objects and understand the mechanism behind neural networks has become a research tool. Attention information can be used to improve image recognition accuracy significantly by defining the attention of convolutional neural networks (CNNs). In this study, attention can be seen as a set of spatial mappings that encode the spatial regions highly concerned with the network input to determine its possible output. Second, we introduce the prior distribution of the network parameters on the basis of the target dataset and endow the layer with the capability of automatically learning the alignment degree that should be pursued at different levels of the network. We expect to explore abundant source-domain attributes through cross-domain learning and capture substantial complex cross-domain knowledge by embedding cross-dataset information for minimizing the original function loss for the learning tasks in two domains as much as possible. Machine learning is an alternative approach for recognizing the refined features after preprocessing raw data into features on the basis of prior knowledge of humans. Machine learning experts have spent most of their time designing features in the past few years because recognition results depend on the quality of features. Recent breakthrough in object recognition has been mainly achieved by approaches based on deep CNN due to its more powerful feature extraction and image representation capabilities than manually defined features, such as HOG and SIFT. The higher the network layers are, the more specific the characteristics are for the target categorization tasks. Meanwhile, the features on successive layers interact with each other in a complex and fragile way. Accordingly, the neurons between neighboring layers co-adapt during training. Therefore, the mobility of features and classifiers decreases as the cross-domain difference increases. Finally, we describe the input distribution of the domain-specific adaptive alignment layer by introducing cross-domain biases, thereby quantitatively indicating the inter-domain adaptation degree that each layer learns. Meanwhile, we adaptively change the weight of each category in the dataset. Although deep CNN is a unified training and prediction framework that combines multi-level feature extractors and recognizers, end-to-end processing is particularly important. The design concept for our model fully utilizes the capability of CNN to perform end-to-end processing. Result The average recognition accuracies of the method in datasets Office-31 and Office-Caltech are 77.6% and 90.7%, respectively. Thus, this method significantly outperforms traditional methods based on handcrafted feature and is also comparable with state-of-the-art methods. Although not all single transfer tasks achieve optimal results, the average recognition accuracy of the six transfer tasks is improved compared with the current mainstream methods. Conclusion Transferring image features extracted from labeled data in the source domain to the unlabeled target domain effectively solves data problems from two domains that are related but differently distributed. The method fully utilizes the spatial location information of the labeled data in the source domain through attention transfer mechanism and uses the deep CNN to learn the alignment degree of the features between domains automatically. Learning ability largely depends on the degree of inter-domain correlation, which is a major limitation for transfer learning. In addition, knowledge transition is apparently ineffective if no similarity exists between the domains. Thus, we fully consider the feature correlation in the dataset between source and target domains and adaptively change the weight of each category in the dataset. Our method can not only effectively obtain high recognition accuracy but also automatically learn the degree of feature alignment between domains. This method also verifies that the inter-domain feature transfer can improve network optimization effect.

Key words

transfer learning; domain adaptation; attention mechanism; unsupervised learning; image recognition; convolutional neural networks

0 引言

近年来，深度神经网络的研究在计算机视觉领域中取得了重大突破，这主要归功于监督学习的海量有标签样本。然而，在实际应用中，标注数据花费大量的人力和物力，因此无监督学习成为图像识别的明显趋势。研究^[1]表明学习可以从源域有标签的数据中提取知识迁移至无标签的目标域，从而有效解决图像识别中样本无标签的问题。

迁移学习是机器学习领域中用于解决标记数据难获取这一基础问题的重要手段，它通过减少源域到目标域的分布差异进行知识迁移，从而实现数据标定。迁移学习通常假设源域和目标域数据集来自相似但不同的分布，例如以不同的角度、背景和照明条件下拍摄的物体，其成像可能产生不同的边缘或条件分布。因此，不同域之间数据分布偏移是预测模型适应目标任务所面临的最大阻碍，迁移学习范畴中的领域自适应问题便是针对该现象提出的。广义上的自适应是指根据数据的特征自动调成处理方法、处理顺序、处理参数、约束条件等，使其与所处理数据的统计分布特征和结构特征相适应^[2]。而领域自适应则是解决了来自两个相关域但分布不同的数据问题，通过学习域不变特征表示来连接源域和目标域，从而可以将在源域学习到的分类器应用于目标域^[3]。

领域自适应的方法通常通过最小化概率分布距离使源域和目标域的概率分布相似，这一般通过两种策略来实现：引入混淆域损失^[4]来学习辅助分类器以预测一个样本是来自源域还是目标域，或是最小化源域与目标域之间的平均嵌入距离^[5]，让所学习到的源域和目标域表示的分布尽可能相似。然而，这些方法都是试图最小化领域之间的边缘分布和条件分布的差异，两种分布差异通常被同等对待，但事实表明边缘分布自适应和条件分布自适应并非同等重要。针对上述问题，提出了一种联合均衡分布自适应的方法，该方法不仅考虑域间平衡，还适应性地改变每个类别的权重。

随着深度学习方法的高速发展，使用深度神经网络进行迁移学习受到广泛推崇。相较于传统方法，利用深度神经网络可以直接提取更具表现力的特征，而且深度神经网络可以满足迁移学习在现实应用中端到端的需求。在深度学习的层面上，迁移学习中的自适应主要完成两部分工作：其一是使用网络的不同层来决定深度卷积神经网络对图像特征的学习程度，其二是通过不同的度量准则来观察网络的泛化能力。Tzeng等人^[6]经过多次实验得出结论，在AlexNet网络的第8层加入自适应获得最好的效果。DAN(deep adaptation networks)方法^[5]在DDC(deep domain confusion)方法的基础上进行了扩展，DAN在分类器前3层同时加入自适应层并用多核最大均值差异(MMD)替代DDC方法中的单一核MMD。JAN(joint adaptation network)方法^[4]通过对齐跨域的多个域特定层的联合分布来学习迁移网络，将只对数据进行自适应的方式推广到了对类别的自适应。上述方法虽然可以获得较高的识别精度，但都需要额外的优化步骤和参数, 本文将领域适配的过程耦合到了网络的训练中。

神经网络反映了人脑的基本特性，而注意力恰恰是人类视觉体验的一个重要部分并且与感知紧密相关^[7]。因此，若让神经网络获得注意力可以充分提取图像的特征表示^[8]。自适应方法通常假设跨域共享类别，因此简单的识别任务就可以利用注意力迁移机制将源域有标签数据的空间位置信息，迁移至目标域以此来辅助目标域无标签数据的学习。由于不同层的特征图捕获低、中、高层表示的信息^[9]，通过正确定义卷积神经网络的注意力，便可以使用注意力信息来显著提高图像识别精度。本文可以将注意力视为一组空间映射，即对网络的输入最关注的空间区域进行编码从而决定其最可能的输出^[10]。实验表明通过注意力迁移机制，当目标域无标签数据集被训练时，不仅能够做出更加准确的预测，而且还具有类似于已经训练过的源域有标签图像的空间位置信息^[11-12]。

本文的核心思想是训练源域有标签数据获取图像中与类别相关联的空间信息，将此类信息视为图像注意力，通过编码与解码的方式迁移至无标签的目标域。再使用联合平衡领域自适应的方法实现跨域的特征对齐，通过跨域偏差来描述特定领域的特征对齐层的输入分布。本文模型分为两部分，第一部分：注意力迁移机制；第二部分：联合平衡自适应。主要贡献具体如下：

1) 提出了一种注意力迁移机制，充分利用源域有标签数据的空间位置信息，并将其迁移至目标域以此来辅助目标域无标签数据的学习。

2) 充分考虑源域与目标域数据的特征关联性，适应性地改变数据集中每个类别的权重。

3) 引入联合平衡自适应的方法，赋予网络自动调整每个领域对齐层特征对齐的能力。

1 注意力迁移机制

使用注意力信息可以有效提高卷积神经网络的性能，具体而言，通过源域有标签数据捕获其每个特定类别的位置形成模型的注意力，将其注意力迁移至目标域用以改善网络无监督学习的表现。假设源域${\mathit{\boldsymbol{D}}_s}$中有$n_{s}$个训练样本$\left\{ {{\mathit{\boldsymbol{x}}_{{s_i}}}, {y_{{s_i}}}} \right\}_{i = 1}^{{n_s}}$，从源域网络的卷积层中获得特征向量${\mathit{\boldsymbol{x}}_{{s_i}}} \in {{\bf{R}}^{d + 1}}$，其类标记为$y_{s_{i}}∈{0, 1, …, m}$。当给定一幅输入图像时，网络首先提取特征向量，表示为

$ \mathit{\boldsymbol{F}} = {g_{{\rm{enc}}}}\left( {\mathit{\boldsymbol{X}};{\mathit{\Theta }_{\rm{e}}}} \right) $

(1)

式中，${\mathit{\Theta }_{\rm{e}}}$表示模型的编码参数。本文模型中注意力迁移机制的目标就是为了学习一组在2维空间上定义的正向权重向量${\left\{ {{\mathit{\boldsymbol{\alpha }}_{{s_i}}}} \right\}^k} \in {{\bf{R}}^M}, {\left\{ {{\mathit{\boldsymbol{\alpha }}_{{s_i}}}} \right\}^k}$中的每个元素表示了每个位置与第$k$个类别的相关性。首先通过预测图像真实值在$k$个类别的属性后验概率，建立每个分类类别的属性值之间的互斥关系，即

$ {\mathit{\boldsymbol{V}}^k} = {g_{{\rm{att}}}}\left( {\mathit{\boldsymbol{F}}, {y^k};{\mathit{\boldsymbol{ \boldsymbol{\varTheta} }}_\alpha }} \right) $

(2)

$ {\mathit{\boldsymbol{A}}^k} = \frac{{\exp \left( {\mathit{\boldsymbol{v}}_{{s_i}}^k} \right)}}{{\sum\limits_{i = 1}^{{n_s}} {\exp } \left( {\mathit{\boldsymbol{v}}_{{s_i}}^k} \right)}} $

(3)

式中，$\mathit{\boldsymbol{v}}_{{s_i}}^k$表示第$k$个类别的标签向量，${\mathit{\Theta }_\alpha }$表示注意力机制的参数。为了促使注意力机制^[11]仅仅关注一幅图像的某一部分，本文用softmax函数将向量$\mathit{\boldsymbol{V}}$归一化为${\mathit{\boldsymbol{A}}^k}$。

为了使注意力机制获得类别特定的注意力向量${\mathit{\boldsymbol{A}}^k}$，本文使用特征向量与标签之间的乘性相互作用^[12]，通过学习一组由3维向量表示的门控参数来表示特征向量和标签之间的相关性。使用乘法运算的主要原因是乘法交互比加法运算能更好地捕获特征向量与标签间的高级别依赖关系。此时，函数${\mathit{\boldsymbol{V}}^k}$可定义为

$ {\mathit{\boldsymbol{V}}^k} = {\mathit{\boldsymbol{W}}^{{\rm{att}}}}\left( {{\mathit{\boldsymbol{W}}^\alpha }{\mathit{\boldsymbol{A}}^k} \otimes {\mathit{\boldsymbol{W}}^k}{V^k}} \right) + b $

(4)

式中，⊗表示各对应元素的相乘运算，$b$表示偏差。${\mathit{\boldsymbol{W}}^\alpha } \in {{\bf{R}}^{d \times MD}}, {\mathit{\boldsymbol{W}}^k} \in {{\bf{R}}^{d \times L}}, {\mathit{\boldsymbol{W}}^{{\rm{ att }}}} \in {{\bf{R}}^{M \times d}}$，其中$M$表示每个通道的隐藏单元数，$D$表示通道数，$L$表示标签向量，$d$表示因式分解的因子数。

本文的目的是将源域的注意力迁移至目标域，因此通过源域的类别分类器$f_{c}$根据分类目标优化${\mathit{g}_{{\rm{att}}}}$。为了在空间区域上聚合特征来提取基于类别特定注意力的特征，本文用原始特征$\mathit{\boldsymbol{F}}$重构中间表示，这样可以有效地消除从注意力到标签预测的直接连接。因此，在特征图所有通道上定义特定于类别的特征为

$ \hat{\boldsymbol{A}}^{k}=\boldsymbol{F}^{\mathrm{T}} \boldsymbol{A}^{k} $

(5)

本文使用源域图像标签来联合训练模型注意力和分类器来最小化分类损失

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\Theta }_a}{\mathit{\Theta }_c}} \sum\limits_i^{{n_s}} {\sum\limits_k^m {{L_c}\left( {y_{{s_i}}^k, {f_c}\left( {\mathit{\boldsymbol{\hat a}}_{{s_i}}^k;{\theta _c}} \right)} \right)} } = }\\ {\mathop {\min }\limits_{{\mathit{\Theta }_a}{\mathit{\Theta }_c}} \sum\limits_i^{{n_s}} {\sum\limits_k^m {y_{{s_i}}^k\log \mathit{\boldsymbol{\hat a}}_{{s_i}}^k} } + \left( {1 - y_{{s_i}}^k} \right)\log \left( {1 - \mathit{\boldsymbol{\hat a}}_{{s_i}}^k} \right)} \end{array} $

(6)

式中，${\mathit{\Theta }_c}$表示类别分类器的参数，$f_{c}$表示类别分类器的预测值，$\mathit{\boldsymbol{\hat a}}_{{s_i}}^k$表示${\mathit{\boldsymbol{\hat A}}^k}$中每一个元素。

在注意力迁移机制中，给定源域网络的空间注意力特征图，本文的目标是训练一个目标域网络不仅可以在无监督学习中做出预测，而且能够具有类似于源域的注意力特征图。一般来说，将注意力视为一组空间映射，其本质上是试图对网络输入最关键的空间区域编码来对输出进行预测。因此，在目标域中将注意力特征${\mathit{\boldsymbol{A}}^k}$和原始特征$\mathit{\boldsymbol{F}}$作为额外的输入馈送给网络。

用源分类器来预测目标数据，源分类器将对目标数据有更准确的预测，这些数据更靠近源域。计算前$q$个数据所在类别的出现频率，返回源域数据的前$q$个数据中出现频率最高的类别作为目标域数据的预测分类。因此，本文为这些目标数据设置更大的权重，它们的目标标签将更类似于源分类器预测的标签。由于中间表示${\mathit{\boldsymbol{\hat A}}^k}$很好地表示了在特征图之外特定于类别$k$的每个通道之间的关联性，因此，本文将${\mathit{\boldsymbol{\hat A}}^k}$作为系数来聚合特征的每个通道中的激活，源域数据在目标域网络中的解码输入表示为

$ \mathit{\boldsymbol{\hat F}} = {g_{{\rm{dec}}}}\left( {\mathit{\boldsymbol{F}};{\mathit{\boldsymbol{ \boldsymbol{\varTheta} }}_d}} \right) $

(7)

式中，${\mathit{\Theta }_d}$为解码器配置参数。由于深度卷积神经网络中的所有权重在不同类别之间共享，因此目标域网络通常会捕获更多适用于多个类别的常规形状信息。当给定$\mathit{\boldsymbol{\hat F}}$作为密集注意力输入时，注意力迁移机制中的编码器与解码器联合训练来最小化损失函数

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\Theta }_a}{\mathit{\Theta }_r}} \sum\limits_j^{{n_t}} {\sum\limits_k^m {{L_r}\left( {\mathit{\boldsymbol{x}}_j^k, {f_r}\left( {\mathit{\boldsymbol{\hat e}}_j^k;{\mathit{\Theta }_r}} \right)} \right)} } = }\\ {\mathop {\min }\limits_{{\mathit{\Theta }_a}{\mathit{\Theta }_r}} \sum\limits_j^{{n_t}} {\sum\limits_k^m {\left\| {\mathit{\boldsymbol{x}}_j^k - {f_r}} \right\|_2^2} } } \end{array} $

(8)

式中，${\mathit{\Theta }_r}$为编码器配置参数源域输入图像被卷积、池化等操作转换成多维特征向量，注意力模型识别与图像相关联的每个类别的突出区域，其输出显示为粗糙特征图中每个类别的位置信息，通过反卷积、反池化等过程获得每个类别的密集掩码。目标域中输入图像进行本域图像特征提取，同时获得源域提供的注意力信息。那么，最终进行优化的目标就是源域识别任务和目标域识别任务的损失函数之和，即

$ \begin{array}{*{20}{c}} {{\lambda _1}\mathop {\min }\limits_{{\mathit{\Theta }_a}{\mathit{\Theta }_c}} \sum\limits_i^{{n_s}} {\sum\limits_k^m {{L_c}\left( {y_{{s_i}}^k, {f_c}\left( {\mathit{\boldsymbol{\hat a}}_{{s_i}}^k;{\mathit{\Theta }_c}} \right)} \right)} } + }\\ {\left( {1 - {\lambda _1}} \right)\mathop {\min }\limits_{{\mathit{\Theta }_a}{\mathit{\Theta }_r}} \sum\limits_j^{{n_t}} {\sum\limits_k^m {{L_r}\left( {\mathit{\boldsymbol{x}}_j^k, {f_r}\left( {\mathit{\boldsymbol{\hat e}}_j^k;{\mathit{\Theta }_r}} \right)} \right)} } } \end{array} $

(9)

式中，$0≤λ_{1}≤1$是控制识别和重建之间损失平衡的超参数。注意力迁移过程如图 1所示。对于每一个源域有标签数据，通过图像级别标签来训练识别目标下的注意力模型。对于每一个目标域无标签数据，首先应用源域图像分类器以获得与每一幅图像相关联的标签，再运用生成标签迭代地重构注意力权重来获得解码信息，具体过程如图 1所示。

图 1 注意力迁移机制结构图

Fig. 1 View of attention transfer mechanism architecture

2 领域平衡自适应

领域适应通常给定一个有标签源域$\left\{ {{x_{{s_i}}}, {y_{{s_i}}}} \right\}_{i = 1}^{{n_s}}$和一个无标签目标域$\left\{ {{x_{{t_j}}}} \right\}_{j = 1}^{{n_t}}$，假定源域与目标域的特征空间相同且类别空间相同。但是两个域的边缘分布不同，即${P_s}\left({{x_s}} \right) \ne {P_t}\left({{x_t}} \right)$，条件分布也不同，即${P_s}\left({{y_s}|{x_s}} \right) \ne {P_t}\left({{y_t}|{x_t}} \right)$。迁移学习的目标就是当源域与目标域的数据整体不相似，且具体到每个类里都不相似时，利用有标签的源域数据集去学习一个分类器来预测目标域的数据标签。

由于源域与目标域预测变量的输入分布不同，因此，源域数据训练后的分类器并不能很好地适用于目标域。研究表明^[13]深度神经网络中每层的输入都受到前面所有层的影响，随着网络的加深，网络参数的微小变化被放大，所以每一层都要不断去适应新的输入分布的影响，批量标准化的方法通过固定层输入的均值和方差以减少内部协变量的偏移。受此启发，本文提出联合平衡自适应的方法，假设标签相关知识存储在每一层的权重矩阵中，而领域相关知识由批量标准化层的统计数据表示，通过调整批量标准化层的统计量，可以很容易地将训练过的模型迁移到新的领域。联合平衡自适应过程如图 2所示，联合平衡层学习源域和目标跨域分布的统计数据，并根据计算的均值和方差对源和目标小批量进行标准化。

图 2 联合平衡自适应结构图

Fig. 2 View of joint balanced adaptation architecture

令$x_{s}$和$x_{t}$分别表示给定特征通道和空间位置的源域和目标域网络中统计特征对齐层的输入，$P_{s}$和$P_{t}$分别表示$x_{s}$和$x_{t}$的分布。此时，源域和目标域的联合分布可以分别表示为

$ \begin{array}{*{20}{c}} {{P_{st}} = \tau {P_s} + \left( {1 - \tau } \right){P_t}}\\ {{P_{ts}} = \tau {P_t} + \left( {1 - \tau } \right){P_s}} \end{array} $

(10)

式中，$τ$表示源域与目标域分布的混合因子，$τ∈[0.5, 1]$。那么，源域和目标域网络中统计特征对齐层的输出分别表示为

$ \begin{aligned} L_{s} & =\frac{x_{s}-\mu_{s t}}{\sqrt{\varepsilon+\sigma_{s t}^{2}}} \\ L_{t} & =\frac{x_{t}-\mu_{t s}}{\sqrt{\varepsilon+\sigma_{t s}^{2}}} \end{aligned} $

(11)

式中，$ε>0$表示一个用来保证小批量处理方差数值稳定的常数。$μ_{st}$和$μ_{ts}$分别表示源域和目标域的跨域混淆期望，$\sigma _{st}^2$和$\sigma _{ts}^2$分别表示源域和目标域的跨域混淆方差，具体计算如下

$ \begin{array}{*{20}{c}} {{\mu _{st}} = \frac{\tau }{{{n_s}}}\sum\limits_{i = 1}^{{n_s}} {{x_{{s_i}}}} + \frac{{1 - \tau }}{{{n_t}}}\sum\limits_{j = 1}^{{n_t}} {{x_{{t_j}}}} }\\ {{\mu _{ts}} = \frac{{1 - \tau }}{{{n_s}}}\sum\limits_{i = 1}^{{n_s}} {{x_{{s_i}}}} + \frac{\tau }{{{n_t}}}\sum\limits_{j = 1}^{{n_t}} {{x_{{t_j}}}} }\\ {\sigma _{st}^2 = \frac{\tau }{{{n_s}}}\sum\limits_{i = 1}^{{n_s}} {{{\left( {{x_{{s_i}}} - {\mu _{st}}} \right)}^2}} + \frac{{1 - \tau }}{{{n_t}}}\sum\limits_{j = 1}^{{n_t}} {{{\left( {{x_{{t_j}}} - {\mu _{st}}} \right)}^2}} }\\ {\sigma _{ts}^2 = \frac{{1 - \tau }}{{{n_s}}}\sum\limits_{i = 1}^{{n_s}} {{{\left( {{x_{{s_i}}} - {\mu _{ts}}} \right)}^2}} + \frac{\tau }{{{n_t}}}\sum\limits_{j = 1}^{{n_t}} {{{\left( {{x_{{t_j}}} - {\mu _{ts}}} \right)}^2}} } \end{array} $

(12)

通过联合训练源域和目标域数据将网络参数进行耦合，计算来自小批量的输入分布的期望和方差，并让本域中的方差统计量与另一个域中的进行混淆。每批训练样本进入网络，联合平衡对齐层计算的期望和标准差不变，将这些值作为测试样本的期望和方差，即对期望直接计算所有批量的期望，对于标准差采用每个批量的无偏估计。一般来说，尽管源域与目标域测试数据的输入分布不同，但参考分布却保持不变，因此它们在自适应对齐层中依然会经过不同的变换，最终实现不同的功能。

为了充分利用无标签的目标域数据，本文引入网络参考的先验分布，通过参数化的跨领域偏移来学习每个特定于领域的特征对齐层输入分布的适应程度。通过给定的源域和目标域数据构造网络权重参数$\mathit{\Theta }$的后验分布为

$ \begin{array}{*{20}{c}} {P\left( {\mathit{\Theta }\left| {{D_s}, {D_t}} \right.} \right) \propto P\left( {\mathit{\Theta }\left| {{D_t}} \right.} \right)}\\ {P\left( {{y_{{s_1}}}, \cdots , {y_{{s_m}}}\left| {{\mathit{\boldsymbol{x}}_{{s_1}}}, \cdots , {\mathit{\boldsymbol{x}}_{{s_n}}}} \right.} \right)} \end{array} $

(13)

由朴素贝叶斯法可知，用于分类的特征在类确定的条件下都是条件独立的，那么参数$\mathit{\Theta }$在源域数据集上的分布可以表示为

$ \begin{array}{*{20}{c}} {P\left( {{y_{{s_1}}}, \cdots , {y_{{s_m}}}\left| {{\mathit{\boldsymbol{x}}_{{s_1}}}, \cdots , {\mathit{\boldsymbol{x}}_{{s_n}}}} \right.} \right) = }\\ {\prod\limits_{i = 1}^{{n_s}} {{f_s}\left( {{y_{{s_i}}};{\mathit{\boldsymbol{x}}_{{s_i}}}} \right)} } \end{array} $

(14)

式中，${f_s}\left({{y_{{s_i}}}; {\mathit{\boldsymbol{x}}_{{s_i}}}} \right)$表示源域输入图像通过分类器获取特定类别的概率。与此同时，将源域分类器应用于目标域数据时所预测的标签不确定性程度进行度量，即

$ \begin{array}{*{20}{c}} {h\left( {\mathit{\Theta }\left| {{D_t}, {x_{{s_1}}}, \cdots , {x_{{s_n}}}} \right.} \right) = }\\ {\frac{1}{{{n_t}}}\sum\limits_j^{{n_t}} {\sum\limits_k^m {{f_t}\left( {{y_{{t_j}}};{x_{{t_j}}}} \right)\log {f_t}\left( {{y_{{t_j}}};{x_{{t_j}}}} \right)} } } \end{array} $

(15)

利用已知的样本结果，反推最有可能导致这样结果的参数值，那么求模型参数${\mathit{\Theta }_t}$的极大似然估计${\hat \theta _t}$为

$ {\hat \theta _t} = \arg \mathop {\max }\limits_{{\theta _t} \in {\mathit{\Theta }_t}} P\left( {\mathit{\Theta }\left| {{D_s}, {D_t}} \right.} \right) $

(16)

最终的优化目标为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\Theta }_t}} \sum\limits_i^{{n_s}} {{L_s}\left( {{f_s}\left( {{y_{{s_i}}};{\mathit{\boldsymbol{x}}_{{s_i}}}} \right)} \right)} + }\\ {{\lambda _2}\sum\limits_j^{{n_t}} {\sum\limits_k^m {{L_t}\left( {\mathit{\boldsymbol{x}}_{{t_j}}^k, {f_t}\left( {{y_{{t_j}}};{\mathit{\boldsymbol{x}}_{{t_j}}}} \right)} \right)} } } \end{array} $

(17)

将域内任务的总体损失函数分别表示为相等权重的损失平均的加法和计算, $L_{s}$对应于源域数据的标准对数损失，$L_{t}$对应于目标域的交叉熵损失。在训练阶段，每个小批量包含固定数量的源域数据和目标域数据，将特征对齐层作为单一网络层同时学习源域与目标域分布的混合因子$τ$，通过匹配源域和目标域分布到参考分布来对齐特征。

3 实验

本节将对模型进行详细评估，并与主流方法的实验结果进行对比。本文实验是在NVIDIA GeForce GTX TITANX 12 GB显卡，英特尔Xeon E3-1231V3处理器，32 GB内存，Ubuntu16.04操作系统上通过Caffe^[14]深度学习框架实现。

3.1 实验设置

使用两个测试领域自适应方法的标准数据集进行试验。数据集Office-31^[15]包含来自3个不同领域的31个类别组成的4 652个图像：亚马逊(A)，DSRL(D)和网络摄像头(W)。亚马逊图像是从网络(http://amazon.com)收集的，网络摄像头和数码单反相机图像是在一个环境中人工手动收集的。本文实验对整个有标记的源域数据和未标记的目标域数据进行训练，并在有标记的目标样本上进行测试。为了表明模型的普遍适用性，实验全面评估了6个迁移学习任务A→D、A→W、D→A、D→W、W→A、W→D，实验结果如表 1所示。数据集Office-Caltech^[16]选择Office-31和Caltech256^[17]数据集中的10个常见类别的子集。该数据集包含2 533幅图像，其中约一半属于数据集Caltech256。亚马逊(A)，DSLR(D)，网络摄像头(W)和Caltech256(C)中的每一个都被视为单独的域。本文实验中只包含C作为源域或目标域的源/目标组合。6个迁移学习任务分别为A→C、W→C、D→C、C→A、C→W、C→D，实验结果如表 2所示。本文提出的注意力迁移的联合平衡领域自适应方法不仅充分利用源域有标签数据的空间位置信息，来辅助目标域无标签数据的学习，而且引入联合平衡自适应方法，赋予网络自动调整每个领域对齐层特征对齐的能力。为验证上述两种方法的有效性，本文分别在数据集Office-31和数据集Office-Caltech上通过单一的注意力迁移机制和使用注意力迁移的联合平衡领域自适应方法进行实验对比，结果如表 1和表 2所示。

表 1 各方法在数据集Office-31上识别结果
Table 1 Comparison results on Office-31 dataset

下载CSV

/%
方法	A→D	A→W	D→A	D→W	W→A	W→D	平均值
DDC^[6]	64.4	61.8	52.1	95.0	52.2	98.5	70.6
DAN^[5]	67.0	68.5	54.0	96.0	53.1	99.0	72.9
RTN^[19]	71.0	73.3	50.5	96.8	51.0	99.6	73.7
RevGrad^[20]	67.1	72.6	54.5	96.4	52.7	99.2	73.8
JAN^[4]	71.8	74.9	58.3	96.6	55.0	99.5	76.0
AutoDIAL^[21]	73.6	75.5	58.1	96.6	59.4	99.5	77.1
注意力迁移	72.8	74.2	56.5	95.9	59.6	99.5	76.4
本文	73.8	76.2	57.8	96.5	62.0	99.3	77.6
注：加粗字体表示最优结果。

表 2 各方法在数据集Office-Caltech上识别结果
Table 2 Comparison results on Office-Caltech dataset

下载CSV

/%
方法	A→C	W→C	D→C	C→A	C→W	C→D	平均值
TCA^[22]	81.2	75.5	79.6	92.1	88.1	87.9	84.1
GFK^[14]	76.2	77.1	77.9	90.7	78.0	77.1	79.5
DDC^[6]	85.0	78.0	81.1	91.9	85.4	88.8	85.0
DAN^[5]	85.1	84.3	82.4	92.0	90.6	90.5	87.5
RTN^[19]	88.1	86.6	84.6	93.7	96.9	94.2	90.6
AutoDIAL^[21]	87.4	86.8	86.9	94.3	96.3	90.1	90.3
注意力迁移	87.6	85.8	84.8	95.0	96.5	92.4	90.4
本文	87.6	86.5	85.7	95.2	96.5	92.7	90.7
注：加粗字体表示最优结果。

在训练阶段，有标签源域数据与无标签目标域数据共享编码与解码过程，由于目标域进行无监督学习，因此只在源域中运用标签类别信息获取空间关联性。本文使用Krizhevsky等人^[18]所提出的网络架构(AlexNet)，该网络前5层为连续的卷积层$C_{1}, …, C_{5}$，后3层是全连接层$FC_{6}, …, FC_{8}$。在每个全连接层后连接进行联合平衡自适应训练的特征对齐层，其中3个全连接层的输出计算可表示为$F_{6}=σ(W_{6}L_{6}(C_{5})+b_{6})$，$F_{7}=σ(W_{7}L_{7}(C_{6})+b_{7})$，$F_{8}=φ(W_{8}L_{8}(C_{7})+b_{8})$。其中$C_{i}$表示第$i$个卷积层的输出，$F_{j}$表示第$j$个完全连接层的输出, $L_{m}$表示特征对齐层的输出，$W_{k}$与$b_{k}$表示第$k$层的训练参数，$σ(X)$与$φ(X)$分别是“ReLU”和“SoftMax”非线性激活函数。

网络的输入是通过从大小为256×256像素图像中随机提取大小为227×227像素(及其水平反射)的块，并在这些提取的块上训练网络。这就使得训练集增加了2 048倍，虽然由此产生的训练图片间相互高度依赖，但是可以有效减少过拟合。与此同时，改变训练图像RGB通道的强度，在训练集的RGB像素值集上执行主成分分析来进行数据增强。对于每个训练图像成倍增加已有主成分，比例大小为对应值乘以一个从均值0、标准差为0.1的高斯分布中提取的随机变量。对于每个RGB图像像素${\mathit{\boldsymbol{I}}_{xy}} = {\left[{\mathit{\boldsymbol{I}}_{xy}^{\rm{R}}, \mathit{\boldsymbol{I}}_{xy}^{\rm{G}}, \mathit{\boldsymbol{I}}_{xy}^{\rm{B}}} \right]^{\rm{T}}}$, 增加这一项：$\left[{{\mathit{\boldsymbol{p}}_1}, {\mathit{\boldsymbol{p}}_2}, {\mathit{\boldsymbol{p}}_3}} \right] \times {\left[{{\omega _1}{\varphi _1}, {\omega _2}{\varphi _2}, {\omega _3}{\varphi _3}} \right]^{\rm{T}}}$，其中${\mathit{\boldsymbol{p}}_i}$和$φ_{i}$分别是RGB像素值的3×3协方差矩阵的第$i$个特征向量和特征值，$ω_{i}$为随机变量。每个$ω_{i}$对于特定训练图像的所有像素仅被提取一次，直到该图像被再次用于训练，此时就被重新提取。这种数据增强的做法有效地利用了光照强度与颜色有变化而识别目标不变这一重要特性。

使用小批量随机梯度下降方法训练模型，利用负梯度$\nabla L(\mathit{\boldsymbol{W}})$和上一次权重的更新值${\mathit{\boldsymbol{V}}_t}$的线性组合来更新权重$\mathit{\boldsymbol{W}}$，根据上一次计算的更新值${\mathit{\boldsymbol{V}}_t}$和当前权重${\mathit{\boldsymbol{W}}_t}$来计算本次的更新值${\mathit{\boldsymbol{V}}_{t + 1}}$和权重${\mathit{\boldsymbol{W}}_{t + 1}}$，即

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{V}}_{t + 1}} = \mu {\mathit{\boldsymbol{V}}_t} - \alpha \nabla L\left( \mathit{\boldsymbol{W}} \right)}\\ {{\mathit{\boldsymbol{W}}_{t + 1}} = {\mathit{\boldsymbol{W}}_t} + {\mathit{\boldsymbol{V}}_{t + 1}}} \end{array} $

(18)

式中，$α$表示学习率是负梯度的权重，表示动量是上一次更新值的权重。在Caffe^[14]中将动量参数设置为0.9，权重衰减为0.000 5。本文在重构输出层中的所有隐藏层和线性激活中使用ReLU激活。根据源域验证数据的准确度选择控制识别和重建之间损失平衡的超参数$λ_{1}$，其最优值的取值范围为[0.25, 0.75]，根据具体任务不同来取值，例如，在数据集Office-31上对于任务D→A，$λ_{1}$设置为0.45最佳。当相同的预测变量应用于目标样本时根据标签不确定度来偏置先验预测器，参数$λ_{2}$设置为0.3。

3.2 结果分析

对本文方法与最先进的领域自适应方法进行比较与分析。如表 1所示，在Office-31数据集上进行实验的模型包括：深度域混淆(DDC)^[6]，深度适应网络(DAN)^[5]，残留传输网络(RTN)^[19]，ReverseGrad网络^[20]，联合适应网络(JAN)^[4]。上述方法都是在深度卷积神经网络模型下引入额外的模块和参数进行网络的调整，它们在识别精度方面都取得了良好的效果。

深度网络通常通过多层特征转换和抽象，从一般性特征过渡到具有类别特定性的特征。一般来说，层数越高其特征越具有类别特定性，因此，当跨域差异增加时，特征和分类器的可迁移性下降。DDC^[6]从源域数据和目标域数据的每个全连接层表示中提取特征，再计算每层的源域和目标域之间的最大均值差异。由于较低层的最大均值差异表明特征表示具有域不变性，DDC^[6]通过实验表明单独输出$FC_{7}$取得的迁移效果最好，单独输出$FC_{6}$则效果最差，平均精度为70.6%。DAN^[5]和JAN^[4]则是联合多个层进行特征迁移，平均精度分别为72.9%和76%。

上述方法都无法同时对齐各层的特征表示，并且无法自动调整每层的对齐程度。本文方法受AutoDIAL^[21]的启发，在自动领域对齐架构的基础上加入注意力迁移机制，在Office-31数据集上其识别精度高于AutoDIAL^[21]方法0.5%。

如表 2所示，在Office-Caltech数据集上进行实验的结果：迁移主成分分析(TCA)^[22]和基于流形变换的迁移学习方法(GFK)^[14]为传统方法，由图 3(b)可以看出，尽管在某一具体迁移任务中在识别准确率方面有相对优势，但与深度卷积神经网络模型相比较其平均准确率仍然差强人意。残留传输网络(RTN)^[16]通过将几个层插入深层网络来实现分类器的适应，其参考目标分类器明确学习残差函数，用张量融合多层特征，并将它们嵌入到再生希尔伯特空间中以匹配特征适配分布。RTN在C→D任务中取得了远超其他方法的效果，其平均精度也与本文方法十分具有竞争力。AdaBN^[23]引入域对齐层将所需的域不变性硬编码到源域与目标域分类器，避开了决定哪些层应该对齐以及在何种程度上对齐的问题。AutoDIAL^[21]受此启发，通过DA层和先验分布在学习过程中发挥协调作用，首先调整源域和目标域的特征分布，其次促进网络学习能够最大分离目标类别的特征，该方法在W→C和D→C的任务中取得最好的识别效果。

图 3 各方法在不同数据集上识别结果

Fig. 3 Comparison results on different datasets((a)Office-31;(b)Office-Caltech)

注意力迁移机制利用源域有标签数据的空间位置信息，将此空间信息迁移至目标域来辅助目标域无标签数据的学习。由表 1可以看出, 在Office-31数据集上通过单一的注意力迁移机制方法任务W→A精度高于当前最优方法0.2%。由表 2可以看出, Office-Caltech数据集上任务A→C与C→A精度均高于当前最优方法。实验表明注意力迁移机制在领域自适应问题中可以有效提高图像识别精度。

结合图 3(a)和图 3(b)可以看出，本文方法在两个公开的领域自适应标准数据集Office-31和Office-Caltech上均取得了良好的效果，虽然并非所有的单一迁移任务都取得当前最优的效果，但6个迁移任务的平均识别精度相较于当前主流方法皆有所提高。

4 结论

提出一种基于注意力迁移的联合平衡自适应方法，将源域有标签数据中提取的图像特征迁移至无标签的目标域，有效地解决了来自两个领域相关但分布不同的数据问题。该方法通过注意力迁移机制充分利用源域有标签数据的空间位置信息，并使用深度卷积神经网络自动学习领域间特征的对齐程度。通过引入参数化的跨域偏差来描述特定于领域的自适应对齐层的输入分布，有效地赋予了网络自动调整每个领域对齐层特征对齐的能力。

实验表明本文方法不仅可以获得较高的识别精度，而且能够自动学习领域间特征对齐程度，同时也验证了进行域间特征迁移可以提高网络的优化效果这一结论。该方法虽然并未在所有的单一迁移任务都取得当前最优的效果，但6个迁移任务的平均识别精度相较于当前主流方法皆有所提高。然而，如何为特定的目标域学习任务寻找更为合适的源域仍然是未来研究的一个悬而未决的问题。

参考文献

[1] Fu Y H, Aldrich C. Froth image analysis by use of transfer learning and convolutional neural networks[J]. Minerals Engineering, 2018, 115: 68–78. [DOI:10.1016/j.mineng.2017.10.005]

[2] Liu W J, Liang X J, Qu H C. Adaptively enhanced convolutional neural network algorithm for image recognition[J]. Journal of Image and Graphics, 2017, 22(12): 1723–1736. [刘万军, 梁雪剑, 曲海成. 自适应增强卷积神经网络图像识别[J]. 中国图象图形学报, 2017, 22(12): 1723–1736. ] [DOI:10.11834/jig.170079]

[3] Saito K, Watanabe K, Ushiku Y, et al. Maximum classifier discrepancy for unsupervised domain adaptation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 3723-3732.[DOI:10.1109/CVPR.2018.00392]

[4] Long M S, Zhu H, Wang J M, et al. Deep transfer learning with joint adaptation networks[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: ACM, 2017: 2208-2217.

[5] Long M S, Cao Y, Wang J M, et al. Learning transferable features with deep adaptation networks[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ACM, 2015: 97-105.

[6] Tzeng E, Hoffman J, Zhang N, et al. Deep domain confusion: maximizing for domain invariance[EB/OL].[2018-08-12].https://arxiv.org/pdf/1412.3474.pdf.

[7] Fan S J, Shen Z Q, Jiang M, et al. Emotional attention: a study of image sentiment and visual attention[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 7521-7531.[DOI:10.1109/CVPR.2018.00785]

[8] Li K P, Wu Z Y, Peng K C, et al. Tell me where to look: guided attention inference network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 9215-9223.[DOI:10.1109/CVPR.2018.00960]

[9] Wang S Y, Zhou H Y, Yang Y. Kernel correlation adaptive target tracking based on convolution feature[J]. Journal of Image and Graphics, 2017, 22(9): 1230–1239. [王守义, 周海英, 杨阳. 基于卷积特征的核相关自适应目标跟踪[J]. 中国图象图形学报, 2017, 22(9): 1230–1239. ] [DOI:10.11834/jig.170009]

[10] Hong S, Oh J, Lee H, et al. Learning transferrable knowledge for semantic segmentation with deep convolutional neural network[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 3204-3212.[DOI:10.1109/CVPR.2016.349]

[11] Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention[EB/OL].[2018-08-12].https://arxiv.org/pdf/1502.03044.pdf.

[12] Memisevic R. Learning to relate images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1829–1846. [DOI:10.1109/TPAMI.2013.53]

[13] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL].[2018-08-12].https://arxiv.org/pdf/1502.03167.pdf.

[14] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, USA: ACM, 2014: 675-678.[DOI:10.1145/2647868.2654889]

[15] Saenko K, Kulis B, Fritz M, et al. Adapting visual category models to new domains[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece: Springer, 2010: 213-226.[DOI:10.1007/978-3-642-15561-1_16]

[16] Gong B Q, Shi Y, Sha F, et al. Geodesic flow kernel for unsupervised domain adaptation[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 2066-2073.[DOI:10.1109/CVPR.2012.6247911]

[17] Griffin G, Holub A, Perona P. Caltech-256 object category dataset[R]. California: California Institute of Technology, 2007.

[18] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: ACM, 2012: 1097-1105.

[19] Long M S, Wang J M, et al. Unsupervised domain adaptation with residual transfer networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: ACM, 2016: 136-144.

[20] Ganin Y, Lempitsky V. Unsupervised domain adaptation by backpropagation[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ACM, 2015: 1180-1189.

[21] Cariucci F M, Porzi L, Caputo B, et al. AutoDIAL: automatic domain alignment layers[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 5077-5085.[DOI:10.1109/ICCV.2017.542]

[22] Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2011, 22(2): 199–210. [DOI:10.1109/TNN.2010.2091281]

[23] Li Y H, Wang N Y, Shi J P, et al. Adaptive batch normalization for practical domain adaptation[J]. Pattern Recognition, 2018, 80: 109–117. [DOI:10.1016/j.patcog.2018.03.005]