Print

发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220168
2023 | Volume 28 | Number 1




    多模态信息融合    




  <<上一篇 




  下一篇>> 





面向多模态自监督特征融合的音视频对抗对比学习
expand article info 盛振涛1,2, 陈雁翔1,2, 齐国君3
1. 合肥工业大学计算机与信息学院, 合肥 230601;
2. 智能互联系统安徽省实验室(合肥工业大学), 合肥 230601;
3. 机器感知与学习实验室(美国中佛罗里达大学), 美国奥兰多 32816

摘要

目的 同一视频中的视觉与听觉是两个共生模态,二者相辅相成,同时发生,从而形成一种自监督模式。随着对比学习在视觉领域取得很好的效果,将对比学习这一自监督表示学习范式应用于音视频多模态领域引起了研究人员的极大兴趣。本文专注于构建一个高效的音视频负样本空间,提高对比学习的音视频特征融合能力。方法 提出了面向多模态自监督特征融合的音视频对抗对比学习方法:1)创新性地引入了视觉、听觉对抗性负样本集合来构建音视频负样本空间;2)在模态间与模态内进行对抗对比学习,使得音视频负样本空间中的视觉和听觉对抗性负样本可以不断跟踪难以区分的视听觉样本,有效地促进了音视频自监督特征融合。在上述两点基础上,进一步简化了音视频对抗对比学习框架。结果 本文方法在Kinetics-400数据集的子集上进行训练,得到音视频特征。这一音视频特征用于指导动作识别和音频分类任务,取得了很好的效果。具体来说,在动作识别数据集UCF-101和HMDB-51(human metabolome database)上,本文方法相较于Cross-AVID(cross-audio visual instance discrimination)模型,视频级别的TOP1准确率分别高出了0.35%和0.83%;在环境声音数据集ECS-50上,本文方法相较于Cross-AVID模型,音频级别的TOP1准确率高出了2.88%。结论 音视频对抗对比学习方法创新性地引入了视觉和听觉对抗性负样本集合,该方法可以很好地融合视觉特征和听觉特征,得到包含视听觉信息的音视频特征,得到的特征可以提高动作识别、音频分类任务的准确率。

关键词

自监督特征融合; 对抗对比学习; 音视频多模态; 视听觉对抗性负样本; 预训练

Audio-visual adversarial contrastive learning-based multi-modal self-supervised feature fusion
expand article info Sheng Zhentao1,2, Chen Yanxiang1,2, Qi Guojun3
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China;
2. Intelligent Interconnection System Anhui Provincial Laboratory (Hefei University of Technology), Hefei 230601, China;
3. Laboratory for Machine Perception and Learning (University of Central Florida), Orlando 32816, USA
Supported by: National Natural Science Foundation of China (61972127)

Abstract

Objective Video clip-based vision and audition are two kind of interactive and synchronized symbiotic modalities to develop a self-supervised mode. Current researches demonstrate that human-perception is derived from visual auditory vision to understand dynamic events. Therefore, the feature extracted from audio-visual clips contains richer information. In recent years, data feature-based contrastive learning has promoted visual domain dramatically via the mutual information prediction between pairs of samples. Much more concerns are related to the application of contrastive learning, a self-supervised representation learning paradigm for the audio-visual multi-modal domain. It is essential to deal with the issue of an audio-visual negative sample space construction, where contrastive learning can extract negative samples. To improve the audio-visual feature fusion capability of contrastive learning, our research is focused on building up an efficient audio-visual negative sample space. Method We develop a method of audio-visual adversarial contrastive learning for multi-modal self-supervised feature fusion. Visual and auditory negative sample sets are initialized as standard normal distribution, which can construct the audio-visual negative sample space. In order to ensure the scaled audio-visual negative sample space, the number of visual and auditory adversarial negative samples is defined as 65 536. The path of cross-modal adversarial contrastive learning is described as following: 1) we used the paired visual feature and auditory feature extracted from the same video clip as the positive sample, while the auditory adversarial negative samples are used to construct the negative sample space, the visual feature will be close to the corresponding auditory positive sample during the training of cross-modal contrastive learning, while discretes from the auditory adversarial negative samples farther. 2) Auditory adversarial negative samples are updated during cross-modal adversarial learning, which makes them closer to the visual feature. If there is just cross-modal adversarial contrastive learning there, the modal can be actually degenerated into the inner-modal adversarial contrastive learning. The visual and auditory negative samples sets are initialized as standard normal distribution without visual or auditory information, so inner-modal adversarial contrastive learning is also required. We used a pair of visual features in different view as the positive sample further. The negative sample space is still constructed by the visual adversarial negative samples. 3) Visual and auditory feature is composed of inner-modality and cross-modality information both, which can be used to guide downstream tasks like action recognition and audio classification. Specifically, (1)to construct audio-visual negative sample space, visual and audio adversarial negative samples are introduced; (2) to track the indistinguishable audio and visual samples in consistency, the combination of inner-modality and cross-modality adversarial contrastive learning is adopted, which can improve the proposed method effectively to fuse audio-visual self-supervised feature. On the basis of (1) and (2) mentioned above, the audio-visual adversarial contrastive learning framework is simplified further. Result The subset of Kinetics-400 dataset is selected for pre-training to obtain audio-visual feature. 1) The audio-visual feature is analyzed qualitatively. The visual feature is applied to guide the supervised network of action recognition. After fine-tuning the supervised network, we visualized the final convolutional layer of the network. Comparing with Cross-cross-audio visual instance discrimination(AVID) method, our visual feature makes the supervised network pay more attention to the various body parts of the person-targeted, which is an effective information source to recognize action.2) The quality of the audio-visual adversarial negative samples are analyzed qualitatively via visualizing the t-distributed stochastic neighbor embedding(t-SNE) figure about the audio-visual feature and the audio-visual adversarial negative samples. The audio-visual adversarial negative sample distribution of our method is looped and similar to an oval shape, while the audio-visual negative sample distribution of Cross-AVID method has small clusters and deletions. It demonstratess that the proposed audio-visual adversarial negative samples can track the audio-visual feature in the iterative process closely, and build a more efficient audio-visual negative sample space. The audio-visual feature is analyzed in quantitative as well. This feature is applied to motion recognition and audio classification. In particular, 1)visual-based Cross-AVID model comparison: our analysis achieves 0.35% and 0.83% of each on the UCF-101 and human metabolome database(HMDB-51) action recognition datasets; 2) audio-based Cross-AVID model comparison: our analysis achieves 2.88% on the ECS-50 environmental sound classification dataset. Conclusion Audio-visual adversarial contrastive learning method can introduce visual and audio adversarial negative samples effectively. To obtain audio-visual feature information, qualitative and quantitative experiments show that the proposed method can well fuse visual and auditory feature. This feature can be implied to improve the accuracy of action recognition and audio classification tasks.

Key words

self-supervised feature fusion; adversarial contrastive learning; audio-visual cross-modality; audio-visual adversarial negative sample; pre-training

0 引言

在自然界中,音频和视觉事件往往同时发生:当说话时,嘴唇会同时动作;当飞机低空掠过时,飞机会同时发出噪声;当切菜时,刀与案板碰撞会发出声音。由于自然界中音视频信息具有时间同步性,因此人类在感知自然界的过程中,听觉系统和视觉系统往往协同工作来采集音视频信息,然后由大脑中枢系统融合处理音视频信息,最终人类形成了对外界的认知。在感知研究中,已有大量文献(Shams和Kim,2010; Heffner和Heffner,1992; Risto,1992)提供了实验证据,表明人在理解动态事件时不仅依靠视觉系统,还需要听觉系统的辅助,如果一个人的听觉功能受到影响,那么他对视觉事件的敏感度会降低(Myklebust,1960)。因此,相比于单从听觉事件或者视觉事件中提取到的特征,从音视频事件中可以提取到的特征包含更加丰富的信息。

对比学习是一种自监督表示学习,它使用对比损失(van den Oord等,2018)衡量表示空间中样本对之间的相似性。在计算机视觉领域,传统的对比学习通过衡量样本之间的互信息(Hénaff,2020Hadsell等,2016Hjelm等,2019Zhuang等,2019van den Oord等,2018)来学习数据特征。Chen等人(2020)将对比学习应用到计算机视觉领域,提出可以对图像进行增强编码,让同一幅图的不同增强视图相互靠近,不同图像的增强视图相互远离。对比学习需要从负样本空间中抽取负样本,如何构建负样本空间是一个关键的问题。为了良好地对比学习质量,构建负样本空间的原则是足够大且具有连续性(He等,2020)。在计算机视觉领域,许多工作(Hu等,2021; He等,2020; Li等,2021; Ho和Vasconcelos,2020; Kalantidis等,2020)专注于视觉负样本空间的构造。Wu等人(2018)提出可以维护一个包含所有训练样本的存储库;He等人(2020)提出可以构建一个带有队列和移动平均编码器的动态负样本字典,既保证了负样本空间规模性和连续性,又减少了内存占用;Li等人(2021)Kalantidis等人(2020)提出可以通过聚类等手段寻找更加有效的负样本,增强负样本空间的有效性;Hu等人(2021)Ho和Vasconcelos(2020)提出引入对抗性负样本的想法,可以有效地使负样本空间覆盖到具有挑战性的训练样本,提高对比学习质量。但是上述工作提出的对负样本空间的改进措施都聚焦于视觉单一模态,没有考虑到对比学习在音视频多模态领域的应用。相比于上述单一视觉模态下的对比学习,音视频跨模态对比学习可以使用不同的音视频视图进行对比学习,从而学习到信息更加丰富的音视频信息(Morgado等,2021b; Owens和Efros,2018)。

在音视频多模态领域,现有的工作大多采用自监督学习的方法来提取音视频信息。自监督表示学习的目标是无需人工标注情况下学习数据的转换,使得后续的任务更加容易解决。自监督表示学习从未标注的数据源中定义了用于自监督学习的伪标签,以此训练模型来学习数据表示。常用的自监督学习伪标签有:稀疏性(Lee等,2006Olshausen,2002Olshausen和Field,1996)、不变性(Misra和van der Maaten,2020Ji等,2019杜航原等,2020)、空间对应、时间对应(Han等,2019Fernando等,2017Mobahi等,2009)以及一些其他的数据属性,例如互相关矩阵特征(Zbontar等,2021)、灰度特征(Tian等,2020Piergiovanni等,2020Heffner和Heffner,1992)等。自监督学习的经典方法有主成分分析(Abdi和Williams,2010)和独立成分分析(Stone,2004)等。这些方法往往倾向于学习数据中的低级统计特征,因此语义特征提取效果不佳。深度神经网络具有强大的特征提取能力,因此许多工作将深度神经网络应用于自监督表示学习,典型方法有自编码器(Kingma和Welling,2014)、生成对抗网络(van den Oord等,2016)和自回归模型(Arandjelovic'和Zisserman,2017)等。

已有的音视频跨模态表示学习通常将音视频特征映射到同一表征空间中,使其具有语义区分性和模态一致性,如先由深度子网络提取各自特征,再致力于建立视听觉双模态数据之间的共同表达(Arandjelovic'和Zisserman,2017)。一种常见的音视频跨模态自监督学习方法(Arandjelovic'和Zisserman,2018; Owens等,2016)是预测音频和视觉片段是否属于相同的视频实例。由于音视频之间存在时间对应关系,相关文献(Korbar等,2018; Owens和Efros,2018; Doersch等,2015; Tian等,2020)中提出可以预测给定的音视频序列是否时间同步。Sanguineti等人(2020)提出可以采用声学图像来预测音视频在空间和时间上是否对齐。Asano等人(2020)通过聚类对视频数据集进行伪标记来学习视听模式之间的对应关系。最近的工作(Morgado等,2021b, 2020; Patrick等,2021; Alayrac等,2020; Shukla等,2020; Lamba等,2021)引入了对比学习来进行音视频自监督学习。其将同一视觉片段与多个音频片段进行对比学习,同时将同一音频片段也与多个视觉片段进行对比学习。相比于传统的音视频对应和音视频序列时间同步任务,对比学习任务的表征能力更强(Morgado等,2021b)。此外,Ma等人(2021)Morgado等人(2021a)改进了音视频多模态下的负样本选择策略,以提高对比学习的性能。Chen等人(2021)引入了蒸馏学习,提高音视频多模态下对比学习的性能。

本文针对音视频多模态下的对比空间负样本空间的构建问题,提出了面向多模态自监督特征融合的音视频对抗对比学习方法,如图 1所示。在图 1左侧,首先将视觉片段和音频片段进行增强编码,分别得到视觉特征向量和听觉特征向量。对同一片段再次进行增强编码,可以得到对应的正样本。在图 1中间部分,展示了音视频跨模态对抗对比学习的训练流程。

图 1 面向多模态自监督特征融合的音视频对抗对比学习方法方法示意图
Fig. 1 Schematic diagram of audio-visual adversarial contrastive learning for multi-modal self-supervised feature fusion

首先,如图 1中间左侧下方所示,使用标准正态分布来生成视觉和听觉对抗性负样本集合,从而构建了音视频负样本空间。定义视觉和听觉对抗性负样本数量均为65 536,确保了音视频负样本空间的规模性。其次,在图 1中间的上半部分表示了音视频模态间的对抗对比学习,以左上的视觉特征向量为例,将其和对应的同一音频片段的在不同增强视图下的听觉特征向量作为正样本对(图 1中间的左上方的相对箭头两侧),而听觉对抗性负样本构成了负样本空间。在模态间对比学习的过程中,视觉特征向量要靠近听觉正样本,同时远离听觉对抗性负样本。然后,听觉对抗性负样本进行模态间对抗更新,使得自身更加接近视觉特征向量,增加对比学习的难度。以听觉特征向量为核心的模态间对抗对比学习流程也是如此。

与此同时,如果仅有图 1中间的上半部分的音视频模态间对抗对比学习,那么实际上模型就退化为了单一模态的对抗对比学习,这是因为视觉和听觉对抗性负样本初始化时为标准正态分布,不包含任何自身模态的信息。为此,如图 1中间的下半部分,增加了音视频模态内的对抗对比学习。以图 1右下的视觉特征向量为例,将其和对应的同一视觉片段的在不同增强视图下的视觉特征向量作为正样本对,而视觉对抗性负样本构成了负样本空间。在模态内对比学习的过程中,视觉特征向量靠近视觉正样本,同时远离视觉对抗性负样本。接着,视觉对抗性负样本进行对抗更新,使得自身更加接近视觉特征向量,增加对比学习的难度。图 1左下听觉特征向量对应的模态内对抗对比学习流程也是如此。

最终,视觉和听觉特征向量既包含了模态间信息,也包含了自身模态的信息。其融合了视听觉信息,可以更好地指导图 1右侧的下游任务,提升准确率。1.2节的数学推导证明了对抗性负样本可以不断地跟踪音视频训练样本中难以区分的样本,从而提高对比学习质量。

本文定义了一个视听觉对抗性负样本集合,以此来代替原有的视觉对抗性负样本集合和听觉对抗性负样本集合。这一改进简化了框架,降低了框架的复杂度,1.3节的数学推导和2.3.1节的消融实验证明了这一简化措施的等价性和有效性。

音视频多模态自监督学习的目的是通过预训练得到融合音视频信息的特征表示,其通过微调可以迁移到不同下游任务上。对于提出的面向多模态自监督特征融合的音视频对抗对比学习方法,选取Kinetics-400 (Kay等,2017)数据集进行预训练,选取动作识别和音频分类下游任务,分别评估了训练得到的包含听觉信息的视觉特征表示和包含视觉信息的听觉特征表示。实验从定性和定量的角度表明,该方法可以很好地融合音视频特征,在动作识别和音频分类下游任务上与其他音视频跨模态自监督学习方法相比取得了具有竞争性的结果。

综上所述,本文的贡献在于:

1) 提出了面向多模态自监督特征融合的音视频对抗对比学习方法,创新性地引入了视觉、听觉对抗性负样本集合来构建音视频负样本空间;

2) 构建了音视频模态间与模态内对抗对比的联合学习模式,并证明了视觉和听觉对抗性负样本可以有效跟踪训练样本中难以区分的样本,从而提高了音视频特征融合质量;

3) 进一步提出了音视频对抗对比学习简化框架,在减少一半视听觉对抗性负样本的同时保证了本文方法的精度。

1 面向多模态自监督特征融合的音视频对抗对比学习

面向多模态自监督特征融合的音视频对抗对比学习方法引入了视觉和听觉对抗性负样本,从而构建了一个更加高效的音视频跨模态负样本空间,增强了音视频跨模态对比学习的学习质量。

1.1 音视频对抗对比学习框架

音视频对抗对比学习框架如图 2 所示。首先定 义一个包含 $N$ 个视觉片段的集合 $\boldsymbol{S}=\left\{\boldsymbol{s}_i \mid i=\right.$ $1, \cdots, N\}$, 其中每一个视觉片段 $\boldsymbol{s}_i$ 均存在相对应的 视觉片段 $\boldsymbol{s}_i^{\mathrm{v}}$ 和音频片段 $\boldsymbol{s}_i^{\mathrm{a}}$

图 2 音视频对抗对比学习框架
Fig. 2 Audio-visual adversarial contrast learning framework

图 2所示, 对视觉片段$\boldsymbol{s}_i^{\mathrm{v}}$进行视觉变换, 从而得到了视觉增强视图对$\boldsymbol{s}_i^{\mathrm{v} \prime}$$\boldsymbol{s}_i^{\mathrm{v} \prime \prime}$。为了将视觉增强视图对$\boldsymbol{s}_i^{\mathrm{v} \prime}$$\boldsymbol{s}_i^{\mathrm{v} \prime \prime}$映射到音视频特征空间中进行音视频对抗对比学习, 定义了一个视觉编码器组, 包含了视觉查询编码器$f_{\mathrm{vq}}$和视觉键值编码器$f_{\mathrm{vk}}$。其中视觉查询编码器$f_{\mathrm{vq}}$的参数是可训练的, 而视觉键值编码器$f_{\mathrm{vk}}$参数不可训练, 它直接复制了视觉查询编码器$f_{\mathrm{vq}}$的参数。这一措施保证了视觉增强视图对$\boldsymbol{s}_i^{\mathrm{v}}{ }^{\prime}$$\boldsymbol{s}_i^{\mathrm{v} \prime \prime}$之间的相似性。由此得到了视觉特征向量$\boldsymbol{x}_i^{\mathrm{v}}=f_{\mathrm{vq}}\left(\boldsymbol{s}_i^{\mathrm{v} \prime}\right)$和其对应的视觉正样本$\boldsymbol{x}_i^{\mathrm{v} \prime}=f_{\mathrm{vk}}\left(\boldsymbol{s}_i^{\mathrm{v} \prime \prime}\right)$

听觉模态的数据处理与视觉模态类似。对音频片段$\boldsymbol{s}_i^{\mathrm{a}}$进行音频变换操作, 得到音频增强样本对$\boldsymbol{s}_i^{\mathrm{a}^{\prime}}$$\boldsymbol{s}_i^{\mathrm{a} \prime \prime}$。同样地, 定义一个音频编码器组, 包含音频查询编码器$f_{\mathrm{aq}}$和音频键值编码器$f_{\mathrm{ak}}$。音频编码器组的设置与视觉编码器组一致。得到的听觉特征向量$\boldsymbol{x}_i^{\mathrm{a}}=f_{\mathrm{aq}}\left(\boldsymbol{s}_i^{\mathrm{a} \prime}\right)$和其对应的听觉正样本$\boldsymbol{x}_i^{\mathrm{a} \prime}=f_{\mathrm{ak}}\left(\boldsymbol{s}_i^{\mathrm{a} \prime \prime}\right)$, 如图 2所示。

最终, 得到了音视频特征向量集合$\boldsymbol{X}=$ $\left\{\boldsymbol{x}_i \mid i=1, \cdots, N\right\}$和对应的音视频正样本集合$\boldsymbol{X}^{\prime}=$ $\left\{\boldsymbol{x}_i^{\prime} \mid i=1, \cdots, N\right\}$。音视频特征向量集合$\boldsymbol{X}$中的音视频特征向量$\boldsymbol{x}_i$包含视觉特征向量$\boldsymbol{x}_i^{\mathrm{v}}$和听觉特征向量$\boldsymbol{x}_i^{\mathrm{a}}$。音视频正样本集合$\boldsymbol{X}^{\prime}$中的音视频正样本$\boldsymbol{x}_i^{\prime}$包含视觉正样本$\boldsymbol{x}_i^{\mathrm{v} \prime}$和听觉正样本$\boldsymbol{x}_i^{\mathrm{a} \prime}$

本文采用了经典的InfoNCE对比损失函数(van den Oord等,2018),具体为

$ \begin{array}{c} L_{\text {InfoNCE }}\left(\boldsymbol{X}, \boldsymbol{X}^{\prime}, \boldsymbol{R}\right)= \\ -\frac{1}{N} \sum\limits_{i=1}^N \log \frac{\exp \left(\boldsymbol{x}_i^{\mathrm{T}} \boldsymbol{x}_i^{\prime} / \boldsymbol{\tau}\right)}{\exp \left(\boldsymbol{x}_i^{\mathrm{T}} \boldsymbol{x}_i^{\prime} / \boldsymbol{\tau}\right)+\sum\limits_{k=1}^M \exp \left(\boldsymbol{x}_i^{\mathrm{T}} \boldsymbol{r}_k / \boldsymbol{\tau}\right)} \\ \end{array} $ (1)

式中, $\boldsymbol{X}_i^{\mathrm{T}} \boldsymbol{X}_i^{\prime}$为用来计算特征向量$\boldsymbol{X}_i$与特征向量$\boldsymbol{X}_i^{\prime}$之间的余弦相似度的算子, $\tau$为用来调节损失函数变化率的超参数, 集合$\boldsymbol{R}=\left\{\boldsymbol{r}_k \mid k=1, \cdots, M\right\}$为包含了$M$个负样本的集合。

接着, 如图 2所示, 分别定义了一组视觉对抗性负样本集合$\boldsymbol{R}_\mathrm{v}=\left\{\boldsymbol{r}_k^v \mid k=1, \cdots, M\right\}$和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}=\left\{\boldsymbol{r}_k^{\mathrm{a}} \mid k=1, \cdots, M\right\}$, 这两组对抗性负样本集合都初始化为标准正态分布。

综上所述,一方面,通过音视频编码器将视觉片段和音频片段投影到特征空间,得到视觉正样本对和听觉正样本对;另一方面,定义视觉对抗性负样本集合和听觉对抗性负样本集合。由于集合中的每个对抗性负样本都是可梯度更新的,相当于在每个对抗性负样本后都添加了全连接层。初始状态下,全连接层的可梯度更新的参数矩阵为单位矩阵(矩阵行宽和列宽均为向量长度)。基于音视频正样本对和视听觉对抗性负样本集合,计算得到模态间与模态内对比损失函数。

因为视觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}$初始化为正态分布, 所以其本身不包含音视频信息。如果仅仅定义模态内损失函数或模态间损失函数, 那么就仅能学习到对应模态的特征, 而无法学习到音视频跨模态特征, 从而退化为单一模态下的对抗对比学习。因此, 定义了联合对比损失函数$L_{\text {Joint }}$, 具体为

$ \begin{array}{c} L_{\text {Joint }}=L_{\text {Cross }}+L_{\mathrm{In}} \\ L_{\text {Croos }}=L_{\text {InfoNCE }}\left(\boldsymbol{X}_{\mathrm{v}}, \boldsymbol{X}_{\mathrm{a}}^{\prime}, \boldsymbol{R}_{\mathrm{a}}\right)+ \end{array} $ (2)

$ \begin{array}{c} L_{\text {InfoNCE }}\left(\boldsymbol{X}_{\mathrm{a}}, \boldsymbol{X}_{\mathrm{v}}^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right) \\ L_{\mathrm{In}}=L_{\mathrm{InfoNCE}}\left(\boldsymbol{X}_{\mathrm{v}}, \boldsymbol{X}_{\mathrm{v}}^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right)+ \end{array} $ (3)

$ \begin{array}{c} L_{\text {In }}=L_{\text {InfoNCE }}\left(\boldsymbol{X}_{\mathrm{v}}, \boldsymbol{X}_{\mathrm{v}}^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right)+ \\ L_{\text {InfoNCE }}\left(\boldsymbol{X}_{\mathrm{a}}, \boldsymbol{X}_{\mathrm{a}}^{\prime}, \boldsymbol{R}_{\mathrm{a}}\right) \end{array} $ (4)

式中, $L_{\mathrm{In}}$为音视频模态内的对比损失函数, $L_{\text {Cross }}$为音视频模态间的对比损失函数。这一联合损失的形式与图 2右侧一致。在图 2中, 对比损失函数$L_{\text {InfoNCE }}\left(\boldsymbol{X}_{\mathrm{v}}, \boldsymbol{X}_{\mathrm{a}}^{\prime}, \boldsymbol{R}_{\mathrm{a}}\right)$简写为$ \mathrm{Loss}_{\mathrm{va}}$, 其他3个损失函数亦然。在$1.2$节中, 证明了通过对抗对比学习优化联合对比损失函数$L_{\text {Joint }}$ (式(2)), 视觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}$不仅跟踪了模态内难以区分的特征样本, 同时也跟踪了模态间的难以区分的特征样本。

1.2 音视频对抗对比学习梯度分析

根据定义的联合对比损失函数$L_{\text {Joint }}$ (式(2)) 可以看到, 存在着两个可训练的主体: 音视频查询编码器$f_{\mathrm{vq}}$$f_{\mathrm{aq}}$以及视觉和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$$\boldsymbol{R}_{\mathrm{a}}$。不仅沿着联合对比损失函数$L_{\mathrm{Joint}}$最小化方向更新音视频查询编码器$f_{\mathrm{vq}}$的参数$\theta_{\mathrm{v}}$$f_{\mathrm{aq}}$的参数$\theta_{\mathrm{a}}$, 还沿着联合对比损失函数$L_{\text {Joint }}$最大化方向更新视觉和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$$\boldsymbol{R}_{\mathrm{a}}$。因此, 联合对比损失函数$L_{\text {Joint }}$的优化问题变成了一个最大最小化问题, 即

$ \theta_{\mathrm{v}}^*, \theta_{\mathrm{a}}^*, \boldsymbol{R}_{\mathrm{v}}^*, \boldsymbol{R}_{\mathrm{a}}^*=\arg \min\limits _{\theta_{\mathrm{v}}, \theta_{\mathrm{a}}} \max\limits _{\boldsymbol{R}_{\mathrm{v}}, \boldsymbol{R}_{\mathrm{a}}} L_{\mathrm{Joint}} $ (5)

最小化联合对比损失函数$L_{\text {Joint }}$更新音视频查询编码器$f_{\mathrm{vq}}$的参数$\theta_{\mathrm{v}}$$f_{\mathrm{aq}}$的参数$\theta_{\mathrm{a}}$会促使音视频编码器学习音视频之间的互信息。接下来分析最大化联合对比损失函数$L_{\text {Joint }}$更新视觉和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$$\boldsymbol{R}_{\mathrm{a}}$如何提升对比学习的质量。给出联合对比损失函数$L_{\text {Joint }}$分别相对于视觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}$中的对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$$\boldsymbol{r}_k^{\mathrm{a}}$的导数, 也即对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$$\boldsymbol{r}_k^a$的更新方向, 参考$L_{\text {InfoNCE }}$ (式(1)) 的写法, 具体为

$ \begin{aligned} \frac{\partial L_{\text {Joint }}}{\partial \boldsymbol{r}_k^{\mathrm{v}}}= & \frac{1}{N \tau} \sum\limits_{i=1}^N\left\{p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{v}}{ }^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right) \boldsymbol{x}_i^{\mathrm{v}}+\right. \\ & \left.p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{x}_i^{\mathrm{v}}{ }^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right) \boldsymbol{x}_i^{\mathrm{a}}\right\} \end{aligned} $ (6)

$ \begin{aligned} \frac{\partial L_{\text {Joint }}}{\partial \boldsymbol{r}_k^{\mathrm{a}}}= & \frac{1}{N \tau} \sum\limits_{i=1}^N\left\{p\left(\boldsymbol{r}_k^{\mathrm{a}} \mid \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{x}_i^{\mathrm{a} \prime}, \boldsymbol{R}_{\mathrm{a}}\right) \boldsymbol{x}_i^{\mathrm{a}}+\right. \\ & \left.p\left(\boldsymbol{r}_k^{\mathrm{a}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{a}}{ }^{\prime}, \boldsymbol{R}_{\mathrm{a}}\right) \boldsymbol{x}_i^{\mathrm{v}}\right\} \end{aligned} $ (7)

式中, $p\left(\boldsymbol{r}_k^\mathrm{v} \mid \boldsymbol{x}_i^\mathrm{v}, \boldsymbol{x}_i^{\mathrm{v} \prime}, \boldsymbol{R}_\mathrm{v}\right)$表示在视觉特征向量$\boldsymbol{x}_i^\mathrm{v}$、听觉正样本$\boldsymbol{x}_i^{\mathrm{v} \prime}$以及视觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$出现的情况下, 视觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$出现的概率。数学定义为

$ \begin{array}{c} p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{v}} \boldsymbol{~}^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right)= \\ \exp \left(\boldsymbol{x}_i^{\mathrm{vT}} \boldsymbol{r}_k^v / \boldsymbol{\tau}\right) \\ \overline{\exp \left(\boldsymbol{x}_i^{\mathrm{vT}} \boldsymbol{x}_i^{v \prime} / \boldsymbol{\tau}\right)+\sum\limits_{k=1}^M \exp \left(\boldsymbol{x}_i^{\mathrm{vT}} \boldsymbol{r}_k^{\mathrm{v}} / \boldsymbol{\tau}\right)} \\ \end{array} $ (8)

并且$p\left(\boldsymbol{r}_k^\mathrm{v} \mid \boldsymbol{x}_i^\mathrm{v}, \boldsymbol{x}_i^{\mathrm{v} \prime}, \boldsymbol{R}_\mathrm{v}\right)$这一条件概率存在约束条件, 即

$ p\left(\boldsymbol{x}_i^{\mathrm{v}}\boldsymbol{~}^{\prime} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{R}_{\mathrm{v}}\right)+ \sum\limits_{k=1}^M p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{v}}{ }^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right)=1 $ (9)

式中, $p\left(\boldsymbol{x}_i^{\mathrm{v} \prime} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{R}_{\mathrm{v}}\right) $的定义为

$ \begin{array}{c} p\left(\boldsymbol{x}_i^{v \prime} \mid \boldsymbol{x}_i^v, \boldsymbol{R}_{\mathrm{v}}\right)= \\ \frac{\exp \left(\boldsymbol{x}_i^{\mathrm{vT}} \boldsymbol{x}_i^{\mathrm{v} \prime} / \tau\right)}{\exp \left(\boldsymbol{x}_i^{\mathrm{vT}} \boldsymbol{x}_i^{\mathrm{v} \prime} / \tau\right)+\sum\limits_{k=1}^M \exp \left(\boldsymbol{x}_i^{\mathrm{vT}} \boldsymbol{r}_k^{\mathrm{v}} / \tau\right)} \\ \end{array} $ (10)

根据约束条件式(9), 可以推出$p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{v}}{ }^{\prime}\right.$, $\left.\boldsymbol{R}_{\mathrm{v}}\right)$的概率越高, 则$p\left(\boldsymbol{x}_i^{\mathrm{v} \prime} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{R}_{\mathrm{v}}\right)$的概率越低, 即在$\boldsymbol{R}_{\mathrm{v}}$$\boldsymbol{x}_i^{\mathrm{v}}$出现的条件下$\boldsymbol{x}_i^{\mathrm{v}}\boldsymbol{~}^{\prime}$越难以区分。剩余3个概率$p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{x}_i^{\mathrm{v}}{ }^{\prime}, \boldsymbol{R}_{\mathrm{v}}\right) 、p\left(\boldsymbol{r}_k^{\mathrm{a}} \mid \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{x}_i^{\mathrm{a}}{ }^{\prime}, \boldsymbol{R}_{\mathrm{a}}\right)$$p\left(\boldsymbol{r}_k^{\mathrm{a}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{R}_{\mathrm{a}}\right)$的性质与$p\left(\boldsymbol{r}_k^{\mathrm{v}} \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{R}_{\mathrm{v}}\right)$类似。

仔细考察视觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$的导数式(6)和听觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{a}}$的导数式(7), 可以发现视觉和听觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$$\boldsymbol{r}_k^{\mathrm{a}}$的导数为音视频特征向量集合$\boldsymbol{X}=\left\{\boldsymbol{x}_i \mid i=1, \cdots, N\right\}$的加权平均, 并且加权系数为对应的$p\left(\boldsymbol{r}_k \mid \boldsymbol{x}_i, \boldsymbol{x}_i{ }^{\prime}, \boldsymbol{R}\right)$, 这说明视觉和听觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$$\boldsymbol{r}_k^{\mathrm{a}}$趋向于更新为音视频特征向量集合$\boldsymbol{X}=\left\{\boldsymbol{x}_i \mid i=1, \cdots, N\right\}$中难以区分的样本, 因此视觉和听觉对抗性负样本可以提高对比学习的学习质量。

1.3 音视频对抗对比学习框架的简化

仔细观察模态内和模态间损失函数$L_{\mathrm{In}}$$L_{\text {Cross }}$, 可以发现视觉对抗性负样本集合$\boldsymbol{R}_\mathrm{v}$跟踪了模态内视觉特征向量集合$\boldsymbol{X}_{\mathrm{v}}$和模态间听觉特征向量集合$\boldsymbol{X}_{\mathrm{a}}$, 而听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}$则跟踪了模态内听觉特征向量集合$\boldsymbol{X}_{\mathrm{a}}$和模态间视觉特征向量集合$\boldsymbol{X}_{\mathrm{v}}$。因此提出可以将视觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}$合并, 定义一个跨模态视听觉对抗性负样本集合$\boldsymbol{R}_x=\left\{\boldsymbol{r}_k^x \mid k=1, \cdots\right.$, $M\}$。如图 2所示, 跨模态视听觉对抗性负样本集合$\boldsymbol{R}_x$代替了原先定义的视觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{v}}$和听觉对抗性负样本集合$\boldsymbol{R}_{\mathrm{a}}$

为了分析跨模态对抗性负样本集合$\boldsymbol{R}_x$的对抗性能, 写出新定义的跨模态对抗性负样本集合$\boldsymbol{R}_x$中每一个对抗性负样本$\boldsymbol{r}_k^x$的梯度, 即

$ \frac{\partial L_{\text {Joint }}}{\partial \boldsymbol{r}_k^x}=\frac{1}{N \tau} \sum\limits_{i=1}^N\left\{\left[p\left(\boldsymbol{r}_k^x \mid \boldsymbol{x}_i^\mathrm{v}, \boldsymbol{x}_i^{\mathrm{v} \prime}, \boldsymbol{R}_{\mathrm{v}}\right)+p\left(\boldsymbol{r}_k^x \mid \boldsymbol{x}_i^{\mathrm{v}}, \boldsymbol{x}_i^{\mathrm{a} \prime}, \boldsymbol{R}_{\mathrm{a}}\right)\right] x_i^{\mathrm{v}}+\left[p\left(\boldsymbol{r}_k^x \mid \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{x}_i^{\mathrm{v} \prime}, \boldsymbol{R}_{\mathrm{v}}\right)+p\left(\boldsymbol{r}_k^x \mid \boldsymbol{x}_i^{\mathrm{a}}, \boldsymbol{x}_i^{\mathrm{a} \prime}, \boldsymbol{R}_{\mathrm{a}}\right)\right] x_i^{\mathrm{a}}\right\} $ (11)

式(11) 表明, 在音视频对抗对比学习的过程中, 跨模态视听觉对抗性负样本$\boldsymbol{r}_k^x$同时跟踪了视觉特征向量集合$\boldsymbol{R}_{\mathrm{v}}$和听觉特征特征向量集合$\boldsymbol{R}_{\mathrm{a}}$中难以辨别的特征向量。

接着, 与$1.2$节中的视觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{v}}$的梯度(式(6))和听觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{a}}$的梯度(式(7)) 比较, 可以得到

$ \frac{\partial L_{\text {Joint }}}{\partial \boldsymbol{r}_k^x}=\frac{\partial L_{\text {Joint }}}{\partial \boldsymbol{r}_k^{\mathrm{v}}}+\frac{\partial L_{\text {Joint }}}{\partial \boldsymbol{r}_k^{\mathrm{a}}} $ (12)

式(12) 表明, 跨模态视听觉对抗性负样本$\boldsymbol{r}_k^x$的梯度等于视觉对抗性负样本$\boldsymbol{r}_k^\mathrm{v}$的梯度和听觉对抗性负样本$\boldsymbol{r}_k^{\mathrm{a}}$的梯度和。因此, 这一简化措施是等价的。

2 实验及结果分析

为了评估性能,首先进行预训练,然后在动作识别和音频分类下游任务上进行迁移学习,最后分别进行定性和定量评估。音视频对应和音视频实例判别是音视频跨模态自监督学习领域具有代表性的方法,分别与它们进行实验对比。对抗对比学习(adversarial contrast, AdCo)是一种视觉模态下的自监督表示学习方法。将其作为比较方法,体现音视频特征融合的有效性。音视频对应(audio visual corresponding, AVC)是一个二元分类任务:给定一个视觉片段和一个音频片段,判断它们是否对应,其中正对来源于同一个视频,负对来源于不同视频。音视频实例判别学习则采用对比学习,将一个视觉片段与多个音频片段进行对比,同时将一个音频片段与多个视觉片段进行对比。其中正对来源于视频中时间同步对应的音视频片段,负样本既可能来源于同一视频的不同时间点的片段,也有可能来源于不同视频的片段。因此,音视频实例判别中包含了音视频对应和音视频时间同步这两个隐含约束条件。音视频实例判别学习存在3种变体,分别是模态间实例判别学习(self-audio visual instance discrimination)、联合模态实例判别学习(joint-audio visual instance discrimination)和跨模态音视频实例判别学习(cross-audio visual instance discrimination, Cross-AVID)。经过实验验证, 跨模态音视频实例判别学习在3种变体中达到了最优效果(Morgado等,2021b),因此本文采用跨模态音视频实例判别学习(Cross-AVID)作为比较方法。为了公平比较,采用与本文方法相同的架构和优化设置重新实施上述方法。

2.1 实验设置

2.1.1 数据集选取

采用Kinetics-400K(Kay等,2017)的子集Kinetics-100K(Morgado等,2021b)进行音视频对抗对比学习预训练。Kinetics-400数据集包括了240 K的持续时间大约为10 s的视频,涵盖了400类人类动作,例如演奏乐器、握手或者拥抱等。在预训练时,仅使用自监督学习方法提取Kinetics-400数据集中的音视频信息,而不使用标签信息。

针对下游动作识别任务,选取了UCF-101数据集(Soomro等,2012)和HMDB-51(human metabolome database)数据集。UCF-101数据集包含了13 320个视频,涵盖了101类真实动作,具有动作多样性。UCF-101的视频在相机运动幅度、物体外观和姿态、物体尺度、视角、背景和光照条件上都存在较大变化,非常具有挑战性。HMDB数据集(Kuehne等,2011)包含6 849个剪辑,分为51个动作类别,每个类别至少包含101个剪辑。动作类别可以分为5种类型:面部表情动作、与对象操纵相关的嘴部动作、肢体运动、与环境交互的肢体动作以及与人类交互的肢体动作。可以看到,HMDB51数据集类别之间的相似性高,非常具有挑战性。本文选取了HMDB-51数据集中的20类动作进行下游动作识别任务。针对下游音频分类任务,采用了ESC50(environmental sound classification)数据集(Piczak,2015)。ESC50数据集包含有2 000个环境录音,每段录音长度为5 s,分为50个类别,可以作为环境声音分类的基准测试方法。本文选取了ESC50数据集中的25类用做基准。

2.1.2 视觉特征与听觉特征的预处理

在视觉处理上,以16帧/s的帧率随机选取一段时长为0.5 s的视觉片段,其中包含了8个连续的视频帧。然后对选取的视觉片段进行标准的视觉增强操作(Szegedy等,2015),包括随机裁剪、随机水平翻转和色彩调节。经过视觉增强操作,得到8×224×224的视觉增强视图对,将其送入到视觉编码器组中。在音频处理上,以24 KHz的音频采样频率选取了与视觉片段对应的时长为2 s的音频片段。同样地,对音频片段进行增强操作,包括随机调整音量、时间抖动,并且接着进行了短时傅里叶变换,得到了200×257(200个时间步长,257个频率点)的音频增强视图对,将其送入音频编码器组中。

2.1.3 音视频网络架构和优化设置

对于视觉模态,选取了2层标准3D卷积神经网络,并在其后添加了3层MLP(multilayer perceptron)层,以此作为视觉编码器架构。对于听觉模态,选取了2层标准2D卷积神经网络,同样在其后添加了3层MLP层,以此作为音频编码器架构。具体架构如表 1所示。

表 1 音视频网络架构
Table 1 Audio and video network architecture

下载CSV
视觉网络架构 音频网络架构
$X_{\mathrm{s}} $ $X_{\mathrm{n}} $ $C_{\mathrm{v}} $ $X_{\mathrm{f}} $ $X_{\mathrm{t}} $ $C_{\mathrm{a}} $
audio 228 8 3 video 129 100 1
conv2d 114 8 64 conv3d 65 50 64
max pool 1 1 64 max pool 1 1 64
MLP1 - - 64 MLP1 - - 64
MLP2 - - 64 MLP2 - - 64
MLP3 - - 32 MLP3 - - 32
注:“-”表示该网络层无此参数。

表 1中, $X_{\mathrm{s}}$表示视觉片段中每一帧的空间尺寸, $X_{\mathrm{n}}$表示视觉片段的帧数, $C_{\mathrm{v}}$表示视觉片段的通道数, $X_{\mathrm{f}}$表示音频片段的频率采样点数, $X_{\mathrm{t}}$表示音频片段的时间采样点数, $C_{\mathrm{a}}$表示音频片段的通道数。对于视觉片段,采用RGB格式,因此视觉片段的初始通道数为3。对于音频片段,采用单通道,因此音频片段的初始通道数为1。视觉与听觉对抗性负样本集合大小均设置为65 536。

Adam优化器学习率分别设置为0.011和1.1来优化音视频编码器网络和视听觉对抗性负样本集合。优化器权重衰减值均设置为0.000 01,动量值均设置为0.9。批处理大小设置为96,训练总批次设置为30。训练过程使用了2块TITAN Xp型号的GPU。在训练过程中,对于同一个批次,首先沿对比损失减小的梯度方向来更新音视频编码器网络,然后沿对比损失增大的梯度方向来更新视觉和听觉对抗性负样本集合。

2.2 定性评估

2.2.1 预训练效果的定性评估

对本文方法的预训练效果进行定性评估。将视觉编码器组的视觉查询编码器作为前端,并在其后加上了1层全连接层和1层softmax层来映射至101类,以此作为下游动作识别的监督网络。遵循之前的工作(Korbar等,2018; Tian等,2020; Han等,2019)在UCF-101数据集上的评估协议,网络重新整体微调训练来进行迁移学习。与此同时,将视觉查询编码器未经预训练的监督网络和视觉查询编码器经过Cross-AVID预训练后的监督网络设置为对照网络。

预训练参数在2.1节已经详细说明,为了进行下游迁移学习,还需要进行下游监督网络的优化设置。仍旧使用Adam优化器来优化网络。为了与预训练参数保持合理的相对关系,优化器的学习率设置为0.000 1,动量设置为0.9,批处理大小设置为64,总训练批次设置为13。

在经过上游预训练(可选)和下游迁移学习后,通过对101维标签中实际类别指向的标签误差进行反向传播,提取监督网络最后一层卷积层的梯度,然后将梯度可视化,并与原始图像相叠加,最终可得监督网络最后一层卷积层的梯度类激活热力图(gradient-class activation map, Grad-CAM),如图 3所示。由于监督网络最后一层卷积层的尺寸为112×112,因此给出的梯度类激活热力图的细粒度较大。另外,由于图像经过了数据增强操作,与原始图像相比,梯度类别激活热力图会随机水平翻转或者随机局部放大。

图 3 梯度类激活热力图对比
Fig. 3 Comparison of Grad-CAM
((a)original images; (b)without pretrained; (c)Cross-AVID; (d)ours)

图 3从左到右原始图像的真实动作标签分别为:棒球投掷、弹奏西塔琴、弹奏多尔鼓和乒乓球击球。对于Grad-CAM来说,越明亮的地方表明其梯度值越大,对于类别的贡献越大。图 3第1列,相比于视觉查询编码器未经预训练和视觉查询编码器经过Cross-AVID预训练后的监督网络,视觉查询编码器经过本文方法预训练后的监督网络更多地关注了棒球手的全身投掷准备动作,这些都是高层语义信息,是区分动作的重要信息源。第2列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了弹琴者的弹琴动作,而不是像Cross-AVID只是关注了一些边缘轮廓信息。第3列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了击鼓者的击鼓动作。第4列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了乒乓球运动员的击球动作。图 3表明, 经过本文方法预训练后,下游动作识别任务的监督网络更多地关注了高层语义信息。

2.2.2 视觉和听觉对抗性负样本质量的定性评估

在1.2节的音视频对抗对比学习梯度分析中,证明了视觉和听觉对抗性负样本可以跟踪难以区分的视听觉样本。本节通过可视化音视频对抗对比学习的音视频查询样本与视觉和听觉对抗性负样本的t-SNE(t-distributed stochastic neighbor embedding)图,定性分析了视觉和听觉对抗性负样本的质量。由于本文方法既有音视频模态间对抗对比学习,又有音视频模态内对抗对比学习,因此,将音视频查询样本与视觉和听觉对抗性负样本(在图 4(a)中简记为音视频对抗样本)组合在一起,绘制其t-SNE图,如图 4(a)所示。

图 4 音视频对抗对比学习的t-SNE图与跨模态音视频实例判别的t-SNE图对比
Fig. 4 Comparison of the t-SNE of audio-visual adversarial contrastive learning and the Cross-AVID
((a)ours; (b)Cross-AVID(visual); (c)Cross-AVID(audio))

将跨模态音视频实例判别(Cross-AVID)设置为对照方法。由于跨模态音视频实例判别仅仅使用了模态间对比学习,因此将视觉查询样本和从音频存储库中采样的负样本组合在一起,绘制其t-SNE图,如图 4(b)所示;将视觉查询向量和从音频存储库中采样的负样本组合在一起,绘制其t-SNE图,如图 4(c)所示。

图 4(a)(b)进行比较,可以发现本文方法获得的视觉对抗性负样本的分布更加均匀,呈椭圆状分布,而在Cross-AVID中,从音频存储库采样的负样本的分布却存在着小集群,即图 4(b)中红框所标区域。与图 4(c)进行比较,可以发现在Cross-AVID中,从视觉存储库采样的负样本分布不均匀,即图 4(c)中红框标注区域缺失了负样本。

图 4(b)(c)中存在的小集群以及缺失会使得Cross-AVID方法的负样本空间无法很好地覆盖到音视频查询样本。这会导致音视频查询样本与负样本很容易被区分。而通过本文方法获得的视觉和听觉对抗性负样本分布(图 4(a))呈椭圆形,较好覆盖到音视频查询样本。因此音视频查询样本与对抗性负样本不容易区分,有利于提高对比学习的质量。也就是说,视觉与听觉对抗性负样本在迭代过程中密切跟踪了视听觉样本,构建了一个更加高效的音视频负样本空间。

2.3 定量评估

将本文方法与音视频对应(AVC)和跨模态音视频实例判别(Cross-AVID)这两种音视频自监督学习方法进行比较。此外,设置了对抗对比学习(AdCo)作为视觉单模态的对照组。在相同的架构下,相比于视觉表示对比学习(SimCLR)、动量对比学习(MoCO v2)和基于聚类对比的对比学习SWAV(swapping assignments between views)等视觉自监督学习方法,AdCo在ImageNet数据集上的TOP1准确率更高(Hu等,2021)。本文还对1.3节中提出的简化(表 2中最后一行)进行了消融实验。

表 2 动作识别任务准确率(UCF)
Table 2 Action recognition task accuracy(UCF)

下载CSV
模型 预训练数据集 消融实验 下游动作识别任务(UCF-101)
简化对抗性负样本 视觉片段级别 视频级别
TOP1准确率Clip@1/% TOP5准确率Clip@5/% TOP1准确率Video@1/% TOP5准确率Video@5/%
无预训练 / × 28.57 55.54 31.50 60.07
有预训练 AdCo Kinetics-100K × 23.71 47.76 26.53 50.63
AVC Kinetics-100K × 29.71 57.55 33.43 61.81
Cross-AVID Kinetics-100K × 30.41 57.59 34.51 61.13
本文 Kinetics-100K × 30.63 59.54 34.86 63.87
本文(简化) Kinetics-100K 30.88 59.65 34.62 64.30
注:/表示未使用预训练数据集,×表示未采用,√表示采用,加粗字体表示各列最优结果。

2.3.1 动作识别任务

沿用定性评估搭建的下游监督网络和优化设置在UCF-101上进行定量评估,得到视觉片段级别的TOP1准确率和TOP5准确率。通过对同一视频的10个视觉片段的预测值(预测为各个类别的值,大小为0~1之间)求平均,给出了视频级别的TOP1和TOP5准确率。其中的TOP1准确率是指预测值最高的那一类为真实标签的准确率,而TOP5准确率则是指预测的前5类中存在真实标签的准确率。

表 2比较了各种音视频自监督表征学习方法预训练的迁移效果。在相同实验设置下,基于视觉单模态的自监督表征学习方法AdCo在各项指标上均低于基于音视频多模态的自监督表征学习方法(AVC、Cross-AVID、本文),这说明基于音视频多模态的方法学习到了更加高质量的信息(Huang等,2021),因此在下游迁移任务上的效果也更好。比较3种基于音视频多模态的自监督表征学习方法,本文方法在视觉片段级别的TOP1和TOP5准确率以及视频级别的TOP1和TOP5准确率上均达到了最优效果。与跨模态音视频实例判别(Cross-AVID)方法相比,视觉片段级别的TOP1准确率高出了0.47%,视觉片段级别的TOP5准确率高出了2.06%;视频级别的TOP1准确率高出了0.35%,视频级别的TOP5准确率高出3.17%。音视频对应(AVC)方法除了在视频级别的TOP5准确率上比跨模态音视频实例判别(Cross-AVID)方法高0.68%以外,其他指标均低,这是由于跨模态音视频实例判别(Cross-AVID)学习还包含了同一视频的不同时间点的负样本片段,因此隐含有音视频时间同步这一约束条件,是一个更为困难的对比学习任务,可以学习到更优质的特征表示。而本文方法由于构建了更加高效的负样本空间,因此学习到的特征表示包含了更加丰富的音视频信息,在下游任务上的迁移效果更好。与无预训练直接进行动作识别的方法相比,3种音视频多模态自监督表征学习方法在各项指标上均有提升,这说明了其有效性。与此同时,虽然AdCo在ImageNet的TOP1准确率上效果优于SimCLR、MoCO v2和SWAV等视觉自监督学习方法(Hu等,2021),但是AdCo在动作识别UCF数据集上准确率指标值却均低于未经预训练的方法的指标值,这可能是因为AdCo采用了与3种音视频多模态自监督表征学习方法相同的实验设置,而它需要更多的训练批次。

此外,在HMDB动作识别数据集上进行了测试。将预训练得到的视觉编码器组的视觉查询编码器作为前端,下游网络设置了3层全连接层和1层softmax层来映射至20类,采用Adam优化器来优化网络,学习率设置为0.000 1,动量设置为0.9,批处理大小设置为64,训练批次设置为8。由于类别数为20,TOP5准确率意义不大,因此表 3中给出视觉片段级别和视频级别的TOP1准确率。

表 3 动作识别任务准确率(HMDB)
Table 3 Action recognition task accuracy(HMDB)

下载CSV
模型 预训练数据集 消融实验 下游动作识别任务(HMDB)
简化对抗性负样本 视觉片段级别TO1准确率Clip@1/% 视频级别TO1准确率Video@1/%
无预训练 / × 26.70 28.67
有预训练 AdCo Kinetics-100K × 29.00 31.15
AVC Kinetics-100K × 29.43 32.33
Cross-AVID Kinetics-100K × 30.09 32.00
本文 Kinetics-100K × 30.15 32.83
本文(简化) Kinetics-100K 30.98 32.50
注:/表示未使用预训练数据集,×表示未采用,√表示采用,加粗字体表示各列最优结果。

通过表 3可以看到,在相同的实验条件下,本文方法在HMDB动作识别数据集上达到了最优效果。相比于Cross-AVID方法,本文方法在视觉片段级别的TOP1准确率和视频级别的TOP1准确率上分别高了0.89%和0.83%。AdCo的视觉片段级别和视频级别的TOP1准确率比无预训练的准确率分别高了2.3%和2.48%,这可能是因为对动作识别HMDB数据集来说,AdCo的预训练是充分的。

表 2表 3的最后两行分别在UCF和HMDB动作识别数据集上进行了改进措施的消融实验。比较表 2最后两行的数据,在UCF动作识别数据集上,对比本文方法在简化前和简化后的表现,视觉片段级别和视频级别的TOP1准确率相差不超过0.25%,视觉片段级别和视频级别的TOP5准确率相差不超过0.5%。比较表 3最后两行的数据,在HMDB动作识别数据集上,对比本文方法在简化前和简化后的表现,视觉片段级别的TOP1准确率差值超过0.5%。这可能是由于HMDB数据集的动作幅度大,导致视觉片段级别的准确率波动大。视频级别准确率通过对视觉片段的预测值取平均后得出。可以看到,视频级别的TOP1准确率相差不超过0.25%。在这两个数据集上的消融实验结果说明了简化对抗性负样本这一措施在减少了一半对抗性负样本的同时保证了精度。

2.3.2 音频分类任务

在环境声音ESC数据集上,对本文方法得到的包含视觉信息的听觉特征进行评估。具体来说,将预训练得到的音频编码器组的音频查询编码器作为前端,下游网络设置了3层全连接层和1层softmax层,映射至25类。采用了Adam优化器对网络进行优化,学习率设置为0.000 1,动量设置为0.9,批处理大小设置为64,训练批次设置为8。由于AdCo是纯视觉预训练方法,因此本文选用了音视频对应AVC方法和跨模态音视频实例判别学习Cross-AVID方法作为音频分类任务的对照组。

表 4中报告了音频片段级别和音频级别的TOP1准确率。通过对同一音频的10个音频片段的预测值(预测为各个类别的值,大小为0到1之间)求平均,计算得到音频级别的TOP1准确率。

表 4 音频分类任务准确率(ESC)
Table 4 Audio classification task accuracy(ESC)

下载CSV
模型 预训练数据集 下游音频分类任务(ESC)
音频片段级别TOP1准确率Clip@1/% 音频级别TOP1准确率Audio@1/%
无预训练 - 45.37 52.40
有预训练 AVC Kinetics-100K 51.35 61.06
Cross-AVID Kinetics-100K 52.92 62.02
本文 Kinetics-100K 54.48 64.90
注:-表示未使用预训练数据集,加粗字体表示各列最优结果。

通过表 4可以看到,本文方法效果优于无预训练的方法。这证明了本文方法的有效性。相比于各类音视频自监督表示学习方法,本文提出的方法达到了最优效果。具体来说,相比于跨模态音视频实例判别学习Cross-AVID,在音频片段级别的TOP1准确率上高出了1.56%,在音频级别的TOP1准确率上高出了2.88%。相比于音视频对应学习AVC,在音频片段级别的TOP1准确率上高出了3.13%,在音频级别的TOP1准确率上高出了3.84%。

2.4 音视频对抗对比学习训练架构分析

在本节中,通过增加音视频对抗对比学习的网络架构的深度,测试了其在不同深度网络架构上的表现。

音视频对抗对比学习的视觉架构从2层拓展到了18层,新增加的16层使用了R(2+1)D卷积层(Tran等,2018),最后的3层全连接层保留。音视频架构从2层标准2D卷积神经网络拓展到了10层2D卷积神经网络,最后的3层全连接层也仍然保留。由于深层网络架构的训练参数远大于浅层网络架构,为了保证深层网络和浅层网络架构具有可比性,深层网络优化参数中的批处理大小设置为32,下游训练批次设置为7,其余优化参数与2.1.3节设置的一致。

下游动作识别任务数据集选用UCF数据集。经过预训练后,在下游动作识别监督网络上进行迁移学习,优化参数与2.3.1节中设置的一致。最终得到了音视频对抗对比学习分别在浅层网络架构和深层网络架构上的视觉片段级别的TOP1准确率、TOP5准确率和视频级别的TOP1准确率、TOP5准确率,如图 5左侧4组柱状图所示。在图 5右侧还绘制了不同架构的参数数目对比的柱状图。

图 5 不同深度网络架构下的音视频对抗对比学习的学习效果比较
Fig. 5 Comparison of the learning effects of audio-visual adversarial contrast learning under different deep network architectures

图 5第5组所示,深层网络架构参数比浅层网络架构参数多出一千万个左右。通过图 5左侧4组可以看到,深层网络架构下的学习效果均优于浅层网络架构下的学习效果,在视觉片段级别的TOP1准确率上高出了2.59%,在视觉片段级别的TOP5准确率上高出了5.87%;在视频级别的TOP1准确率上高出了3.48%,在视频级别的TOP5准确率上高出了5.44%。准确率的提升说明本文方法通过加深网络架构得到了更好的效果,并且还有很大的提升空间。

3 结论

本文的主要研究内容是面向多模态自监督特征融合的音视频对抗对比学习方法。通过创新性地引入视觉和听觉对抗性负样本和音视频模态内与模态间相联合的对抗对比学习方式,使得视听觉对抗性负样本可以不断跟踪难以区分的样本,构建了更加高效的音视频负样本空间,提高了音视频对比学习的学习质量。在此基础上,提出了采用视听觉对抗性负样本来代替视觉对抗性负样本和听觉对抗性负样本,简化框架的同时保持了性能。

在相同条件下与Cross-AVID等方法比较,本文提出的音视频对抗对比学习方法在动作识别和音频分类上的各项指标均达到了最优效果。本文方法存在的不足有:通过增加网络深度,得到了更好的性能,说明存在很大的提升空间。此外,本文采用了整个负样本空间用做对比学习,一些与正样本互相关性高的负样本做出的贡献可能有限(Morgado等,2021b)。

下一步的工作可以在本文搭建的音视频负样本空间的基础上,探索高效的负样本选择策略,提高特征融合质量。本文方法具有广泛的应用场景,例如音源定位、视听语音分离等音视频相关的下游任务。

参考文献

  • Abdi H, Williams L J. 2010. Principal component analysis. WIREs Computational Statistics, 2(4): 433-459 [DOI:10.1002/wics.101]
  • Alayrac J B, Recasens A, Schneider R, Arandjelovic' R, Ramapuram J, De Fauw J, Smaira L, Dieleman S and Zisserman A. 2020. Self-supervised multimodal versatile networks//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc. : #3
  • Arandjelovic' R and Zisserman A. 2017. Look, listen and learn//Proceedings of the International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 609-617 [DOI: 10.1109/ICCV.2017.73]
  • Arandjelovic' R and Zisserman A. 2018. Objects that sound//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 451-466 [DOI: 10.1007/978-3-030-01246-5_27]
  • Asano Y M, Patrick M, Rupprecht C and Vedaldi A. 2020. Labelling unlabelled videos from scratch with multi-modal self-supervision//Advances in Neural Information Processing Systems. Online: Curran Associates, Inc. : 4660-4671
  • Chen T, Kornblith S, Norouzi M and Hinton G E. 2020. A simple framework for contrastive learning of visual representations//Proceedings of the 37th International Conference on Machine Learning. [s. l. ]: PMLR: 1597-1607
  • Chen Y B, Xian Y Q, Koepke A S, Shan Y and Akata Z. 2021. Distilling audio-visual knowledge by compositional contrastive learning//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE: 7012-7021 [DOI: 10.1109/CVPR46437.2021.00694]
  • Doersch C, Gupta A and Efros A A. 2015. Unsupervised visual representation learning by context prediction//Proceedings of the International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE: 1422-1430 [DOI: 10.1109/ICCV.2015.167]
  • Du H Y, Zhang J, Wang W J. 2020. A deep self-supervised clustering ensemble algorithm. CAAI Transactions on Intelligent Systems, 15(6): 1113-1120 (杜航原, 张晶, 王文剑. 2020. 一种深度自监督聚类集成算法. 智能系统学报, 15(6): 1113-1120) [DOI:10.11992/tis.202006050]
  • Fernando B, Bilen H, Gavves E and Gould S. 2017. Self-supervised video representation learning with odd-one-out networks//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 5729-5738 [DOI: 10.1109/CVPR.2017.607]
  • Hadsell R, Chopra S and LeCun Y. 2016. Dimensionality reduction by learning an invariant mapping//Proceedings of 2016 Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE: 1735-1742 [DOI: 10.1109/CVPR.2006.100]
  • Han T D, Xie W D and Zisserman A. 2019. Video representation learning by dense predictive coding//Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Seoul, Korea (South): IEEE: 1483-1492 [DOI: 10.1109/ICCVW.2019.00186]
  • He K M, Fan H Q, Wu Y X, Xie S N and Girshick R. 2020. Momentum contrast for unsupervised visual representation learning//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE: 9726-9735 [DOI: 10.1109/CVPR42600.2020.00975]
  • Heffner R S and Heffner H E. 1992. Evolution of sound localization in mammals//Webster D B, Popper A N and Fay R R, eds. The Evolutionary Biology of Hearing. New York, USA: Springer: 691-715 [DOI: 10.1007/978-1-4612-2784-7_43]
  • Hénaff O J. 2020. Data-efficient image recognition with contrastive predictive coding//Proceedings of the International Conference on Machine Learning. [s. l. ]: PMLR: 4182-4192
  • Hinton G E, Salakhutdinov R R. 2006. Reducing the dimensionality of data with neural networks. Science, 313(5786): 504-507 [DOI:10.1126/science.1127647]
  • Hjelm R D, Fedorov A, Lavoie-Marchildon S, Grewal K, Bachman P, Trischler A and Bengio Y. 2019. Learning deep representations by mutual information estimation and maximization//Proceeding of the 7th International Conference on Learning Representations. New Orleans, USA: OpenReview. net
  • Ho C H and Vasconcelos N. 2020. Contrastive learning with adversarial examples//Proceedings of the 34th International Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada: Curran Associates Inc. : #1433
  • Hu Q J, Wang X, Hu W and Qi G J. 2021. AdCo: adversarial contrast for efficient learning of unsupervised representations from self-trained negative adversaries//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE: 1074-1083 [DOI: 10.1109/CVPR46437.2021.00113]
  • Huang Y, Du C Z, Xue Z H, Chen X Y, Zhao H and Huang L B. 2021. What makes multi-modal learning better than single (Provably)//Proceedings of the 35th Conference on Neural Information Processing Systems. [s. l. ]: [s. n. ]: 10944-10956
  • Ji X, Vedaldi A and Henriques J F. 2019. Invariant information clustering for unsupervised image classification and segmentation//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 9864-9873 [DOI: 10.1109/ICCV.2019.00996]
  • Kalantidis Y, Sariyildiz M B, Pion N, Weinzaepfel P and Larlus D. 2020. Hard negative mixing for contrastive learning//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc. : #1829
  • Kay W, Carreira J, Simonyan K, Zhang B, Hillier C, Vijayanarasimhan S, Viola F, Green T, Back T, Natsev P, Suleyman M and Zisserman A. 2017. The kinetics human action video dataset [EB/OL]. [2021-02-28]. https://arxiv.org/pdf/1705.06950.pdf
  • Kingma D P and Welling M. 2014. Auto-encoding variational bayes//Proceedings of the 2nd International Conference on Learning Representations. Banff, Canada: OpenReview. net
  • Korbar B, Tran D and Torresani L. 2018. Cooperative learning of audio and video models from self-supervised synchronization//Proceedings of the 32nd International Conference on Neural Information Processing Systems (NeurIPS). Montréal, Canada: Curran Associates Inc. : 7774-7785
  • Kuehne H, Jhuang H, Garrote E, Poggio T and Serre T. 2011. HMDB: a large video database for human motion recognition//Proceedings of the International Conference on Computer Vision. Barcelona, Spain: IEEE: 2556-2563 [DOI: 10.1109/ICCV.2011.6126543]
  • Lamba J, Abhishek, Akula J, Dabral R, Jyothi P and Ramakrishnan G. 2021. Cross-modal learning for audio-visual video parsing//Proceedings of the 22nd Annual Conference of the International Speech Communication Association. Brno, Czechia: ISCA: 1937-1941
  • Lee H, Battle A, Raina R and Ng A Y. 2006. Efficient sparse coding algorithms//Proceedings of the 19th International Conference on Neural Information Processing Systems. Vancouver, Canada: MIT Press: 801-808
  • Li J N, Zhou P, Xiong C M and Hoi S C H. 2021. Prototypical contrastive learning of unsupervised representations//Proceedings of the 9th International Conference on Learning Representations. [s. l. ]: OpenReview. net
  • Ma S, Zeng Z Y, McDuff D and Song Y L. 2021. Active contrastive learning of audio-visual video representations//Proceedings of the 9th International Conference on Learning Representations. [s. l. ]: OpenReview. net
  • Misra I and van der Maaten L. 2020. Self-supervised learning of pretext-invariant representations//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE: 6706-6716 [DOI: 10.1109/CVPR42600.2020.00674]
  • Mobahi H, Collobert R and Weston J. 2009. Deep learning from temporal coherence in video//Proceedings of the 26th Annual International Conference on Machine Learning. Montréal, Canada: ACM: 737-744 [DOI: 10.1145/1553374.1553469]
  • Morgado P, Li Y and Vasconcelos N. 2020. Learning representations from audio-visual spatial alignment//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc. : #397
  • Morgado P, Misra I and Vasconcelos N. 2021a. Robust audio-visual instance discrimination//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE: 12929-12940 [DOI: 10.1109/CVPR46437.2021.01274]
  • Morgado P, Vasconcelos N and Misra I. 2021b. Audio-visual instance discrimination with cross-modal agreement//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE: 12470-12481 [DOI: 10.1109/CVPR46437.2021.01229]
  • Myklebust H R. 1960. Psychology of Deafness, The-Sensory Deprivation, Learning, and Adjustment. New York, USA: Grune and Stratton
  • Olshausen B A. 2002. Sparse coding of time-varying natural images. Journal of Vision, 2(7): #130 [DOI:10.1167/2.7.130]
  • Olshausen B A, Field D J. 1996. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381(6583): 607-609 [DOI:10.1038/381607a0]
  • Owens A and Efros A A. 2018. Audio-visual scene analysis with self-supervised multisensory features//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 639-658 [DOI: 10.1007/978-3-030-01231-1_39]
  • Owens A, Wu J J, McDermott J H, Freeman W T and Torralba A. 2016. Ambient sound provides supervision for visual learning//Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, the Netherlands: Springer: 801-816 [DOI: 10.1007/978-3-319-46448-0_48]
  • Patrick M, Asano Y M, Kuznetsova P, Fong R, Henriques J F, Zweig G and Vedaldi A. 2021. Multi-modal self-supervision from generalized data transformations//Proceedings of the International Conference on Learning Representations. [s. l. ]: OpenReview. net
  • Piczak K J. 2015. ESC: dataset for environmental sound classification//Proceedings of the 23rd ACM international conference on Multimedia. Brisbane, Australia: ACM: 1015-1018 [DOI: 10.1145/2733373.2806390]
  • Piergiovanni A J, Angelova A and Ryoo M S. 2020. Evolving losses for unsupervised video representation learning//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE: 130-139 [DOI: 10.1109/CVPR42600.2020.00021]
  • Risto N. 1992. Attention and Brain Function. London, England: Routledge [DOI: 10.4324/9780429487354]
  • Sanguineti V, Morerio P, Pozzetti N, Greco D, Cristani M and Murino V. 2020. Leveraging acoustic images for effective self-supervised audio representation learning//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 119-135 [DOI: 10.1007/978-3-030-58542-6_8]
  • Shams L, Kim R. 2010. Crossmodal influences on visual perception. Physics of Life Reviews, 7(3): 269-284 [DOI:10.1016/j.plrev.2010.04.006]
  • Shukla A, Petridis S and Pantic M. 2020. Learning speech representations from raw audio by joint audiovisual self-supervision//Proceedings of the 37th International Conference on Machine Learning. Vienna, Austria: OpenReview. net
  • Soomro K, Zamir A R and Shah M. 2012. UCF101: a dataset of 101 human actions classes from videos in the wild [EB/OL]. [2021-02-28]. https://arxiv.org/pdf/1212.0402.pdf
  • Stone J V. 2004. Independent Component Analysis: A Tutorial Introduction. London, England: The MIT Press [DOI: 10.7551/mitpress/3717.001.0001]
  • Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1-9 [DOI: 10.1109/CVPR.2015.7298594]
  • Tian Y L, Krishnan D and Isola P. 2020. Contrastive multiview coding//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 776-794 [DOI: 10.1007/978-3-030-58621-8_45]
  • Tran D, Wang H, Torresani L, Ray J, LeCun Y and Paluri M. 2018. A closer look at spatiotemporal convolutions for action recognition//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6450-6459 [DOI: 10.1109/CVPR.2018.00675]
  • van den Oord A, Kalchbrenner N and Kavukcuoglu K. 2016. Pixel recurrent neural networks//Proceedings of the 33nd International Conference on Machine Learning. New York, USA: JMLR. org: 1747-1756
  • van den Oord A, Li Y Z and Vinyals O. 2018. Representation learning with contrastive predictive coding [EB/OL]. [2021-02-28]. https://arxiv.org/pdf/1807.03748v1.pdf
  • Wu Z R, Xiong Y J, Yu S X and Lin D H. 2018. Unsupervised feature learning via non-parametric instance discrimination//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 3733-3742 [DOI: 10.1109/CVPR.2018.00393]
  • Zbontar J, Jing L, Misra I, LeCun Y and Deny S. 2021. Barlow twins: self-supervised learning via redundancy reduction//Proceedings of the 38th International Conference on Machine Learning. [s. l. ]: PMLR: 12310-12320
  • Zhuang C X, Zhai A and Yamins D. 2019. Local aggregation for unsupervised learning of visual embeddings//Proceedings of 2019 IEEE/CVF Conference on Computer Vision. Seoul, Korea (South): IEEE: 6001-6011 [DOI: 10.1109/ICCV.2019.00610]