发布时间: 2023-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210607
2023 | Volume 28 | Number 2

医学图像处理

面向脑核磁共振识别运动任务的门控循环单元方法

袁振, 侯玉亮, 杜宇慧

山西大学计算机与信息技术学院, 太原 030006

收稿日期: 2021-08-10; 修回日期: 2022-01-24; 预印本日期: 2022-01-31

基金项目: 国家自然科学基金项目（62076157，61703253）；山西省留学人员科技活动择优资助项目（20210033）；山西省“1331工程”项目

作者简介: 袁振, 男, 硕士研究生, 主要研究方向为深度学习和脑影像分析。E-mail: 1163660010@qq.com
侯玉亮, 男, 硕士研究生, 主要研究方向为深度学习和医学影像处理。E-mail: yulianghou@aliyun.com
杜宇慧, 通信作者, 女, 教授, 主要研究方向为脑影像分析、数据挖掘、模式识别、医学图像处理。E-mail: duyuhui@sxu.edu.cn
*通信作者: 杜宇慧 duyuhui@sxu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2023)02-0589-12

摘要

目的在脑科学领域，已有研究借助脑功能核磁共振影像数据（functional magnetic resonance imaging，fMRI）探索和区分人类大脑在不同运动任务下的状态，然而传统方法没有充分利用fMRI数据的时序特性。对此，本文提出基于fMRI数据计算的全脑脑区时间信号（time course，TC）的门控循环单元（gated recurrent unit，GRU）方法（TC-GRU）进行运动任务分类。方法基于HCP（human connectome project）数据集中的100个健康被试者在5种运动任务中分两轮采集的1 000条fMRI数据，对每种运动任务计算每个被试者在各脑区（共360个脑区）的时间信号；使用10折交叉验证方案基于训练集和验证集训练TC-GRU模型，并用构建好的模型对测试集进行测试，考察其对5种运动任务的分类能力，其中TC-GRU在各时刻的输入特征为全脑脑区在对应时刻的TC信号幅值，通过这样的方式提取全脑脑区在整个时间段的时序特征。同时，为了展示使用TC-GRU模型可挖掘fMRI数据中更丰富的信息，设计了多个对比实验进行比较，利用长短期记忆网络（long short-term memory，LSTM）、图卷积网络（graph convolutional network，GCN）和多层感知器（multi-layer perceptron，MLP）基于全脑脑区时间信号进行运动任务分类，以及利用MLP基于由fMRI数据估计的脑功能连接进行运动任务分类。此外，考察了先验的特征选择对分类效果的效应。结果基于全脑脑区时间信号的TC-GRU模型在运动任务中的分类准确率最高，为94.51%±2.4%，其次是基于全脑脑区时间信号的LSTM模型，准确率为93.73%±2.67%。基于全脑脑区时间信号利用MLP进行分类，有先验和无先验的特征选择准确率分别为92.75%±2.59%和92.04%±7.15%，比基于全脑脑区时间信号的GCN（准确率为87.14%±3.73%）和基于脑功能连接利用MLP进行分类（有先验和无先验的特征选择准确率分别为72.47%±4.47%和61.49%±9.97%）表现更好。结论 TC-GRU模型可挖掘脑fMRI数据中丰富的时序信息，非常有效地对不同的运动任务进行分类。

关键词

脑功能核磁共振成像; 全脑脑区时间信号; 功能连接; 门控循环单元(GRU); 多层感知器(MLP); 运动任务分类

Gated recurrent unit method for motor tasks recognition using brain fMRI

Yuan Zhen, Hou Yuliang, Du Yuhui

School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China

Supported by: National Natural Science Foundation of China (62076157, 61703253); Fund Program for the Scientific Activities of Selected Returned Overseas Professionals in Shanxi Province (20210033); The 1331 Engineering Project of Shanxi Province

Abstract

Objective In the field of neuroscience, there have been studies using functional magnetic resonance imaging (fMRI) data to explore functions of the human brain and distinguish its states under different motor tasks. However, previous studies that focused on the brain state classification using task fMRI did not make full use of temporal characteristics of fMRI data. Here, we propose a method (named TC-GRU) that employs gated recurrent unit (GRU) to capture fine-grained features from time courses (TC) of whole-brain regions estimated from fMRI data for the classification of motor tasks. Method The fMRI data are gathered from 100 healthy subjects in the human connectome project (HCP) under 5 body-motion tasks (including left hand, right hand, left foot, right foot, and tongue motor) with 2 scanning operations, resulting in 1 000 samples for classifying the 5 motor tasks. First, for each sample, we calculate the average fMRI TC for each brain region as the representative TC of the brain region. The whole brain is divided into 360 brain regions according to the Glasser brain template. Then, using a 10-fold cross-validation framework (8:1:1 for the training set, the validation set, and the testing set) with 100 repetitions, the TC-GRU model is trained and optimized based on the training set and the validation set, and the model-trained is further applied to the testing set to examine its ability in classifying this 5 body motor tasks. In our TC-GRU model, the GRU is used to extract the temporal features in the TCs of the brain regions, and a linear classifier is used for classification based on the temporal features. Specifically, at a certain moment, the inputs of the GRU model are the TC amplitudes of the whole-brain regions at that moment as well as the temporal features of the past moments captured by the GRU model, and the GRU model fuses the inputs and produces the temporal features at the current time. This process continues until the last moment to generate temporal features for the classification. In our work, we also compare the most state-of-the-art methods with the TC-GRU. The long short-term memory (LSTM), graph convolutional network (GCN), and multi-layer perceptron (MLP) are used to classify the motor tasks based on TCs of whole-brain regions as well as brain functional connectivity measures estimated by the fMRI data. Furthermore, we examine the effects of prior feature selection and no feature selection on the classification performance. It is noteworthy that a consistent 10-fold cross-validation framework is used for multiple methods and the overall classification accuracy is summarized through 100 cross-validation tests. The overall classification accuracy is the mean classification accuracy, and the performance stability is reflected by the standard deviation of the classification accuracy. Result The highest ranking of the classification accuracy (accuracy: 94.51%±2.4%) can be achieved via the TC-GRU method, and the second rank is the LSTM using TC information (accuracy: 93.73%±2.67%). Using MLP based on the TCs of whole-brain regions (accuracy from the experiments with prior feature selection and without prior feature selection is 92.75%±2.59% and 92.04%±7.15%, respectively) is better than using GCN (accuracy: 87.14%±3.73%) based on the TCs of whole-brain regions and MLP based on the brain functional connectivity measures (accuracy from experiments with prior feature selection and without prior feature selection is 72.47%±4.47% and 61.49%±9.97%, respectively). Conclusion To the best of our knowledge, this paper is the first time to distinguish different human brain motor tasks using GRU based on time courses of the whole-brain regions. Our results support that the TC-GRU method outperforms six state-of-the-art methods on human brain motor task classification because that the TC-GRU can mine more useful information in the brain fMRI data. In summary, our finding suggests the importance of utilizing temporal information of fMRI data to decode the complex brain.

Key words

brain functional magnetic resonance imaging; whole-brain time courses; functional connectivity; gated recurrent unit (GRU); multi-layer perceptron(MLP); motor task classification

0 引言

在脑科学领域，人们一直致力于理解人类大脑的功能(Yarkoni等，2011；杨志和左西年，2015)。借助计算机认识人类大脑是流行的手段之一，原理是通过大脑的活动信息解码大脑。近年来，越来越多的研究者使用血氧水平依赖性功能核磁共振成像(functional magnetic resonance imaging，fMRI)技术探索脑功能(Anzellotti和Coutanche，2018；Hebart和Baker，2018)。fMRI的原理是脑活动区域局部血液中氧合血红蛋白与去氧血红蛋白比例的变化引起局部组织中T2的变化，从而可以在T2加权图像上反映脑组织的局部活动功能。该技术的非侵入性和无辐射的优点是其备受青睐的重要原因。

分析处于不同任务状态时的大脑fMRI影像数据，并探索基于大脑影像数据区分大脑所处的不同任务状态有助于研究人员更好地获知大脑中思想、感觉与行为的奥秘，也有利于进一步推动fMRI成像在精神疾病临床诊断和治疗中的应用(Barch等，2013)。基于利用fMRI技术获取的数据，已有研究使用脑影像测度进行大脑处于不同任务状态时的任务分类。简而言之，研究者可以通过任务态fMRI数据提取脑影像测度，利用脑影像测度训练分类模型，使用训练好的模型即可基于新的任务态下收集到的fMRI数据识别出大脑处于什么样的任务。关于任务态fMRI数据，通常可以利用两种脑影像测度。第1种测度是体素或不同脑区(脑区也称感兴趣区)的fMRI时间信号；第2种测度是反映不同脑区交互关系的脑功能连接。

在已有的基于任务态fMRI数据进行大脑任务分类的相关研究中，更多的研究集中于使用fMRI时间信号进行分类。Mensch等人(2017)利用多个站点的fMRI时间信号使用迁移学习对不同的认知状态进行分类。尽管各站点的数据涵盖的认知状态并不完全相同，但是通过迁移学习可以很好地将fMRI时间信号的特征提取出来，其在部分站点的分类结果达到了91%左右。Gao等人(2019)运用迁移学习，将基于自然图像训练的卷积神经网络(convolutional neural network, CNN)迁移到基于fMRI数据的认知状态分类，对7种认知状态的分类准确率达到75.2%。Thomas等人(2019)利用迁移学习，基于fMRI数据在7种认知状态的分类准确率最高为81.91%。Zhang等人(2021)针对fMRI时间信号提出运用图卷积网络(graph convolutional networks, GCN)进行大脑21种任务的分类。该方法将脑区作为图的节点，将fMRI时间信号作为图的节点特征来区分6个认知状态下的21种任务，准确率达到90%。Wang等人(2020)针对fMRI时间信号提出一种3维空间的卷积神经网络(3D-CNN)模型，对7种大脑认知状态进行分类，分类准确率达到了93.7%。Qi等人(2021)针对fMRI时间信号提出具有注意力机制的3D-CNN网络，在分类7种大脑认知状态时，分类准确率最高为88.69%。这些研究表明，利用fMRI时间信号探索大脑认知状态有很大潜力。

已有的使用脑功能连接测度进行大脑任务分类的工作并不多。Gonzalez-Castillo等人(2015)利用不同时间窗口下的任务态fMRI数据估计的脑功能连接测度对大脑的记忆、数值计算和视觉注意3种任务状态进行分类，结果表明设定大于22.5 s的时间窗口进行任务状态的分类是可行的，但该方法关于视觉注意任务的分类在不同时间窗口的分类准确率都小于70%，总体分类准确率小于90%。

虽然以上针对大脑在不同任务的分类研究都取得了不错的分类效果，但是这些研究都没有有效利用任务态fMRI数据中的时序信息。本文提出一种基于门控循环单元(gated recurrent unit，GRU)(Cho等，2014)的模型捕获任务态fMRI数据中更细粒的时序特征，并直接用该特征区分不同的运动任务。GRU是循环神经网络的一个变体，尽管循环神经网络在时序数据的处理和应用上已表现出巨大潜力，但是使用循环神经网络分析大脑运动功能的工作很少，本文是首次利用GRU模型基于全脑脑区时间信号进行人脑运动任务的工作。本文方法有效提取并利用了任务态fMRI数据的时序信息，极大提高了不同运动任务分类的准确率。

1 方法

1.1 数据

1.1.1 数据来源和描述

本文使用HCP(human connectome projects)数据集中100个健康被试者在5种运动任务下的任务态fMRI数据(https://db.humanconnectome.org/data/projects/HCP_1200)。该数据集是在3T Siemens Skyra上使用梯度回波EPI(echo planar imaging)序列采集的，采集参数为$TR$ = 720 ms，$TE$ = 33.1 ms，翻转角度为52°，视野(field of view，FOV)= 208 mm × 180 mm，72层，2.0 mm各向同性体素。

在数据采集时，每个被试者按要求进行5种运动任务，依次为左手、右手、左脚、右脚和舌头的移动，共进行两轮。每种运动任务都持续12 s，前后运动任务之间设有时间间隔。本文的目的是利用任务态fMRI数据实现不同运动任务的识别(即分类)。fMRI数据预处理由美国HCP团队完成，步骤主要包括头骨去除、运动校正、切片时间校正、空间标准化、空间平滑和时间信号去趋势等(Barch等，2013；Glasser等，2013)。

1.1.2 脑影像测度计算

本文从预处理后的任务态fMRI数据中估计了多种脑影像测度(包括全脑脑区的时间信号和脑功能连接)，这些测度将用于运动任务的分类。

从上可知，100个被试者在5种运动任务进行两轮后的任务态fMRI数据共1 000条(100个被试者× 5种运动任务× 2轮= 1 000条)。被试者的任务态fMRI数据都通过Glasser脑模板(Glasser等，2016)分割对应到360个不同的脑区，每个脑区的时间信号(time course，TC)用该脑区内所有体素时间信号的平均信号来代表。依照此方式进行分析，每条任务态fMRI数据包含360个脑区的时间信号，且每条数据仅对应一种运动任务。值得注意的是，因为$TR$=0.72 s，为了使每条任务态fMRI数据完整地囊括该任务的信息(每种运动任务都持续了12 s)，令每条任务态fMRI数据里的每个脑区信号为17个时间点(0.72 s×17=12.24 s)。

为了方便，用$\boldsymbol{D}_1=\left\{\left(\boldsymbol{X}^i, y^i\right)\right\}_{i=1}^{1000}$表示从任务态fMRI数据中提取的全脑脑区时间信号数据，其中$\left(\boldsymbol{X}^i, y^i\right)$为第$i$条全脑脑区时间信号和其运动任务对应的标签。由于全脑分割为360个脑区，每个脑区对应时间点为17的时间信号，所以$\boldsymbol{X}^i \in \mathbf{R}^{360 \times 17}$。标签$y^{i}$=1, 2, …, 5对应5种运动任务。在本文提出的基于门控循环单元的运动任务分类方法中，使用不同运动任务对应的${{\boldsymbol{X}}^{i}}$作为特征进行分类。

为了与基于GRU的方法进行比较，共进行6项对比实验。其中，4项实验使用了全脑脑区的时间信号测度，在这4项实验中，1项实验将${{\boldsymbol{X}}^{i}}$包含的不同脑区的时间信号串联成一行，即转变为一个向量$\boldsymbol{x}^i \in \mathbf{R}^{6120 \times 1}$，对${{\boldsymbol{X}}^{i}}$测度进行特征选择并采用特征选择后的特征进行分类。本文将该实验利用的数据记为$\boldsymbol{D}_2=\left\{\left(\boldsymbol{x}^i, y^i\right)\right\}^{1000}$。另外3项实验采用的测度也为${{\boldsymbol{X}}^{i}}$，即使用${{\boldsymbol{X}}^{i}}$的各个行向量作为输入特征。在本文的6项对比实验中，另外两项对比实验使用基于全脑脑区时间信号进一步计算得到的脑功能连接测度作为输入。脑功能连接反映了大脑中不同脑区的整合和交互关系，常常基于不同脑区的时间信号进行相关性计算而得。本文用${\mathit{\boldsymbol{D}}_3} = \{ (\mathit{\boldsymbol{F}}{\mathit{\boldsymbol{C}}^i}, {y^i})\} _{i = 1}^{1000}$表示脑功能连接数据，其中脑功能连接$\boldsymbol{F} \boldsymbol{C}^i$的计算式为

$ \boldsymbol{F} \boldsymbol{C}^i=g_{\text {coor }}\left(\boldsymbol{X}^i\right) $

(1)

式中，${{g}_{\text{coor }}}$表示基于${{\boldsymbol{X}}^{i}}$计算任意两个脑区对应的时间信号之间的皮尔逊相关系数。由此得到的$\boldsymbol{F} \boldsymbol{C}^i$为一个大小为360 × 360的矩阵，$\boldsymbol{F} \boldsymbol{C}^i$的任意一个元素反映了两个脑区之间的功能连接强度。本文的一项对比实验采用$\boldsymbol{F} \boldsymbol{C}^i$的各个行向量作为特征进行分类实验。由于$\boldsymbol{F} \boldsymbol{C}^i$为一个对称矩阵，另一项对比实验将$\boldsymbol{F} \boldsymbol{C}^i$上三角部分元素(不包括对角线元素)串联成一行，即转变为一个向量$\boldsymbol{u}^i \in \mathbf{R}^{64620 \times 1}$，对$\boldsymbol{u}^i$测度进行特征选择并采用特征选择后的特征进行分类实验。本文将该实验利用的数据记为${\mathit{\boldsymbol{D}}_4} = \left\{ {\left({{\mathit{\boldsymbol{u}}^i}, {y^i}} \right)} \right\}_{i = 1}^{1000}{\rm{ }}$。

1.2 基于门控循环单元的人脑运动任务状态分类方法

循环神经网络(recurrent neural network, RNN)在处理序列数据上非常有效(庄连生等，2019)。为了解决模型训练过程中的梯度消失难题，长短期记忆网络(long short-term memory, LSTM)和GRU模型相继提出并广泛运用于文本分析(Sutskever等，2014；刘婉婉等，2018；谭咏梅等，2018)。GRU和LSTM都是使用门控单元结构控制信息流动。其中，GRU比LSTM模型更为简洁，参数更少，但是却仍然能有效地处理复杂任务。从编码的角度对GRU模型处理序列数据的过程进行分析，简而言之，GRU模型融合序列数据在某个时刻和在此之前的信息得到该时刻的编码信息，如此迭代，在最后时刻得到可以用来表示整段序列的最终编码。

由于全脑脑区的时间信号包含脑区随时间波动的信息，因此该测度具有很强的时序性，即某一脑区任意时刻的信号幅值理论上与该时刻之前的时刻的信号幅值是有关系的。为了捕获到这种关系(即时序特征)，本文基于GRU模型提出了可以提取全脑脑区时间信号中的时序特征并进行分类运动任务的TC-GRU模型。该模型分两步，首先利用GRU提取全脑脑区时间信号中的时序特征；随后基于该时序特征使用线性分类器进行分类。在某一时刻，将全脑脑区在该时刻对应的时间信号幅值和过往时刻GRU模型捕获的时序特征输入GRU模型，通过GRU模型再融合并编码当前时刻信号幅值和过往时刻的全脑脑区时间信号的时序特征，持续此过程直到最后时刻，通过GRU就提取了全部时刻全脑脑区时间信号的时序信息，如图 1所示。

图 1 基于全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$构建的TC-GRU模型

Fig. 1 TC-GRU model that used whole-brain regions related time courses ${\mathit{\boldsymbol{D}}_1}$

以${\mathit{\boldsymbol{D}}_1}$中第$i$条数据的${{\boldsymbol{X}}^{i}}$为例，GRU提取全脑脑区时间信号的时序特征的过程可以描述为

$ \begin{gathered} \boldsymbol{s}_j^i={R N} N_{\mathrm{GRU}}\left(\boldsymbol{s}_{j-1}^i, \boldsymbol{X}_j^i\right)= \\ \left(1-\boldsymbol{z}^i\right) \odot \boldsymbol{s}_{j-1}^i+\boldsymbol{z}^i \odot \tilde{\boldsymbol{s}}_j^i \end{gathered} $

(2)

$ {\boldsymbol{z}}^i=\sigma\left(\boldsymbol{X}_j^i \boldsymbol{W}^{x z}+\boldsymbol{s}_{j-1}^i \boldsymbol{W}^{s z}\right) $

(3)

$ \boldsymbol{r}^i=\sigma\left(\boldsymbol{X}_j^i \boldsymbol{W}^{x r}+{\boldsymbol{s}}_{j-1}^i \boldsymbol{W}^{s r}\right) $

(4)

$ \tilde{\boldsymbol{s}}_j^i=\tanh \left(\boldsymbol{X}_j^i \boldsymbol{W}^{x s}+\left(\boldsymbol{r}^i \odot \boldsymbol{s}_{j-1}^i\right) \boldsymbol{W}^{s g}\right) $

(5)

式中，$\boldsymbol{s}_{j-1}^i, \tilde{\boldsymbol{s}}_j^i \in \mathbf{R}^{d_s}, \boldsymbol{X}_j^i \in \mathbf{R}^{360 \times 1}, \boldsymbol{W}^{x z}, \boldsymbol{W}^{x s} \in \mathbf{R}^{360 \times d_s}$，$\boldsymbol{W}^{s z}, \boldsymbol{W}^{s r}, \boldsymbol{W}^{s g} \in \mathbf{R}^{d_s d_s}$。$\boldsymbol{W}^{xz}$和$\boldsymbol{W}^{sz}$为更新门的参数，$\boldsymbol{W}^{xr}$和$\boldsymbol{W}^{sr}$为重置门的参数，$\boldsymbol{W}^{xs}$和$\boldsymbol{W}^{sg}$为记忆门的参数，其维度${d_s}$由人为预先设定。$RNN_\text{GRU}$表示GRU模型，${\boldsymbol{X}}^{i}_{j}$表示${{\boldsymbol{X}}^{i}}$的$j$列，即第$j$时刻($j$=1, 2, …, $T$)输入到GRU的全脑脑区时间信号幅值，$\boldsymbol{X}_j^i \in \mathbf{R}^{360 \times 1}$。${\boldsymbol{s}}^{i}_{j}$为GRU提取的从1~$j$时刻整个时间段上全脑脑区时间信号的时序特征，$\tilde{\boldsymbol{s}}_j^i$为GRU提取的第$j$时刻全脑脑区时间信号的时序特征，${\mathit{\boldsymbol{z}}^i}$为控制信息流动的更新门，${\mathit{\boldsymbol{r}}^i}$为控制信息流动的重置门。为了确定${\boldsymbol{s}}^{i}_{j}$，GRU模型需要综合考虑$\tilde{\boldsymbol{s}}_j^i$和$\tilde{\boldsymbol{s}}_{j-1}^i$(式(2))。由于在实际应用中，GRU模型将$\tilde{\boldsymbol{s}}_1^i$, …, $\tilde{\boldsymbol{s}}_{j-1}^i$全部储存并被当前$j$时刻利用是不合实际的，所以设置${\mathit{\boldsymbol{z}}^i}$(式(3))控制利用多少$\tilde{\boldsymbol{s}}_j^i$和$\tilde{\boldsymbol{s}}_{j-1}^i$中的信息去计算得到$\tilde{\boldsymbol{s}}_j^i$，因此$\tilde{\boldsymbol{s}}_j^i$将作为所有$\tilde{\boldsymbol{s}}_1^i$, …, $\tilde{\boldsymbol{s}}_{j-1}^i$的一个表示。另外，GRU模型在提取$\tilde{\boldsymbol{s}}_{j}^i$时，相对于${\boldsymbol{X}}^{i}_{j}$，${\boldsymbol{s}}_{j-1}^i$中只有部分是可利用的。由此，模型依据${\boldsymbol{X}}^{i}_{j}$，用${\mathit{\boldsymbol{r}}^i}$决定${\boldsymbol{s}}_{j-1}^i$中多少信息会重置(式(4))。于是，$\tilde{\boldsymbol{s}}_j^i$综合了${\boldsymbol{X}}^{i}_{j}$和${\boldsymbol{s}}_{j-1}^i$中有用的部分(式(5))。

在$j=1$时，输入到GRU模型的初始全脑脑区时间信号的时序特征为随机化的特征。于是按照式(2)—式(5)描述的过程，本文通过GRU模型得到了$j=1$时刻的时序特征${\boldsymbol{s}}_\text{1}$，并将该特征传递到下一个时刻的GRU中。此过程一直迭代到最后$T$时刻(如图 1)。最终，在最后$T$=17时刻得到的${\boldsymbol{s}}_{T}$提炼了全脑脑区在整段时间上的时序特征。由此，直接基于该特征进行运动任务分类，即

$ \boldsymbol{y}_{\text {pred }}=f_{\text {clf }}\left(\boldsymbol{s}_T\right), \boldsymbol{y}_{\text {pred }} \in \mathbf{R}^{5 \times 1} $

(6)

式中，${f_{{\rm{clf }}}}$是由单层感知器构成的线性分类器，输出的$\boldsymbol{y}_{\text {pred }}$为用独热(one-hot)编码表示的预测结果。

1.3 与其他方法的比较

为了检验本文方法是否能更有效地挖掘fMRI数据中的信息以用于运动任务的分类，设计了不同的实验进行对比。分别基于全脑脑区的时间信号测度和脑功能连接测度利用LSTM、GCN和MLP模型对不同运动任务进行分类。其中，对比GRU、GCN和MLP模型是为了证实TC-GRU模型可以捕获更好的时序信息。对比GRU和LSTM模型是为了比较由不同模型提取的fMRI时序特征。

设计的对比实验包括基于全脑脑区时间信号使用LSTM、基于全脑脑区时间信号使用GCN和分别基于全脑脑区的时间信号和脑功能连接使用MLP区分不同运动任务。此外，探测了进行先验特征选择和不进行特征选择对结果的影响。

1.3.1 基于全脑脑区时间信号利用长短期记忆网络区分不同的运动任务

在使用全脑脑区信号${\mathit{\boldsymbol{D}}_1}$的对比实验中，基于LSTM设计了TC-LSTM模型提取全脑脑区时间信号的时序特征，以此区分不同的运动任务。LSTM同样可以提取并利用全脑脑区时间信号的时序特征，但是模型参数比GRU多。设计该实验主要为了对比在较小样本量情况下，GRU和LSTM提取时序特征的适用性。同时进一步比较利用时序信息的模型和忽略时序信息的模型在区分运动任务上的差异。

以${\mathit{\boldsymbol{D}}_1}$中第$i$条数据的${{\boldsymbol{X}}^{i}}$为例，TC-LSTM提取全脑脑区时间信号的时序特征的过程与TC-GRU一致。在第$j$时刻($j=1, 2, …, T$)TC-LSTM的输入为全脑脑区时间信号在第$j$时刻的幅值${\boldsymbol{X}}^{i}_{j}$和TC-LSTM提取的从1~$j$-1时刻整个时间段上全脑脑区时间信号的时序特征，记为$\boldsymbol{c}_{j-1}^i$。若$j$=1，则该时序特征为随机初始化值。如此，在最后$T$=17时刻得到了全脑脑区在整段时间上的时序特征。然后直接基于该特征进行运动任务分类，如图 2所示。

图 2 基于全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$构建的TC-LSTM模型

Fig. 2 TC-LSTM model that used whole-brain regions related time courses ${\mathit{\boldsymbol{D}}_1}$

1.3.2 基于全脑脑区时间信号利用图卷积网络区分不同的运动任务

在使用全脑脑区信号${\mathit{\boldsymbol{D}}_1}$的对比实验中，基于GCN设计了TC-GCN模型提取全脑脑区关系的特征，以此区分不同的运动任务。

在TC-GCN模型中，首先基于训练集数据构建反映脑区关系的图${\boldsymbol{G}}$，计算过程为将训练集中每个样本${{\boldsymbol{X}}^{i}}$对应的功能连接矩阵$\boldsymbol{F} \boldsymbol{C}^i$相加后平均，再根据平均的功能连接使用最邻近算法(k-nearest neighbors，KNN)对每个脑区保留与其连接最强(只考虑正值)的$N$个脑区的连接得到${\boldsymbol{G}}'$，最后将其对称化，即$\boldsymbol{G}=\left(\boldsymbol{G}^{\prime \mathrm{T}}+\boldsymbol{G}^{\prime}\right) / 2$。接着，基于得到的脑区关系图${\boldsymbol{G}}$(无向图)。以${\mathit{\boldsymbol{D}}_1}$中第$i$条数据的${{\boldsymbol{X}}^{i}}$为例，每个脑区的特征对应为${{\boldsymbol{X}}^{i}}$的行向量，每个脑区与其他脑区的连接由图${\boldsymbol{G}}$表示。对于某个脑区，TC-GCN根据图${\boldsymbol{G}}$融合与该脑区有连接的所有脑区的特征，然后更新该融合后的特征。对于更新后的各个脑区的特征，GCN再对其进行一次融合和更新。最后对更新后的每个脑区特征求均值，将所有脑区特征的均值拼接成一行向量，并利用线性层分类，如图 3所示。

图 3 基于全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$构建的TC-GCN模型

Fig. 3 TC-GCN model that used whole-brain regions related time courses ${\mathit{\boldsymbol{D}}_1}$

1.3.3 基于全脑脑区时间信号利用多层感知器区分不同的运动任务

针对全脑脑区时间信号测度，设计了两组端到端的模型进行运动任务分类实验。由于脑功能连接是由全脑脑区时间信号计算而来，在计算过程中可能会丢失全脑脑区时间信号中的一些细节信息，因此设计此对比实验，期望全脑脑区时间信号可以提供比脑功能连接更多的信息。

在针对全脑脑区信号${\mathit{\boldsymbol{D}}_1}$的对比实验中，基于多层感知器(multi-layer perceptron, MLP)设计了TC-MLP模型。当输入${\mathit{\boldsymbol{D}}_1}$中第$i$条数据的${{\boldsymbol{X}}^{i}}$时，TC-MLP模型的第1层神经网络提取${{\boldsymbol{X}}^{i}}$中每个脑区的信号特征(一个脑区的信号为${{\boldsymbol{X}}^{i}}$中对应行的行向量)，即并行输入${{\boldsymbol{X}}^{i}}$所有的行向量至TC-MLP的第1层神经网络中；然后平均每个提取出的脑区信号特征，这样得到一列360维的向量；紧接着用TC-MLP第2层至最后一层(不包括最后一层)的神经网络对这列向量继续进行特征提取，得到${{\boldsymbol{X}}^{i}}$最终的特征；最后基于最终的特征用TC-MLP的最后一层进行分类，如图 4所示。

图 4 基于全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$构建的TC-MLP模型

Fig. 4 TC-MLP model that used whole-brain regions related time courses ${\mathit{\boldsymbol{D}}_1}$

在针对全脑脑区时间信号${\mathit{\boldsymbol{D}}_2}$的对比实验中，基于MLP构造了TC-ANOVA-MLP模型。首先运用方差分析(analysis of variance，ANOVA)在训练集中选出最容易区分5种运动任务的$K$个信号幅值，即ANOVA给出的所有$p$值中最小的前$K$个$p$值对应的信号幅值；然后基于进行了特征选择的数据利用TC-ANOVA-MLP模型进行5种运动任务分类，如图 5所示。ANOVA进行特征选择的过程为：对于每个特征，ANOVA分析其在不同类数据间(即不同任务数据间)的差异(即$p$值)，若该特征在不同类数据间差异较大(即$p$值较小)则保留，否则舍弃。注意，ANOVA仅运用于训练集上，保证了特征提取的无偏性。

图 5 基于全脑脑区时间信号${\mathit{\boldsymbol{D}}_2}$构建的TC-ANOVA-MLP模型

Fig. 5 TC-ANOVA-MLP model that used whole-brain regions related time courses ${\mathit{\boldsymbol{D}}_2}$

1.3.4 基于脑功能连接利用多层感知器区分不同的运动任务

由于脑功能连接矩阵是2维数据，而感知器模型要求的输入是1维向量，因此大多数研究都是将功能连接的上三角部分串联成一行作为输入特征。然而，这样会使输入的样本特征维度非常高，可能会带来维度灾难、过拟合等问题。

在基于脑功能连接的两个对比实验中，针对此问题设计新的解决方案。在针对脑功能连接数据${\mathit{\boldsymbol{D}}_3}$的对比实验中，参考深度学习在图论领域的处理方法(Wang等，2016)，基于MLP设计了FC-MLP模型。当输入${\mathit{\boldsymbol{D}}_3}$中第$i$条数据的$\boldsymbol{F} \boldsymbol{C}^i$时，先用FC-MLP的第1层神经网络提取$\boldsymbol{F} \boldsymbol{C}^i$每个脑区的连接特征(一个脑区与全部脑区的连接为$\boldsymbol{F} \boldsymbol{C}^i$对应行的行向量)，即并行输入$\boldsymbol{F} \boldsymbol{C}^i$所有的行向量至FC-MLP的第1层神经网络中。然后，平均每个提取出来的脑区连接特征，得到一列360维的向量；接着用FC-MLP第2层至最后一层(不包括最后一层)对这列向量继续进行特征提取，得到$\boldsymbol{F} \boldsymbol{C}^i$最终的特征。最后，基于最终的特征用FC-MLP的最后一层进行分类，如图 6所示。

图 6 基于脑功能连接数据${\mathit{\boldsymbol{D}}_3}$构建的FC-MLP模型

Fig. 6 FC-MLP model that used brain functional connectivity related ${\mathit{\boldsymbol{D}}_3}$

在针对脑功能连接数据${\mathit{\boldsymbol{D}}_4}$的对比实验中，基于MLP构造了FC-ANOVA-MLP模型。首先采用ANOVA在训练集中选择出最能区分5种运动任务的$K$个连接作为输入特征，然后基于这些输入特征利用FC-ANOVA-MLP进行5种运动任务分类，如图 7所示。注意，ANOVA同样仅运用于训练集上。

图 7 基于脑功能连接数据${\mathit{\boldsymbol{D}}_4}$构建的FC-ANOVA-MLP模型

Fig. 7 FC-ANOVA-MLP model that used brain functional connectivity related ${\mathit{\boldsymbol{D}}_4}$

1.4 评估方法

采用一致的方式构建本文的7个模型，即为了保证实验结果稳定可靠，都采用100次的交叉验证方式进行实验，且使用的数据在7个模型中是一致的。在交叉验证实验中，为了减少模型的过拟合，同时尽量保证用于构建(包括挑选)模型的数据和用于验证的数据是独立同分布的，将数据按8 ∶1 ∶1划分为训练集、验证集和测试集。训练集用于训练模型；验证集用于实现模型的选择，即在验证集上取得最高分类准确率的模型作为最终的模型；测试集用来模型评估，即测试构建好的模型的分类准确率。实验时各数据集合中(训练集、验证集和测试集)不同运动任务对应的数据条数是平衡的，以保证不同运动任务的结果具有可比性。

在对实验结果评估时，针对每个模型，评估每次交叉验证测试的总体分类准确率，即分类正确的数据条数除以总的数据条数。用箱线图展示100次交叉验证测试的总体分类准确率，其平均值反映模型的总体准确率，均方差反映模型的稳定性。

在实验中，有些运动任务产生于身体的相似部位，例如左手和右手。为了观察不同运动任务的分类表现，用箱线图展示了每个模型在各种运动任务上的分类准确率。此外，用混淆矩阵反映某运动任务分类成各种运动任务的结果。混淆矩阵的每一行包括了测试集中某类运动任务的所有数据正确分类成该行对应的运动任务的准确率(位于对角线位置)和错误分类成其他运动任务的误分率(位于非对角线位置)。值得注意的是，箱线图和混淆矩阵都包括了100次交叉验证的结果。

1.5 模型参数的设定

以上7个模型的参数设置如下：

1) TC-GRU模型，层数为1，且为单向，隐含层神经元个数为32。TC-GRU用来提取全脑脑区时间信号时序特征的单层感知器神经元个数为5。

2) TC-LSTM模型，与TC-GRU类似。层数为1，且为单向，隐含层神经元个数为32。TC-LSTM用来提取全脑脑区时间信号时序特征的单层感知器神经元个数为5。

3) TC-GRU模型，设定两层GCN，神经元个数分别为32和64。最后的线性层神经元个数为5，即只有输出层。设定用于得到稀疏脑区关系图的KNN中的N=4。

4) TC-MLP模型，设定3层神经网络，神经元个数分别设为32, 64, 5。

5) TC-ANOVA-MLP模型，设定3层神经网络，神经元个数分别为64，64，5。为了保持与TC-GRU模型以及TC-MLP模型第2层网络输入的维度一致，选出$K$=360个差异最显著的幅值作为输入数据。

6) FC-MLP模型，与TC-MLP类似，设定3层神经网络，神经元个数分别为64，64，5。

7) FC-ANOVA-MLP模型，与TC-ANOVA-MLP类似。设定3层神经网络，神经元个数分别为64，64，5。同样，ANOVA选出差异最显著的$K$=360个连接。

在训练模型时，线性整流函数(rectified linear unit, ReLU)激活函数会使得模型更容易收敛，同时dropout技术可以有效减缓模型的过拟合问题。因此，在以上实验中，模型的激活函数均设定为ReLU，正则化选用dropout技术(概率参数设为0.5)和L2参数正则化(权重设为0.000 01)。统一将批量尺寸(batch size)设定为64，训练迭代次数(epoch)设为100次，学习率设为0.001。实验中选用了交叉熵损失和Adam优化器作为训练时的损失函数和优化器。

2 结果

表 1和图 8为7个模型在100次交叉验证测试中的总体分类准确率。表 1中均值和标准差对应100次交叉验证测试得到的准确率的平均值和标准差。TC-GRU模型的总体分类准确率为94.51%±2.4%，即100次的准确率的平均值为94.51%，准确率的标准差为2.4%。从表 1可以看出，TC-GRU模型总体分类准确率的平均值高于对比实验中的6个模型，均方差都小于对比实验的6个模型。其次，TC-LSTM模型总体分类准确率的平均值高于对比实验中的其他5个模型。另外，基于全脑脑区时间信号测度构建的模型得到的总体分类准确率(100次交叉验证)的平均值都高于87%，而基于脑功能连接测度构建的模型得到的分类准确率的(100次交叉验证)平均值都低于73%。基于全脑脑区时间信号测度训练的模型在整体表现上优于基于脑功能连接测度训练的模型，TC-GRU模型具有最高的准确率和最强的稳定性。

表 1 不同模型在100次交叉验证实验的总体表现
Table 1 The overall classification accuracy of different models across 100 cross-validation tests

下载CSV

/%
模型	使用的数据	均值±标准差
TC-GRU	全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$	94.51±2.4
TC-LSTM	全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$	93.73±2.67
TC-GCN	全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$	87.14±3.73
TC-MLP	全脑脑区时间信号${\mathit{\boldsymbol{D}}_1}$	92.04±7.15
TC-ANOVA-MLP	全脑脑区时间信号${\mathit{\boldsymbol{D}}_2}$	92.75±2.59
FC-MLP	脑功能连接数据${\mathit{\boldsymbol{D}}_3}$	61.49±9.97
FC-ANOVA-MLP	脑功能连接数据${\mathit{\boldsymbol{D}}_4}$	72.47±4.47
注：加粗字体表示最优结果。

图 8 7种模型的总体分类准确率箱线图

Fig. 8 The overall classification accuracy of the seven trained models, shown using boxplots

图 9和表 2展示了100次交叉验证实验中7个模型在每个运动任务上的分类准确率。TC-GRU对右脚、左脚、右手、左手、舌头的运动任务分类的准确率分别为92.35%±6.61%、92.35%±4.97%、95.75%±4.02%、93.8%±6.05%、98.3%±2.85%。除了左脚运动任务的分类准确率略逊于TC-ANOVA-MLP(93.0%±6.82%)，在其他部位运动任务的分类准确率均为最高。另外，基于全脑脑区时间信号测度训练的模型在5种运动任务上的分类准确率都高于84%，而基于脑功能连接测度训练的模型在5种运动任务上取得的分类准确率都低于79%。基于全脑脑区时间信号训练的模型在各种运动任务分类上的表现均优于基于脑功能连接测度训练的模型。TC-GRU在绝大多数运动任务上的表现是最好的。

图 9 7种模型对每种运动任务的分类准确率的箱线图

Fig. 9 The task-specific classification accuracy of the seven trained models, shown using boxplots

表 2 7种模型在100次交叉验证测试中针对每种运动任务分类的准确率
Table 2 The task-specific classification accuracy of seven models across 100 cross-validation tests

下载CSV

/%
模型	右脚	左脚	右手	左手	舌头
TC-GRU	92.35±6.61	92.35±4.97	95.75±4.02	93.8±6.05	98.3±2.85
TC-LSTM	90.75±6.94	91.95±5.95	95.5±4.92	93.05±5.47	97.4±2.87
TC-GCN	84.8±10.02	84.45±9.77	85.85±9.49	87.85±8.07	92.75±6.26
TC-MLP	89.6±10.83	89.55±12.06	92.9±7.69	92.8±8.52	95.35±6.13
TC-ANOVA-MLP	91.3±6.15	93.0±6.82	92.9±5.71	91.5±6.18	95.05±4.33
FC-MLP	55.65±18.53	62.6±22.12	63.35±15.88	62.25±21.39	63.6±14.13
FC-ANOVA-MLP	65.45±10.8	78.25±8.87	73.95±9.81	72.35±11.86	72.35±8.96
注：加粗字体为各列最优结果。

图 10展示了7种模型的混淆矩阵结果，混淆矩阵中每个元素展示了平均值和标准差(括号内为标准差)。可以看出，各模型在运动任务分类过程中受到了运动任务发生在身体相似或同侧部位时的干扰。TC-GRU模型将右脚运动任务分成左脚和右手运动任务的误分率分别为4.35%和2.25%；将左脚运动任务分成右脚和左手运动任务的误分率分别为5.7%和1.2%；将右手运动任务分成左手和右脚运动任务的误分率分别为2.05%和1.1%；将左手运动任务分成右手和左脚运动任务的误分率分别为1.7%和2.05%。除了在分类左脚运动任务时受到的干扰略大于TC-ANOVA-MLP模型，其将左脚分成右脚和左手运动任务的误分率为4.55%和1.25%，TC-GRU在分类其他部位运动任务时受到的干扰都是最小的。即当运动任务发生在身体相似或同侧部位时，TC-GRU模型在进行分类时受到的干扰较小。

图 10 7种模型的混淆矩阵

Fig. 10 Confusion matrices of seven models

((a)TC-GRU; (b)TC-LSTM; (c)TC-GCN; (d) TC-MLP; (e) TC-ANOVA-MLP; (f)FC-MLP; (g)FC-ANOVA-MLP)

3 讨论

基于全脑脑区时间信号，本文提出的TC-GRU模型可以很好地分类5种运动任务。为了表明TC-GRU模型能够有效提取并利用fMRI数据中的时序信息，设计了丰富的对比实验。从实验结果可以看出，在使用全脑脑区时间信号作为特征时，TC-GRU、TC-LSTM、TC-GCN、TC-MLP和TC-ANOVA-MLP模型都可以比较准确地区分手部、脚部和舌头的运动任务，总体准确率都大于92%，其中TC-GRU取得了最高的分类准确率，为94.51%。当运动任务产生在身体的相似或同侧时，会给模型的分类造成一定干扰。对于右脚、左手和右手的运动任务而言，TC-GRU模型在分类时受到的干扰最小。TC-GRU相比其他6个模型在这些运动任务上得到的分类准确率都是最高的。在区分舌头运动任务时，TC-GRU模型也取得了最佳的分类准确率。

TC-GRU模型按时间顺序依次对每个时刻的全脑脑区时间信号进行处理，将不同时刻的时序特征进行融合，得到全脑脑区时间信号的表示，提取出全脑脑区时间信号更为细粒的时序特征，在识别脚部、手部和舌头运动任务时变得更为精准。TC-LSTM也使用了全脑脑区信号的时序特征，表现仅次于TC-GRU模型。而基于全脑脑区时间信号的TC-GCN、TC-MLP和TC-ANOVA-MLP模型都仅考虑某段时间上的整体信息，即将整段信号认为是在同一时刻发生的，处理数据时是对一个完整时间段的全脑脑区时间信号一次性处理，忽略了时序信息，因此结果不够好。总之，在使用样本量较少的情况下，使用时序特征的TC-GRU模型对人脑运动任务分类时表现最优。研究表明，利用GRU模型提取fMRI数据中的时序特征在脑疾病研究中也具有优越性(Yan等，2022)。

在实验结果中，基于全脑脑区时间信号训练的模型在整体表现上优于基于脑功能连接测度训练的模型。可能的原因是功能连接的计算丢失了全脑脑区时间信号中的一些细微信息。

为增加模型的可比性，本文选取的模型都由感知器构成。TC-GRU模型按时间维度展开是一个MLP模型，其中，单层的感知器用来提取某个时刻全脑脑区时间信号的时序特征并输出到下一个感知器。TC-LSTM按时间维度展开也为MLP模型。TC-GCN也用单层感知器更新每个脑区特征。通过实验，对比了利用和未利用fMRI数据中时序信息间的差异，以及利用全脑脑区时间信号和脑功能连接测度的差异。

本文中的数据都是基于360个脑区内的代表性时间信号得到的，为了提高使用数据的可比性，没有与基于3维fMRI图像的3D-CNN网络进行比较。3D-CNN网络具有更高的时间复杂度，对样本量的要求也更高。

4 结论

本文首次利用GRU模型基于全脑脑区时间信号区分不同的人脑运动任务。为了表明GRU确实可以很好地提取和利用fMRI数据中的时序信息，全面公平地比较了7种模型在人脑运动任务分类方面的表现。探索了利用和未利用fMRI数据中的时序信息对模型进行运动任务分类的影响，比较了利用全脑脑区时间信号和脑功能连接测度对模型进行运动任务分类的影响，明确展示出了使用时序信息对运动任务分类的正面作用。

本文提出的基于TC-GRU模型的人脑运动任务分类充分利用了全脑脑区时间信号中更为细粒的时序信息，可以很好地区分不同的运动任务。相对于对比实验的方法，TC-GRU模型取得了更高的分类准确率。在脑科学领域，利用fMRI获取数据探索人类大脑的运动任务功能是研究的热点。对由fMRI估计的全脑脑区时间信号测度而言，GRU模型能够提取出全脑脑区时间信号的时序特征，更有利于任务态数据的分类。

本文方法有些方面仍需要在未来进行完善。首先，由于实验使用的数据集中样本较少，TC-GRU模型是否能够在大样本下仍然具有优异的表现值得进一步检验。其次，虽然本文方法简洁、参数较少，但是深度学习对计算资源需求很大，如何有效利用硬件资源也是一个亟需解决的问题。最后，采用更加先进的超参搜索算法促进分类结果的提升也是未来的改进方向之一。

参考文献

Anzellotti S, Coutanche M N. 2018. Beyond functional connectivity: investigating networks of multivariate representations. Trends in Cognitive Sciences, 22(3): 258-269 [DOI:10.1016/j.tics.2017.12.002]

Barch D M, Burgess G C, Harms M P, Petersen S E, Schlaggar B L, Corbetta M, Glasser M F, Curtiss S, Dixit S, Feldt C, Nolan D, Bryant E, Hartley T, Footer O, Bjork J M, Poldrack R, Smith S, Johansen-Berg H, Snyder A Z, van Essen D C. 2013. Function in the human connectome: task-fMRI and individual differences in behavior. NeuroImage, 80: 169-189 [DOI:10.1016/j.neuroimage.2013.05.033]

Cho K, van Merrienboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H and Bengio Y. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1724-1734[DOI: 10.3115/v1/D14-1179]

Gao Y F, Zhang Y M, Wang H L, Guo X J, Zhang J C. 2019. Decoding behavior tasks from brain activity using deep transfer learning. IEEE Access, 7: 43222-43232 [DOI:10.1109/access.2019.2907040]

Glasser M F, Coalson T S, Robinson E C, Hacker C D, Harwell J, Yacoub E, Ugurbil K, Andersson J, Beckmann C F, Jenkinson M, Smith S M, van Essen D C. 2016. A multi-modal parcellation of human cerebral cortex. Nature, 536(7615): 171-178 [DOI:10.1038/nature18933]

Glasser M F, Sotiropoulos S N, Wilson J A, Coalson T S, Fischl B, Andersson J L, Xu J Q, Jbabdi S, Webster M, Polimeni J R, van Essen D C, Jenkinson M. 2013. The minimal preprocessing pipelines for the Human Connectome Project. NeuroImage, 80: 105-124 [DOI:10.1016/j.neuroimage.2013.04.127]

Gonzalez-Castillo J, Hoy C W, Handwerker D A, Robinson M E, Buchanan L C, Saad Z S, Bandettini P A. 2015. Tracking ongoing cognition in individuals using brief, whole-brain functional connectivity patterns. Proceedings of the National Academy of Sciences of the United States of America, 112(28): 8762-8767 [DOI:10.1073/pnas.1501242112]

Hebart M N, Baker C I. 2018. Deconstructing multivariate decoding for the study of brain function. NeuroImage, 180: 4-18 [DOI:10.1016/j.neuroimage.2017.08.005]

Liu W W, Su Y L, Wunier, Renqingdaoerji. 2018. Mongolian-Chinese machine translation research based on part of speech tagging with gated unit neural network. Journal of Chinese Information Processing, 32(8): 68-74 (刘婉婉, 苏依拉, 乌尼尔, 仁庆道尔吉. 2018. 基于门控循环神经网络词性标注的蒙汉机器翻译研究. 中文信息学报, 32(8): 68-74) [DOI:10.3969/j.issn.1003-0077.2018.08.010]

Mensch A, Mairal J, Bzdok D, Thirion B and Varoquaux G. 2017. Learning neural representations of human cognition across many fMRI studies//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. : 5885-5895[DOI: 10.5555/3295222.3295338]

Qi Y, Lin H W, Li Y P, Chen J S. 2021. Parameter-free attention in fMRI decoding. IEEE Access, 9: 48704-48712 [DOI:10.1109/ACCESS.2021.3068921]

Sutskever I, Vinyals O and Le Q V. 2014. Sequence to sequence learning with neural networks//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 3104-3112[DOI: 10.5555/2969033.2969173]

Tan Y M, Liu S W, Lyu X Q. 2018. CNN and BiLSTM based Chinese textual entailment recognition. Journal of Chinese Information Processing, 32(7): 11-19 (谭咏梅, 刘姝雯, 吕学强. 2018. 基于CNN与双向LSTM的中文文本蕴含识别方法. 中文信息学报, 32(7): 11-19) [DOI:10.3969/j.issn.1003-0077.2018.07.002]

Thomas A W, Müller K R and Samek W. 2019. Deep transfer learning for whole-brain FMRI analyses//Zhou L P, Sarikaya D, Kia S M, Speidel S, Malpani A, Hashimoto D, Habes M, Löfstedt T, Ritter K and Wang H Z, eds. OR 2.0 Context-Aware Operating Theaters and Machine Learning in Clinical Neuroimaging. Cham, Germany: Springer: 59-67[DOI: 10.1007/978-3-030-32695-1_7]

Wang D X, Cui P and Zhu W W. 2016. Structural deep network embedding//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA: ACM: 1225-1234[DOI: 10.1145/2939672.2939753]

Wang X X, Liang X, Jiang Z F, Nguchu B A, Zhou Y W, Wang Y M, Wang H J, Li Y, Zhu Y Y, Wu F, Gao J H, Qiu B S. 2020. Decoding and mapping task states of the human brain via deep learning. Human Brain Mapping, 41(6): 1505-1519 [DOI:10.1002/hbm.24891]

Yan W Z, Zhao M, Fu Z N, Pearlson G D, Sui J, Calhoun V D. 2022. Mapping relationships among schizophrenia, bipolar and schizoaffective disorders: a deep classification and clustering framework using fMRI time series. Schizophrenia Research, 245: 141-150 [DOI:10.1016/j.schres.2021.02.007]

Yang Z, Zuo X N. 2015. Big neuroimaging data-informed mind-brain association studies: methodology and applications. Chinese Science Bulletin, 60(11): 966-975 (杨志, 左西年. 2015. 神经影像大数据与心脑关联: 方法学框架与应用. 科学通报, 60(11): 966-975) [DOI:10.1360/N972014-00806]

Yarkoni T, Poldrack R A, Nichols T E, van Essen D C, Wager T D. 2011. Large-scale automated synthesis of human functional neuroimaging data. Nature Methods, 8(8): 665-670 [DOI:10.1038/nmeth.1635]

Zhang Y, Tetrel L, Thirion B, Bellec P. 2021. Functional annotation of human cognitive states using deep graph convolution. NeuroImage, 231: #117847 [DOI:10.1016/j.neuroimage.2021.117847]

Zhuang L S, Lyu Y, Yang J, Li H Q. 2019. Long term recurrent neural network with state-frequency memory. Journal of Computer Research and Development, 56(12): 2641-2648 (庄连生, 吕扬, 杨健, 李厚强. 2019. 时频联合长时循环神经网络. 计算机研究与发展, 56(12): 2641-2648) [DOI:10.7544/issn1000-1239.2019.20180474]