|
发布时间: 2023-02-16 |
医学图像处理 |
|
|
收稿日期: 2021-08-10; 修回日期: 2022-01-24; 预印本日期: 2022-01-31
基金项目: 国家自然科学基金项目(62076157,61703253);山西省留学人员科技活动择优资助项目(20210033);山西省“1331工程”项目
作者简介:
袁振, 男, 硕士研究生, 主要研究方向为深度学习和脑影像分析。E-mail: 1163660010@qq.com
侯玉亮, 男, 硕士研究生, 主要研究方向为深度学习和医学影像处理。E-mail: yulianghou@aliyun.com 杜宇慧, 通信作者, 女, 教授, 主要研究方向为脑影像分析、数据挖掘、模式识别、医学图像处理。E-mail: duyuhui@sxu.edu.cn *通信作者: 杜宇慧 duyuhui@sxu.edu.cn
中图法分类号: TP391
文献标识码: A
文章编号: 1006-8961(2023)02-0589-12
|
摘要
目的 在脑科学领域,已有研究借助脑功能核磁共振影像数据(functional magnetic resonance imaging,fMRI)探索和区分人类大脑在不同运动任务下的状态,然而传统方法没有充分利用fMRI数据的时序特性。对此,本文提出基于fMRI数据计算的全脑脑区时间信号(time course,TC)的门控循环单元(gated recurrent unit,GRU)方法(TC-GRU)进行运动任务分类。方法 基于HCP(human connectome project)数据集中的100个健康被试者在5种运动任务中分两轮采集的1 000条fMRI数据,对每种运动任务计算每个被试者在各脑区(共360个脑区)的时间信号;使用10折交叉验证方案基于训练集和验证集训练TC-GRU模型,并用构建好的模型对测试集进行测试,考察其对5种运动任务的分类能力,其中TC-GRU在各时刻的输入特征为全脑脑区在对应时刻的TC信号幅值,通过这样的方式提取全脑脑区在整个时间段的时序特征。同时,为了展示使用TC-GRU模型可挖掘fMRI数据中更丰富的信息,设计了多个对比实验进行比较,利用长短期记忆网络(long short-term memory,LSTM)、图卷积网络(graph convolutional network,GCN)和多层感知器(multi-layer perceptron,MLP)基于全脑脑区时间信号进行运动任务分类,以及利用MLP基于由fMRI数据估计的脑功能连接进行运动任务分类。此外,考察了先验的特征选择对分类效果的效应。结果 基于全脑脑区时间信号的TC-GRU模型在运动任务中的分类准确率最高,为94.51%±2.4%,其次是基于全脑脑区时间信号的LSTM模型,准确率为93.73%±2.67%。基于全脑脑区时间信号利用MLP进行分类,有先验和无先验的特征选择准确率分别为92.75%±2.59%和92.04%±7.15%,比基于全脑脑区时间信号的GCN(准确率为87.14%±3.73%)和基于脑功能连接利用MLP进行分类(有先验和无先验的特征选择准确率分别为72.47%±4.47%和61.49%±9.97%)表现更好。结论 TC-GRU模型可挖掘脑fMRI数据中丰富的时序信息,非常有效地对不同的运动任务进行分类。
关键词
脑功能核磁共振成像; 全脑脑区时间信号; 功能连接; 门控循环单元(GRU); 多层感知器(MLP); 运动任务分类
Abstract
Objective In the field of neuroscience, there have been studies using functional magnetic resonance imaging (fMRI) data to explore functions of the human brain and distinguish its states under different motor tasks. However, previous studies that focused on the brain state classification using task fMRI did not make full use of temporal characteristics of fMRI data. Here, we propose a method (named TC-GRU) that employs gated recurrent unit (GRU) to capture fine-grained features from time courses (TC) of whole-brain regions estimated from fMRI data for the classification of motor tasks. Method The fMRI data are gathered from 100 healthy subjects in the human connectome project (HCP) under 5 body-motion tasks (including left hand, right hand, left foot, right foot, and tongue motor) with 2 scanning operations, resulting in 1 000 samples for classifying the 5 motor tasks. First, for each sample, we calculate the average fMRI TC for each brain region as the representative TC of the brain region. The whole brain is divided into 360 brain regions according to the Glasser brain template. Then, using a 10-fold cross-validation framework (8:1:1 for the training set, the validation set, and the testing set) with 100 repetitions, the TC-GRU model is trained and optimized based on the training set and the validation set, and the model-trained is further applied to the testing set to examine its ability in classifying this 5 body motor tasks. In our TC-GRU model, the GRU is used to extract the temporal features in the TCs of the brain regions, and a linear classifier is used for classification based on the temporal features. Specifically, at a certain moment, the inputs of the GRU model are the TC amplitudes of the whole-brain regions at that moment as well as the temporal features of the past moments captured by the GRU model, and the GRU model fuses the inputs and produces the temporal features at the current time. This process continues until the last moment to generate temporal features for the classification. In our work, we also compare the most state-of-the-art methods with the TC-GRU. The long short-term memory (LSTM), graph convolutional network (GCN), and multi-layer perceptron (MLP) are used to classify the motor tasks based on TCs of whole-brain regions as well as brain functional connectivity measures estimated by the fMRI data. Furthermore, we examine the effects of prior feature selection and no feature selection on the classification performance. It is noteworthy that a consistent 10-fold cross-validation framework is used for multiple methods and the overall classification accuracy is summarized through 100 cross-validation tests. The overall classification accuracy is the mean classification accuracy, and the performance stability is reflected by the standard deviation of the classification accuracy. Result The highest ranking of the classification accuracy (accuracy: 94.51%±2.4%) can be achieved via the TC-GRU method, and the second rank is the LSTM using TC information (accuracy: 93.73%±2.67%). Using MLP based on the TCs of whole-brain regions (accuracy from the experiments with prior feature selection and without prior feature selection is 92.75%±2.59% and 92.04%±7.15%, respectively) is better than using GCN (accuracy: 87.14%±3.73%) based on the TCs of whole-brain regions and MLP based on the brain functional connectivity measures (accuracy from experiments with prior feature selection and without prior feature selection is 72.47%±4.47% and 61.49%±9.97%, respectively). Conclusion To the best of our knowledge, this paper is the first time to distinguish different human brain motor tasks using GRU based on time courses of the whole-brain regions. Our results support that the TC-GRU method outperforms six state-of-the-art methods on human brain motor task classification because that the TC-GRU can mine more useful information in the brain fMRI data. In summary, our finding suggests the importance of utilizing temporal information of fMRI data to decode the complex brain.
Key words
brain functional magnetic resonance imaging; whole-brain time courses; functional connectivity; gated recurrent unit (GRU); multi-layer perceptron(MLP); motor task classification
0 引言
在脑科学领域,人们一直致力于理解人类大脑的功能(Yarkoni等,2011;杨志和左西年,2015)。借助计算机认识人类大脑是流行的手段之一,原理是通过大脑的活动信息解码大脑。近年来,越来越多的研究者使用血氧水平依赖性功能核磁共振成像(functional magnetic resonance imaging,fMRI)技术探索脑功能(Anzellotti和Coutanche,2018;Hebart和Baker,2018)。fMRI的原理是脑活动区域局部血液中氧合血红蛋白与去氧血红蛋白比例的变化引起局部组织中T2的变化,从而可以在T2加权图像上反映脑组织的局部活动功能。该技术的非侵入性和无辐射的优点是其备受青睐的重要原因。
分析处于不同任务状态时的大脑fMRI影像数据,并探索基于大脑影像数据区分大脑所处的不同任务状态有助于研究人员更好地获知大脑中思想、感觉与行为的奥秘,也有利于进一步推动fMRI成像在精神疾病临床诊断和治疗中的应用(Barch等,2013)。基于利用fMRI技术获取的数据,已有研究使用脑影像测度进行大脑处于不同任务状态时的任务分类。简而言之,研究者可以通过任务态fMRI数据提取脑影像测度,利用脑影像测度训练分类模型,使用训练好的模型即可基于新的任务态下收集到的fMRI数据识别出大脑处于什么样的任务。关于任务态fMRI数据,通常可以利用两种脑影像测度。第1种测度是体素或不同脑区(脑区也称感兴趣区)的fMRI时间信号;第2种测度是反映不同脑区交互关系的脑功能连接。
在已有的基于任务态fMRI数据进行大脑任务分类的相关研究中,更多的研究集中于使用fMRI时间信号进行分类。Mensch等人(2017)利用多个站点的fMRI时间信号使用迁移学习对不同的认知状态进行分类。尽管各站点的数据涵盖的认知状态并不完全相同,但是通过迁移学习可以很好地将fMRI时间信号的特征提取出来,其在部分站点的分类结果达到了91%左右。Gao等人(2019)运用迁移学习,将基于自然图像训练的卷积神经网络(convolutional neural network, CNN)迁移到基于fMRI数据的认知状态分类,对7种认知状态的分类准确率达到75.2%。Thomas等人(2019)利用迁移学习,基于fMRI数据在7种认知状态的分类准确率最高为81.91%。Zhang等人(2021)针对fMRI时间信号提出运用图卷积网络(graph convolutional networks, GCN)进行大脑21种任务的分类。该方法将脑区作为图的节点,将fMRI时间信号作为图的节点特征来区分6个认知状态下的21种任务,准确率达到90%。Wang等人(2020)针对fMRI时间信号提出一种3维空间的卷积神经网络(3D-CNN)模型,对7种大脑认知状态进行分类,分类准确率达到了93.7%。Qi等人(2021)针对fMRI时间信号提出具有注意力机制的3D-CNN网络,在分类7种大脑认知状态时,分类准确率最高为88.69%。这些研究表明,利用fMRI时间信号探索大脑认知状态有很大潜力。
已有的使用脑功能连接测度进行大脑任务分类的工作并不多。Gonzalez-Castillo等人(2015)利用不同时间窗口下的任务态fMRI数据估计的脑功能连接测度对大脑的记忆、数值计算和视觉注意3种任务状态进行分类,结果表明设定大于22.5 s的时间窗口进行任务状态的分类是可行的,但该方法关于视觉注意任务的分类在不同时间窗口的分类准确率都小于70%,总体分类准确率小于90%。
虽然以上针对大脑在不同任务的分类研究都取得了不错的分类效果,但是这些研究都没有有效利用任务态fMRI数据中的时序信息。本文提出一种基于门控循环单元(gated recurrent unit,GRU)(Cho等,2014)的模型捕获任务态fMRI数据中更细粒的时序特征,并直接用该特征区分不同的运动任务。GRU是循环神经网络的一个变体,尽管循环神经网络在时序数据的处理和应用上已表现出巨大潜力,但是使用循环神经网络分析大脑运动功能的工作很少,本文是首次利用GRU模型基于全脑脑区时间信号进行人脑运动任务的工作。本文方法有效提取并利用了任务态fMRI数据的时序信息,极大提高了不同运动任务分类的准确率。
1 方法
1.1 数据
1.1.1 数据来源和描述
本文使用HCP(human connectome projects)数据集中100个健康被试者在5种运动任务下的任务态fMRI数据(https://db.humanconnectome.org/data/projects/HCP_1200)。该数据集是在3T Siemens Skyra上使用梯度回波EPI(echo planar imaging)序列采集的,采集参数为
在数据采集时,每个被试者按要求进行5种运动任务,依次为左手、右手、左脚、右脚和舌头的移动,共进行两轮。每种运动任务都持续12 s,前后运动任务之间设有时间间隔。本文的目的是利用任务态fMRI数据实现不同运动任务的识别(即分类)。fMRI数据预处理由美国HCP团队完成,步骤主要包括头骨去除、运动校正、切片时间校正、空间标准化、空间平滑和时间信号去趋势等(Barch等,2013;Glasser等,2013)。
1.1.2 脑影像测度计算
本文从预处理后的任务态fMRI数据中估计了多种脑影像测度(包括全脑脑区的时间信号和脑功能连接),这些测度将用于运动任务的分类。
从上可知,100个被试者在5种运动任务进行两轮后的任务态fMRI数据共1 000条(100个被试者× 5种运动任务× 2轮= 1 000条)。被试者的任务态fMRI数据都通过Glasser脑模板(Glasser等,2016)分割对应到360个不同的脑区,每个脑区的时间信号(time course,TC)用该脑区内所有体素时间信号的平均信号来代表。依照此方式进行分析,每条任务态fMRI数据包含360个脑区的时间信号,且每条数据仅对应一种运动任务。值得注意的是,因为
为了方便,用
为了与基于GRU的方法进行比较,共进行6项对比实验。其中,4项实验使用了全脑脑区的时间信号测度,在这4项实验中,1项实验将
$ \boldsymbol{F} \boldsymbol{C}^i=g_{\text {coor }}\left(\boldsymbol{X}^i\right) $ | (1) |
式中,
1.2 基于门控循环单元的人脑运动任务状态分类方法
循环神经网络(recurrent neural network, RNN)在处理序列数据上非常有效(庄连生等,2019)。为了解决模型训练过程中的梯度消失难题,长短期记忆网络(long short-term memory, LSTM)和GRU模型相继提出并广泛运用于文本分析(Sutskever等,2014;刘婉婉等,2018;谭咏梅等,2018)。GRU和LSTM都是使用门控单元结构控制信息流动。其中,GRU比LSTM模型更为简洁,参数更少,但是却仍然能有效地处理复杂任务。从编码的角度对GRU模型处理序列数据的过程进行分析,简而言之,GRU模型融合序列数据在某个时刻和在此之前的信息得到该时刻的编码信息,如此迭代,在最后时刻得到可以用来表示整段序列的最终编码。
由于全脑脑区的时间信号包含脑区随时间波动的信息,因此该测度具有很强的时序性,即某一脑区任意时刻的信号幅值理论上与该时刻之前的时刻的信号幅值是有关系的。为了捕获到这种关系(即时序特征),本文基于GRU模型提出了可以提取全脑脑区时间信号中的时序特征并进行分类运动任务的TC-GRU模型。该模型分两步,首先利用GRU提取全脑脑区时间信号中的时序特征;随后基于该时序特征使用线性分类器进行分类。在某一时刻,将全脑脑区在该时刻对应的时间信号幅值和过往时刻GRU模型捕获的时序特征输入GRU模型,通过GRU模型再融合并编码当前时刻信号幅值和过往时刻的全脑脑区时间信号的时序特征,持续此过程直到最后时刻,通过GRU就提取了全部时刻全脑脑区时间信号的时序信息,如图 1所示。
以
$ \begin{gathered} \boldsymbol{s}_j^i={R N} N_{\mathrm{GRU}}\left(\boldsymbol{s}_{j-1}^i, \boldsymbol{X}_j^i\right)= \\ \left(1-\boldsymbol{z}^i\right) \odot \boldsymbol{s}_{j-1}^i+\boldsymbol{z}^i \odot \tilde{\boldsymbol{s}}_j^i \end{gathered} $ | (2) |
$ {\boldsymbol{z}}^i=\sigma\left(\boldsymbol{X}_j^i \boldsymbol{W}^{x z}+\boldsymbol{s}_{j-1}^i \boldsymbol{W}^{s z}\right) $ | (3) |
$ \boldsymbol{r}^i=\sigma\left(\boldsymbol{X}_j^i \boldsymbol{W}^{x r}+{\boldsymbol{s}}_{j-1}^i \boldsymbol{W}^{s r}\right) $ | (4) |
$ \tilde{\boldsymbol{s}}_j^i=\tanh \left(\boldsymbol{X}_j^i \boldsymbol{W}^{x s}+\left(\boldsymbol{r}^i \odot \boldsymbol{s}_{j-1}^i\right) \boldsymbol{W}^{s g}\right) $ | (5) |
式中,
在
$ \boldsymbol{y}_{\text {pred }}=f_{\text {clf }}\left(\boldsymbol{s}_T\right), \boldsymbol{y}_{\text {pred }} \in \mathbf{R}^{5 \times 1} $ | (6) |
式中,
1.3 与其他方法的比较
为了检验本文方法是否能更有效地挖掘fMRI数据中的信息以用于运动任务的分类,设计了不同的实验进行对比。分别基于全脑脑区的时间信号测度和脑功能连接测度利用LSTM、GCN和MLP模型对不同运动任务进行分类。其中,对比GRU、GCN和MLP模型是为了证实TC-GRU模型可以捕获更好的时序信息。对比GRU和LSTM模型是为了比较由不同模型提取的fMRI时序特征。
设计的对比实验包括基于全脑脑区时间信号使用LSTM、基于全脑脑区时间信号使用GCN和分别基于全脑脑区的时间信号和脑功能连接使用MLP区分不同运动任务。此外,探测了进行先验特征选择和不进行特征选择对结果的影响。
1.3.1 基于全脑脑区时间信号利用长短期记忆网络区分不同的运动任务
在使用全脑脑区信号
以
1.3.2 基于全脑脑区时间信号利用图卷积网络区分不同的运动任务
在使用全脑脑区信号
在TC-GCN模型中,首先基于训练集数据构建反映脑区关系的图
1.3.3 基于全脑脑区时间信号利用多层感知器区分不同的运动任务
针对全脑脑区时间信号测度,设计了两组端到端的模型进行运动任务分类实验。由于脑功能连接是由全脑脑区时间信号计算而来,在计算过程中可能会丢失全脑脑区时间信号中的一些细节信息,因此设计此对比实验,期望全脑脑区时间信号可以提供比脑功能连接更多的信息。
在针对全脑脑区信号
在针对全脑脑区时间信号
1.3.4 基于脑功能连接利用多层感知器区分不同的运动任务
由于脑功能连接矩阵是2维数据,而感知器模型要求的输入是1维向量,因此大多数研究都是将功能连接的上三角部分串联成一行作为输入特征。然而,这样会使输入的样本特征维度非常高,可能会带来维度灾难、过拟合等问题。
在基于脑功能连接的两个对比实验中,针对此问题设计新的解决方案。在针对脑功能连接数据
在针对脑功能连接数据
1.4 评估方法
采用一致的方式构建本文的7个模型,即为了保证实验结果稳定可靠,都采用100次的交叉验证方式进行实验,且使用的数据在7个模型中是一致的。在交叉验证实验中,为了减少模型的过拟合,同时尽量保证用于构建(包括挑选)模型的数据和用于验证的数据是独立同分布的,将数据按8 ∶1 ∶1划分为训练集、验证集和测试集。训练集用于训练模型;验证集用于实现模型的选择,即在验证集上取得最高分类准确率的模型作为最终的模型;测试集用来模型评估,即测试构建好的模型的分类准确率。实验时各数据集合中(训练集、验证集和测试集)不同运动任务对应的数据条数是平衡的,以保证不同运动任务的结果具有可比性。
在对实验结果评估时,针对每个模型,评估每次交叉验证测试的总体分类准确率,即分类正确的数据条数除以总的数据条数。用箱线图展示100次交叉验证测试的总体分类准确率,其平均值反映模型的总体准确率,均方差反映模型的稳定性。
在实验中,有些运动任务产生于身体的相似部位,例如左手和右手。为了观察不同运动任务的分类表现,用箱线图展示了每个模型在各种运动任务上的分类准确率。此外,用混淆矩阵反映某运动任务分类成各种运动任务的结果。混淆矩阵的每一行包括了测试集中某类运动任务的所有数据正确分类成该行对应的运动任务的准确率(位于对角线位置)和错误分类成其他运动任务的误分率(位于非对角线位置)。值得注意的是,箱线图和混淆矩阵都包括了100次交叉验证的结果。
1.5 模型参数的设定
以上7个模型的参数设置如下:
1) TC-GRU模型,层数为1,且为单向,隐含层神经元个数为32。TC-GRU用来提取全脑脑区时间信号时序特征的单层感知器神经元个数为5。
2) TC-LSTM模型,与TC-GRU类似。层数为1,且为单向,隐含层神经元个数为32。TC-LSTM用来提取全脑脑区时间信号时序特征的单层感知器神经元个数为5。
3) TC-GRU模型,设定两层GCN,神经元个数分别为32和64。最后的线性层神经元个数为5,即只有输出层。设定用于得到稀疏脑区关系图的KNN中的N=4。
4) TC-MLP模型,设定3层神经网络,神经元个数分别设为32, 64, 5。
5) TC-ANOVA-MLP模型,设定3层神经网络,神经元个数分别为64,64,5。为了保持与TC-GRU模型以及TC-MLP模型第2层网络输入的维度一致,选出
6) FC-MLP模型,与TC-MLP类似,设定3层神经网络,神经元个数分别为64,64,5。
7) FC-ANOVA-MLP模型,与TC-ANOVA-MLP类似。设定3层神经网络,神经元个数分别为64,64,5。同样,ANOVA选出差异最显著的
在训练模型时,线性整流函数(rectified linear unit, ReLU)激活函数会使得模型更容易收敛,同时dropout技术可以有效减缓模型的过拟合问题。因此,在以上实验中,模型的激活函数均设定为ReLU,正则化选用dropout技术(概率参数设为0.5)和L2参数正则化(权重设为0.000 01)。统一将批量尺寸(batch size)设定为64,训练迭代次数(epoch)设为100次,学习率设为0.001。实验中选用了交叉熵损失和Adam优化器作为训练时的损失函数和优化器。
2 结果
表 1和图 8为7个模型在100次交叉验证测试中的总体分类准确率。表 1中均值和标准差对应100次交叉验证测试得到的准确率的平均值和标准差。TC-GRU模型的总体分类准确率为94.51%±2.4%,即100次的准确率的平均值为94.51%,准确率的标准差为2.4%。从表 1可以看出,TC-GRU模型总体分类准确率的平均值高于对比实验中的6个模型,均方差都小于对比实验的6个模型。其次,TC-LSTM模型总体分类准确率的平均值高于对比实验中的其他5个模型。另外,基于全脑脑区时间信号测度构建的模型得到的总体分类准确率(100次交叉验证)的平均值都高于87%,而基于脑功能连接测度构建的模型得到的分类准确率的(100次交叉验证)平均值都低于73%。基于全脑脑区时间信号测度训练的模型在整体表现上优于基于脑功能连接测度训练的模型,TC-GRU模型具有最高的准确率和最强的稳定性。
表 1
不同模型在100次交叉验证实验的总体表现
Table 1
The overall classification accuracy of different models across 100 cross-validation tests
/% | |||||||||||||||||||||||||||||
模型 | 使用的数据 | 均值±标准差 | |||||||||||||||||||||||||||
TC-GRU | 全脑脑区时间信号 |
94.51±2.4 | |||||||||||||||||||||||||||
TC-LSTM | 全脑脑区时间信号 |
93.73±2.67 | |||||||||||||||||||||||||||
TC-GCN | 全脑脑区时间信号 |
87.14±3.73 | |||||||||||||||||||||||||||
TC-MLP | 全脑脑区时间信号 |
92.04±7.15 | |||||||||||||||||||||||||||
TC-ANOVA-MLP | 全脑脑区时间信号 |
92.75±2.59 | |||||||||||||||||||||||||||
FC-MLP | 脑功能连接数据 |
61.49±9.97 | |||||||||||||||||||||||||||
FC-ANOVA-MLP | 脑功能连接数据 |
72.47±4.47 | |||||||||||||||||||||||||||
注:加粗字体表示最优结果。 |
图 9和表 2展示了100次交叉验证实验中7个模型在每个运动任务上的分类准确率。TC-GRU对右脚、左脚、右手、左手、舌头的运动任务分类的准确率分别为92.35%±6.61%、92.35%±4.97%、95.75%±4.02%、93.8%±6.05%、98.3%±2.85%。除了左脚运动任务的分类准确率略逊于TC-ANOVA-MLP(93.0%±6.82%),在其他部位运动任务的分类准确率均为最高。另外,基于全脑脑区时间信号测度训练的模型在5种运动任务上的分类准确率都高于84%,而基于脑功能连接测度训练的模型在5种运动任务上取得的分类准确率都低于79%。基于全脑脑区时间信号训练的模型在各种运动任务分类上的表现均优于基于脑功能连接测度训练的模型。TC-GRU在绝大多数运动任务上的表现是最好的。
表 2
7种模型在100次交叉验证测试中针对每种运动任务分类的准确率
Table 2
The task-specific classification accuracy of seven models across 100 cross-validation tests
/% | |||||||||||||||||||||||||||||
模型 | 右脚 | 左脚 | 右手 | 左手 | 舌头 | ||||||||||||||||||||||||
TC-GRU | 92.35±6.61 | 92.35±4.97 | 95.75±4.02 | 93.8±6.05 | 98.3±2.85 | ||||||||||||||||||||||||
TC-LSTM | 90.75±6.94 | 91.95±5.95 | 95.5±4.92 | 93.05±5.47 | 97.4±2.87 | ||||||||||||||||||||||||
TC-GCN | 84.8±10.02 | 84.45±9.77 | 85.85±9.49 | 87.85±8.07 | 92.75±6.26 | ||||||||||||||||||||||||
TC-MLP | 89.6±10.83 | 89.55±12.06 | 92.9±7.69 | 92.8±8.52 | 95.35±6.13 | ||||||||||||||||||||||||
TC-ANOVA-MLP | 91.3±6.15 | 93.0±6.82 | 92.9±5.71 | 91.5±6.18 | 95.05±4.33 | ||||||||||||||||||||||||
FC-MLP | 55.65±18.53 | 62.6±22.12 | 63.35±15.88 | 62.25±21.39 | 63.6±14.13 | ||||||||||||||||||||||||
FC-ANOVA-MLP | 65.45±10.8 | 78.25±8.87 | 73.95±9.81 | 72.35±11.86 | 72.35±8.96 | ||||||||||||||||||||||||
注:加粗字体为各列最优结果。 |
图 10展示了7种模型的混淆矩阵结果,混淆矩阵中每个元素展示了平均值和标准差(括号内为标准差)。可以看出,各模型在运动任务分类过程中受到了运动任务发生在身体相似或同侧部位时的干扰。TC-GRU模型将右脚运动任务分成左脚和右手运动任务的误分率分别为4.35%和2.25%;将左脚运动任务分成右脚和左手运动任务的误分率分别为5.7%和1.2%;将右手运动任务分成左手和右脚运动任务的误分率分别为2.05%和1.1%;将左手运动任务分成右手和左脚运动任务的误分率分别为1.7%和2.05%。除了在分类左脚运动任务时受到的干扰略大于TC-ANOVA-MLP模型,其将左脚分成右脚和左手运动任务的误分率为4.55%和1.25%,TC-GRU在分类其他部位运动任务时受到的干扰都是最小的。即当运动任务发生在身体相似或同侧部位时,TC-GRU模型在进行分类时受到的干扰较小。
3 讨论
基于全脑脑区时间信号,本文提出的TC-GRU模型可以很好地分类5种运动任务。为了表明TC-GRU模型能够有效提取并利用fMRI数据中的时序信息,设计了丰富的对比实验。从实验结果可以看出,在使用全脑脑区时间信号作为特征时,TC-GRU、TC-LSTM、TC-GCN、TC-MLP和TC-ANOVA-MLP模型都可以比较准确地区分手部、脚部和舌头的运动任务,总体准确率都大于92%,其中TC-GRU取得了最高的分类准确率,为94.51%。当运动任务产生在身体的相似或同侧时,会给模型的分类造成一定干扰。对于右脚、左手和右手的运动任务而言,TC-GRU模型在分类时受到的干扰最小。TC-GRU相比其他6个模型在这些运动任务上得到的分类准确率都是最高的。在区分舌头运动任务时,TC-GRU模型也取得了最佳的分类准确率。
TC-GRU模型按时间顺序依次对每个时刻的全脑脑区时间信号进行处理,将不同时刻的时序特征进行融合,得到全脑脑区时间信号的表示,提取出全脑脑区时间信号更为细粒的时序特征,在识别脚部、手部和舌头运动任务时变得更为精准。TC-LSTM也使用了全脑脑区信号的时序特征,表现仅次于TC-GRU模型。而基于全脑脑区时间信号的TC-GCN、TC-MLP和TC-ANOVA-MLP模型都仅考虑某段时间上的整体信息,即将整段信号认为是在同一时刻发生的,处理数据时是对一个完整时间段的全脑脑区时间信号一次性处理,忽略了时序信息,因此结果不够好。总之,在使用样本量较少的情况下,使用时序特征的TC-GRU模型对人脑运动任务分类时表现最优。研究表明,利用GRU模型提取fMRI数据中的时序特征在脑疾病研究中也具有优越性(Yan等,2022)。
在实验结果中,基于全脑脑区时间信号训练的模型在整体表现上优于基于脑功能连接测度训练的模型。可能的原因是功能连接的计算丢失了全脑脑区时间信号中的一些细微信息。
为增加模型的可比性,本文选取的模型都由感知器构成。TC-GRU模型按时间维度展开是一个MLP模型,其中,单层的感知器用来提取某个时刻全脑脑区时间信号的时序特征并输出到下一个感知器。TC-LSTM按时间维度展开也为MLP模型。TC-GCN也用单层感知器更新每个脑区特征。通过实验,对比了利用和未利用fMRI数据中时序信息间的差异,以及利用全脑脑区时间信号和脑功能连接测度的差异。
本文中的数据都是基于360个脑区内的代表性时间信号得到的,为了提高使用数据的可比性,没有与基于3维fMRI图像的3D-CNN网络进行比较。3D-CNN网络具有更高的时间复杂度,对样本量的要求也更高。
4 结论
本文首次利用GRU模型基于全脑脑区时间信号区分不同的人脑运动任务。为了表明GRU确实可以很好地提取和利用fMRI数据中的时序信息,全面公平地比较了7种模型在人脑运动任务分类方面的表现。探索了利用和未利用fMRI数据中的时序信息对模型进行运动任务分类的影响,比较了利用全脑脑区时间信号和脑功能连接测度对模型进行运动任务分类的影响,明确展示出了使用时序信息对运动任务分类的正面作用。
本文提出的基于TC-GRU模型的人脑运动任务分类充分利用了全脑脑区时间信号中更为细粒的时序信息,可以很好地区分不同的运动任务。相对于对比实验的方法,TC-GRU模型取得了更高的分类准确率。在脑科学领域,利用fMRI获取数据探索人类大脑的运动任务功能是研究的热点。对由fMRI估计的全脑脑区时间信号测度而言,GRU模型能够提取出全脑脑区时间信号的时序特征,更有利于任务态数据的分类。
本文方法有些方面仍需要在未来进行完善。首先,由于实验使用的数据集中样本较少,TC-GRU模型是否能够在大样本下仍然具有优异的表现值得进一步检验。其次,虽然本文方法简洁、参数较少,但是深度学习对计算资源需求很大,如何有效利用硬件资源也是一个亟需解决的问题。最后,采用更加先进的超参搜索算法促进分类结果的提升也是未来的改进方向之一。
参考文献
-
Anzellotti S, Coutanche M N. 2018. Beyond functional connectivity: investigating networks of multivariate representations. Trends in Cognitive Sciences, 22(3): 258-269 [DOI:10.1016/j.tics.2017.12.002]
-
Barch D M, Burgess G C, Harms M P, Petersen S E, Schlaggar B L, Corbetta M, Glasser M F, Curtiss S, Dixit S, Feldt C, Nolan D, Bryant E, Hartley T, Footer O, Bjork J M, Poldrack R, Smith S, Johansen-Berg H, Snyder A Z, van Essen D C. 2013. Function in the human connectome: task-fMRI and individual differences in behavior. NeuroImage, 80: 169-189 [DOI:10.1016/j.neuroimage.2013.05.033]
-
Cho K, van Merrienboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H and Bengio Y. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1724-1734[DOI: 10.3115/v1/D14-1179]
-
Gao Y F, Zhang Y M, Wang H L, Guo X J, Zhang J C. 2019. Decoding behavior tasks from brain activity using deep transfer learning. IEEE Access, 7: 43222-43232 [DOI:10.1109/access.2019.2907040]
-
Glasser M F, Coalson T S, Robinson E C, Hacker C D, Harwell J, Yacoub E, Ugurbil K, Andersson J, Beckmann C F, Jenkinson M, Smith S M, van Essen D C. 2016. A multi-modal parcellation of human cerebral cortex. Nature, 536(7615): 171-178 [DOI:10.1038/nature18933]
-
Glasser M F, Sotiropoulos S N, Wilson J A, Coalson T S, Fischl B, Andersson J L, Xu J Q, Jbabdi S, Webster M, Polimeni J R, van Essen D C, Jenkinson M. 2013. The minimal preprocessing pipelines for the Human Connectome Project. NeuroImage, 80: 105-124 [DOI:10.1016/j.neuroimage.2013.04.127]
-
Gonzalez-Castillo J, Hoy C W, Handwerker D A, Robinson M E, Buchanan L C, Saad Z S, Bandettini P A. 2015. Tracking ongoing cognition in individuals using brief, whole-brain functional connectivity patterns. Proceedings of the National Academy of Sciences of the United States of America, 112(28): 8762-8767 [DOI:10.1073/pnas.1501242112]
-
Hebart M N, Baker C I. 2018. Deconstructing multivariate decoding for the study of brain function. NeuroImage, 180: 4-18 [DOI:10.1016/j.neuroimage.2017.08.005]
-
Liu W W, Su Y L, Wunier, Renqingdaoerji. 2018. Mongolian-Chinese machine translation research based on part of speech tagging with gated unit neural network. Journal of Chinese Information Processing, 32(8): 68-74 (刘婉婉, 苏依拉, 乌尼尔, 仁庆道尔吉. 2018. 基于门控循环神经网络词性标注的蒙汉机器翻译研究. 中文信息学报, 32(8): 68-74) [DOI:10.3969/j.issn.1003-0077.2018.08.010]
-
Mensch A, Mairal J, Bzdok D, Thirion B and Varoquaux G. 2017. Learning neural representations of human cognition across many fMRI studies//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. : 5885-5895[DOI: 10.5555/3295222.3295338]
-
Qi Y, Lin H W, Li Y P, Chen J S. 2021. Parameter-free attention in fMRI decoding. IEEE Access, 9: 48704-48712 [DOI:10.1109/ACCESS.2021.3068921]
-
Sutskever I, Vinyals O and Le Q V. 2014. Sequence to sequence learning with neural networks//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 3104-3112[DOI: 10.5555/2969033.2969173]
-
Tan Y M, Liu S W, Lyu X Q. 2018. CNN and BiLSTM based Chinese textual entailment recognition. Journal of Chinese Information Processing, 32(7): 11-19 (谭咏梅, 刘姝雯, 吕学强. 2018. 基于CNN与双向LSTM的中文文本蕴含识别方法. 中文信息学报, 32(7): 11-19) [DOI:10.3969/j.issn.1003-0077.2018.07.002]
-
Thomas A W, Müller K R and Samek W. 2019. Deep transfer learning for whole-brain FMRI analyses//Zhou L P, Sarikaya D, Kia S M, Speidel S, Malpani A, Hashimoto D, Habes M, Löfstedt T, Ritter K and Wang H Z, eds. OR 2.0 Context-Aware Operating Theaters and Machine Learning in Clinical Neuroimaging. Cham, Germany: Springer: 59-67[DOI: 10.1007/978-3-030-32695-1_7]
-
Wang D X, Cui P and Zhu W W. 2016. Structural deep network embedding//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA: ACM: 1225-1234[DOI: 10.1145/2939672.2939753]
-
Wang X X, Liang X, Jiang Z F, Nguchu B A, Zhou Y W, Wang Y M, Wang H J, Li Y, Zhu Y Y, Wu F, Gao J H, Qiu B S. 2020. Decoding and mapping task states of the human brain via deep learning. Human Brain Mapping, 41(6): 1505-1519 [DOI:10.1002/hbm.24891]
-
Yan W Z, Zhao M, Fu Z N, Pearlson G D, Sui J, Calhoun V D. 2022. Mapping relationships among schizophrenia, bipolar and schizoaffective disorders: a deep classification and clustering framework using fMRI time series. Schizophrenia Research, 245: 141-150 [DOI:10.1016/j.schres.2021.02.007]
-
Yang Z, Zuo X N. 2015. Big neuroimaging data-informed mind-brain association studies: methodology and applications. Chinese Science Bulletin, 60(11): 966-975 (杨志, 左西年. 2015. 神经影像大数据与心脑关联: 方法学框架与应用. 科学通报, 60(11): 966-975) [DOI:10.1360/N972014-00806]
-
Yarkoni T, Poldrack R A, Nichols T E, van Essen D C, Wager T D. 2011. Large-scale automated synthesis of human functional neuroimaging data. Nature Methods, 8(8): 665-670 [DOI:10.1038/nmeth.1635]
-
Zhang Y, Tetrel L, Thirion B, Bellec P. 2021. Functional annotation of human cognitive states using deep graph convolution. NeuroImage, 231: #117847 [DOI:10.1016/j.neuroimage.2021.117847]
-
Zhuang L S, Lyu Y, Yang J, Li H Q. 2019. Long term recurrent neural network with state-frequency memory. Journal of Computer Research and Development, 56(12): 2641-2648 (庄连生, 吕扬, 杨健, 李厚强. 2019. 时频联合长时循环神经网络. 计算机研究与发展, 56(12): 2641-2648) [DOI:10.7544/issn1000-1239.2019.20180474]