0引言在高速累积的大规模数据、快速迭代的算法模型以及飞速提升的计算能力等多种因素共同驱动下,深度学习技术在计算机视觉、语音分析和自然语言处理等研究领域取得巨大成功。原本严重依赖专家知识进行人工特征提取的医学图像挖掘逐渐被以卷积神经网络(convolution neural networks,CNN)为代表的端到端深度学习技术所取代。深度学习技术在医学图像分割(Gupta和Anand,2017;von Landesberger等,2016)、分类(Soulami等,2017)和异常检测(Hong等,2019a)等个别领域的准确率已接近甚至超越业内专家(Han等,2018)。总体来看,基于卷积的深度神经网络具有平移不变性、平移等价性、尺度不变性、共享卷积核和快速自动特征提取的特点,在医学图像领域的研究取得了显著成果。但是,随着研究的不断深入,CNN的局限也日益明显:严重依赖几何先验条件;不规则图像所需的填充处理易引入额外噪声;共享卷积核所需的数据转换操作往往造成部分特征信息的丢失;提取的局部信息难以捕捉数据对象间的内在关系。针对上述难点,图神经网络(graph neural networks,GNN)提供了强大且直观的建模方法,能够有效解决非欧氏空间的建模问题。该方法以研究对象为节点,以对象之间的关联性或相似性作为边。其中,节点代表对象在特定时间点被采集的数据或在特定时间段内以特定形式被采集的数据。GNN能够处理复杂成对交互作用以及整合非欧氏空间数据,充分利用对象之间的内在关系,提取对象之间的不可见关系,已广泛应用于监督学习、非监督学习和聚类等研究领域。此外,不同于CNN对几何先验条件的严重依赖,GNN放宽了对先验条件的假设。对于CNN难以选取固定的卷积核去适应整个图的不规则性(邻居节点数量和节点顺序的不确定性)的问题,GNN提供了能够处理不固定大小的乱序输入算法。对GNN的研究可以追溯到Scarselli等人(2009)的开创性工作。他们设计了从图结构空间到m维欧氏空间的映射函数,并提出一种可以更新GNN模型中参数的监督学习算法。但这个模型并未使用卷积思想,后来Bruna等人(2014)将频谱图理论中的卷积思想与GNN结合,提出了图卷积网络(graph convolution networks,GCN),近年来发展迅速,在自闭症检测(Arya等,2020)、多发性硬化症检测(Marzullo等,2019)、血管分割(Shin等,2019)、新冠肺炎检测(Wang等,2021;Yu等,2021)以及脑组织分割(Zhang等,2019)等医学图像处理领域取得了良好效果。统计Web of Science数据库相关论文后发现,自1999年以来,以图卷积为主题的研究热潮不断涌现,其中2016年论文数量增长17 %,2018年增长率达到59 %,2020年激增至74 %,基于GCN的医学图像研究已成为继CNN之后的又一领域热点。本文详细梳理了以GCN为代表的医学GNN相关成果,提炼了图结构视角下的医学图像特点和图构造方法,归纳了GCN理论基础,指出了GCN改进路径,分析了GCN在医学图像领域的重要应用,最后总结并展望了GCN在医学图像挖掘中亟待突破的难题。1图结构视角下的医学图像GCN可用的医学图像数据一般通过3种不同方法进行处理:利用专业的医学图像采集设备;医学图像转换;提取医学图像特征的结构重构。1.1专业医疗设备的数据采集通过专业的医学图像工具采集图结构数据,直接作用于GCN,保证数据特征的完整性。该方法常见于脑部磁共振(magnetic resonance,MR)图像的图构造(Song等,2019),能够从一系列弥散MR图像中计算出结构性网络,并从相应的T1加权磁共振扫描中获得解剖学参考信息,进而利用弥散张量成像(diffusion tensor imaging,DTI)技术获取脑白质纤维束图像,最终通过光纤计数得到图结构的邻接矩阵。1.2医学图像数据的图结构转换如Yang等人(2019)所述,对于一个大小为$ n×n $的图像,可以构造$ n×n $的网格作为无向图${\boldsymbol{G}} $的节点,其节点个数为$ n^2 $。在网格中任意两个顶点$u $和$ v$之间构造一条边,形成一个完全无向图$ \hat {\boldsymbol{G}}$,并计算两个顶点$u $和$ v$之间的欧氏距离作为相应边的权值。通过医学图像加权完全无向图稀疏剪枝算法(战宇等,2016)对$ \hat {\boldsymbol{G}}$进行剪枝,得到的稀疏加权无向图${\boldsymbol{G}} $即为GCN模型可用的图结构数据。图稀疏剪枝算法能够通过对节点的迭代,舍弃部分不重要的边,该算法主要包括3个步骤:1)在输入的加权完全无向图${\boldsymbol{G}} '$中遍历每个顶点$ v_i$,为每个顶点$ v_i$构造一个队列,并根据权重以升序将顶点$ v_i$的边及其权重信息存储在该队列中;2)将顶点$ v_i$的前$ e$条边移出队列,并将其放入集合$ {\boldsymbol{S}}$中;3)找到集合$ {\boldsymbol{S}}$中的所有重复边,将这些边放入集合$ {\boldsymbol{S}}'$,然后将不包含在集合$ {\boldsymbol{S}}'$中的边从图${\boldsymbol{G}}' $中删除,以获得剪枝后的加权无向图$ G$。1.3基于医学图像特征的图结构重构如Yu等人(2021)所述,对从图像中提取的特征信息进行特征重构,保证单个特征在被相邻特征重构时会得到增强。以每个图像中提取的单个特征为节点,将特征进行批量分割,通过KNN(K-nearest neighbor)算法得到图的边。该重构算法能够快速准确地完成特征重构,主要步骤包括:1)将特征分为多个批次,各批次特征视为一个图,单个特征为图的节点;2)计算同一个图中各节点到其他节点之间的欧氏距离;3)查找各节点距离最近的$k $个邻接节点,在对应$k $个邻接节点的位置分配一个正值,得到最终的邻接矩阵。2GCN理论基础GCN的重要架构包括图卷积层、图读出层以及提高模型泛化性能的图正则化层和减少计算参数量的图池化层。2.1图卷积层图卷积层利用图结构信息完成节点特征或边特征的更新。如图 1所示,图卷积的方法可分为两大类:基于频谱的图卷积操作,借助图频谱的理论来实现拓扑图上的卷积操作;基于空间域的图卷积操作,直接将卷积操作定义在每个节点的连接关系上。Bruna等人(2014)首次提出了基于频谱图理论的图卷积方法。此后,基于频谱的图卷积(Defferrard等,2016;Kipf和Welling,2017;Levie等,2019)得到不断改进和优化。基于空间域的图卷积研究始于Micheli(2009)的研究。该方法通过体系结构上的复合非递归层解决图的相互依赖问题,同时继承了GRecNN(graph recursive neural networks)的消息传递思想。 图1 图卷积基础理论发展时间轴 Timeline of graph convolution theory developmentFig 12.1.1基于频谱的图卷积操作基于频谱的图卷积操作在图信号处理中具有坚实的数学基础(Sandryhaila和Moura,2013;Shuman等,2013)。该类方法假设图是无向的,通过拉普拉斯矩阵将图卷积定义为 1 $\begin{aligned}\boldsymbol{x} * \boldsymbol{G g}=& F^{-1}(F(\boldsymbol{x}) \odot F(\boldsymbol{g}))=\\& \boldsymbol{U}\left(\boldsymbol{U}^{\mathrm{T}} \boldsymbol{x} \odot \boldsymbol{U}^{\mathrm{T}} \boldsymbol{g}\right)\end{aligned}$ 式中,${\boldsymbol{x}} $是输入特征,${\boldsymbol{Gg}} $表示图${\boldsymbol{G}} $的滤波器${\boldsymbol{g}} $,${\boldsymbol{g}} $ ∈ $ {{\bf{R}}}^N$是一个参数矩阵,⊙表示哈达玛积,$F({\boldsymbol{x}})$ = ${\boldsymbol{U}}^{\rm{T}} $${\boldsymbol{x}} $为傅里叶变换,$F^{-1}({\boldsymbol{x}})$ = $ {\boldsymbol{Ux}}$为傅里叶逆变换,$\boldsymbol{U}=\left[\boldsymbol{u}_{0}, \boldsymbol{u}_{1}, \cdots, \boldsymbol{u}_{n-1}\right] \in {{\bf{R}}}^{n \times n}$是一个按照输入特征${\boldsymbol{x}} $对应特征值排序的特征向量矩阵。将滤波器定义为${\boldsymbol{g}}_θ $ = ${\rm{diag}}({\boldsymbol{U}}^{\rm{T}} $${\boldsymbol{g}})$,图卷积可以简化为 2 $\boldsymbol{x} * \boldsymbol{G g}=\boldsymbol{U g}_{\theta} \boldsymbol{U}^{\mathrm{T}} \boldsymbol{x}$ 从式(2)可以看出,基于频谱的图卷积操作关键在于滤波器的选择,也就是${\boldsymbol{g}}_θ $的选择,因此基于频谱的图卷积算法改进,是从改进${\boldsymbol{g}}_θ $的角度出发。Bruna等人(2014)提出的谱卷积神经网络(spectral convolution neural network,spectral CNN)假设滤波器${\boldsymbol{g}}_θ ={\mathit{{\pmb{\Theta}}}}_{i, j}^{(k)}$是一组可学习参数,并考虑多通道的图信号,将spectral CNN的图卷积定义为 3 $\begin{gathered}\boldsymbol{H}_{:, j}^{(l)}=\sigma\left(\sum\limits_{i=1}^{f_{l-1}} \boldsymbol{U} \boldsymbol{\varTheta}_{i, j}^{(l)} \boldsymbol{U}^{\mathrm{T}} \boldsymbol{H}_{:, i}^{(l-1)}\right) \\j=1,2, \cdots, f_{l}\end{gathered}$ 式中,$ l$是对层序的索引,$\boldsymbol{H}^{(l-1)} \in {\bf{R}}^{n \times f_{l-1}} $是输入的图信号,$\boldsymbol{H}^{(0)}=\boldsymbol{X}, f_{l-1} $是输入特征的通道数,$ f_l$是输出特征的通道数,${\mathit{{\pmb{\Theta}}}}_{i, j}^{(l)} f_{l} $是含有可学习参数的对角矩阵。基于频谱的图卷积操作非常依赖拉普拉斯矩阵的特征分解,存在3个缺陷。1)图结构的特征分解过程非常耗时,时间复杂度达到$ {\rm{O}}\left(n^{3}\right) $;2)图卷积操作依赖图邻接矩阵所生成的拉普拉斯矩阵,一旦改变图结构,拉普拉斯矩阵的特征值也会随之改变,需要重新进行特征分解;3)基于频谱的图卷积训练出的滤波器无法扩展到不同频谱结构的图中,同时,由于拉普拉斯矩阵的对称性,基于频谱的图卷积操作无法应用于无向图。切比雪夫谱卷积神经网络(Chebyshev spectral CNN,ChebNet)(Defferrard等,2016)和一阶近似ChebNet (first order of ChebNet)(Kipf和Welling,2017)通过对${\boldsymbol{g}}_θ $进行若干近似和简化,将时间复杂度降低到${\rm{O}}\left(n\right)$。ChebNet(Defferrard等,2016)利用特征值对角矩阵的切比雪夫多项式逼近滤波器${\boldsymbol{g}}_θ $得到 4 $\boldsymbol{g}_{\theta}=\sum\limits_{i=0}^{k} \boldsymbol{\theta}_{i} T_{i}(\widetilde{\boldsymbol{\varLambda}})$ 式中,$ k$为阶数,$\tilde{{\mathit{\pmb{\Lambda}}}}=2 {\mathit{\pmb{\Lambda}}} / \lambda_{\max }-\boldsymbol{I}_{n}, \lambda $为邻接矩阵的特征值,$ {\mathit{\pmb{\Lambda}}} \in[-1, 1]$是邻接矩阵的特征值对角矩阵,$ {\boldsymbol{I}}$为单位矩阵,$ {\mathit{{\pmb{θ}}}}$为可学习参数矩阵,$T_{i}(\cdot) $由切比雪夫多项式递推得到。将图信号${\boldsymbol{x}} $与滤波器${\boldsymbol{g}}_θ $的图卷积定义为 5 $\boldsymbol{x} * \boldsymbol{G} \boldsymbol{g}_{\theta}=\boldsymbol{U}\left(\sum\limits_{i=0}^{k} \boldsymbol{\theta}_{i} T_{i}(\widetilde{\boldsymbol{\varLambda}})\right) \boldsymbol{U}^{\mathrm{T}} \boldsymbol{x}$ Kipf和Welling(2017)提出ChebNet的一阶近似形式,假设$ k=1 \text { 且 } \lambda_{\max }=2$,将式(5)简化为 6 $\boldsymbol{x} * \boldsymbol{G g}_{\theta}=\boldsymbol{\theta}_{0} \boldsymbol{x}-\boldsymbol{\theta}_{1} \boldsymbol{D}^{-\frac{1}{2}} \boldsymbol{A} \boldsymbol{D}^{-\frac{1}{2}} \boldsymbol{x}$ 式中,$ {\boldsymbol{D}}$为图的度矩阵,是一个对角矩阵,$ \boldsymbol{D}_{i i}= \sum\limits_{j}\left(\boldsymbol{A}_{i, j}\right), \boldsymbol{A}$为图${\boldsymbol{G}} $的邻接矩阵。为避免过拟合,限制参数数量,Kipf和Welling(2017)进一步假设$ \boldsymbol{\theta}=\boldsymbol{\theta}_{0}=-\boldsymbol{\theta}_{1}$,得到图卷积定义 7 $\boldsymbol{x} * \boldsymbol{G} \boldsymbol{g}_{\theta}=\boldsymbol{\theta}\left(\boldsymbol{I}+\boldsymbol{D}^{-\frac{1}{2}} A \boldsymbol{D}^{-\frac{1}{2}}\right) \boldsymbol{x}$ 考虑到图信号的多通道,Kipf和Welling(2017)将式(7)修改为一个组合层,定义图卷积层为 8 $\boldsymbol{H}=\boldsymbol{X} * \boldsymbol{G} \boldsymbol{g}_{\theta}=f(\overline{\boldsymbol{A}} \boldsymbol{X} \boldsymbol{\varTheta})$ 式中,$ \overline{\boldsymbol{A}}=\boldsymbol{I}_{n}+\boldsymbol{D}^{-1 / 2} \boldsymbol{A} \boldsymbol{D}^{-1 / 2}, f(\cdot)$是一个激活函数,$ {\boldsymbol{X}}$是输入的图信号,$ {\mathit{{{\pmb{Θ}}}}}$是可学习参数的矩阵。Kipf和Welling(2017)提出一个正则化方法从而避免GCN的数值不稳定,用$\widetilde{\boldsymbol{A}}=\boldsymbol{A}+\boldsymbol{I} \text {和} \boldsymbol{D}_{i i}= \sum\limits_{j} \widetilde{\boldsymbol{A}}_{i j} \text { 将 } \overline{\boldsymbol{A}}=\boldsymbol{I}_{n}+\boldsymbol{D}^{-1 / 2} \boldsymbol{A} \boldsymbol{D}^{-1 / 2} \text { 替 换 为 } \overline{\boldsymbol{A}}= \widetilde{D}^{-1 / 2} \widetilde{A} \bar{D}^{-1 / 2}$。凯莱谱卷积神经网络(Cayley spectral CNN,CayleyNet)(Levie等,2019)进一步利用参数有理复合函数(Cayley多项式)有效地计算专用于感兴趣频段图上的频谱滤波器。CayleyNet的图卷积定义为 9 $\begin{gathered}\boldsymbol{x} * \boldsymbol{G} \boldsymbol{g}_{\theta}=c_{0} \boldsymbol{x}+ \\2 {Re}\left\{\sum\limits_{j=1}^{r} c_{j}(h \boldsymbol{L}-\mathrm{i} \boldsymbol{I})^{j}(h \boldsymbol{L}+\mathrm{i} \boldsymbol{I})^{-j} \boldsymbol{x}\right\}\end{gathered}$ 式中,${\mathit{Re}}(\cdot) $返回复数的实部,$c_0 $是实系数,$c_j $是复系数,${\rm{i}} $是虚部,$ h$是控制Cayley滤波器频谱的参数,${\boldsymbol{L}} $是拉普拉斯矩阵。ChebNet是CayleyNet的一个特例。2.1.2基于空间域的图卷积操作基于空间域的图卷积操作模仿CNN中的卷积运算,根据节点的空间关系定义图卷积操作。该方法摆脱了基于频谱的图卷积操作对拉普拉斯矩阵的依赖,能够将图卷积操作应用于有向图。如图 2所示,基于空间域的图卷积操作是根据边的特征信息对图中的节点与其邻域节点进行特征聚合,得到该节点的新表示。基于空间域的图卷积操作定义为 10 $\boldsymbol{h}_{i}^{(l+1)}=\sigma\left(\sum\limits_{j \in \boldsymbol{N}(i)} \frac{1}{c_{i j}} \boldsymbol{W}^{(l)} \boldsymbol{h}_{j}^{(l)}\right)$ 图2 2D卷积和图卷积的对比(Wu等,2021) Comparison of 2D convolution and graph convolutionFig 2((a)2D convolution; (b)graph convolution)(Wu et al., 2021) 式中,$\boldsymbol{h}_{j}^{(l)} $表示节点$j $在$l $层的特征矩阵,$c_{i j}= \sqrt{|\boldsymbol{N}(j)|} \cdot \sqrt{|\boldsymbol{N}(i)|}$表示归一化因子,${\boldsymbol{W}}^{(l)} $表示可学习权重矩阵,$ σ(·)$是一个激活函数,$ {\boldsymbol{N}}(i) $表示节点$ i $的所有邻接节点所组成的集合。在早期的研究中,面向图的神经网络(neural network for graphs,NN4G)(Micheli,2009)与GNN并行提出,是基于空间域GCN的第1个工作。NN4G通过直接求和节点邻域信息来进行图卷积,应用残差连接和跳跃连接存储每一层的信息,其图卷积操作定义为 11 $\begin{aligned}&\boldsymbol{h}_{v}^{(l+1)}=\sigma\left(\boldsymbol{W}^{(l+1)^{\mathrm{T}}} \boldsymbol{x}_{v}+\right. \\&\ \ \left.\sum\limits_{i=1}^{l} \sum\limits_{u \in \boldsymbol{N}(v)} \boldsymbol{\varTheta}^{(i+1)^{\mathrm{T}}} \boldsymbol{h}_{u}^{(i)}\right)\end{aligned}$ 式中,$ \boldsymbol{h}_{v}^{(0)}=\boldsymbol{O} $。基于NN4G模型,Bacciu等人(2018)提出名为上下文图马尔可夫模型(contextual graph Markov model,CGMM)的概率模型,使得GCN在保持空间局部性的同时具有概率可解释性。基于递归神经网络的思想,Li等人(2018c)将图卷积视为一个扩散的过程,提出扩散卷积神经网络(diffusion convolutional neural network,DCNN)。该方法通过对递归函数施加约束,使用门递归单元体系对节点进行随机异步更新,直至图节点的潜在表示达到稳态,将图卷积定义为 12 $\boldsymbol{H}^{(l)}=f\left(\boldsymbol{W}^{(l)} \odot \boldsymbol{P}^{l} \boldsymbol{X}\right)$ 式中,$ f(\cdot) \text { 是一个激活函数, } \boldsymbol{P}=\boldsymbol{D}^{-1} \boldsymbol{A} $。Gilmer等人(2017)将图卷积视为一个消息传递的过程,消息沿着边在节点之间进行传递,提出消息传递神经网络(message passing neural network,MPNN)。该方法定义为 13 $\boldsymbol{h}_{v}^{(l)}=U_{l}\left(\boldsymbol{h}_{v}^{(l-1)}, \sum\limits_{u \in \boldsymbol{N}(v)} M_{l}\left(\boldsymbol{h}_{v}^{(l-1)}, \boldsymbol{h}_{u}^{(l-1)}, \boldsymbol{x}_{v u}^{\mathrm{e}}\right)\right)$ 式中,$ \boldsymbol{h}_{v}^{(0)}=\boldsymbol{x}_{v}^{0}, U_{l}(\cdot) \text {和} M_{l}(\cdot) $是具有可学习参数的函数。Xu等人(2019)发现,同构图和非同构图的特征提取结果差异明显,基于MPNN的模型无法区分不同的同构图,于是提出图同构网络(graph isomorphism network,GIN),即 14 $\boldsymbol{h}_{v}^{(l)}=M L P^{(l)}\left(\left(1+\mathrm{e}^{(l)}\right) \boldsymbol{h}_{v}^{(l-1)}+\sum\limits_{u \in \boldsymbol{N}(v)} \boldsymbol{h}_{u}^{(l-1)}\right)$ 式中,$ MLP(·) $表示多元感知器。总体来看,基于空间域的图卷积操作分为3步。1)每个节点将自身的特征信息传递给邻居节点;2)每个节点将邻居节点及自身的特征信息进行汇集,对局部结构进行融合;3)在图卷积中加入激活函数,对节点的信息做非线性变换,增强模型的表达能力。因此,图卷积网络的关键是学习到一个非线性函数,将当前节点的特征信息与其邻居节点的特征信息进行聚合。2.2图池化层与卷积神经网络类似,图池化层能够有效降低参数规模,提高学习效率。图池化可以理解为对图结构的下采样,其操作有最大池化、平均池化及求和池化。图信号快速池化的关键是在保持原图局部几何信息和连接信息不变的同时减小图规模。Karypis和Kumer(1998)在Metis图分割算法中提出图信号快速池化方法,通过节点融合从原始图${\boldsymbol{G}} _i=({\boldsymbol{V}}_i, {\boldsymbol{E}}_i)$中得到一组较小的图${\boldsymbol{G}} _{i+1}=({\boldsymbol{V}}_{i+1}, {\boldsymbol{E}}_{i+1})$。Defferrard等人(2016)根据基于Metis图分割算法(Karypis和Kumar,1998)所构造的Graculus(Dhillon等,2007)算法,在池化的每一级上选择未标记的顶点$u $,并将其与一个无标记的邻居$ v$匹配,使局部归一化割集$ W_{u v}\left(1 / d_{u}+1 / d_{v}\right) $最大化。$ W_{uv} $是对应顶点$u $和$ v$间的边权重,$ d_u $和$ d_v $是对应顶点$u $和$ v$的度。通过图池化算法能减小图规模,降低空间复杂度。Zhang等人(2018a)提出一种类似DCNN的池化策略,称为SortPooling。它利用WL(Weisfeiler-Lehman)算法将节点排序,然后取前$ K $个节点完成图池化。Hamilton等人(2017)提出GraphSAGE(graph sample and aggregate)算法使用均匀随机采样方法,为每个节点选取固定数量的邻居节点。Vinyals等人(2016)提出Set2Set算法,利用注意力机制生成随着输入大小增加的记忆,随后在池化之前实现一个长短期记忆(long short-term memory,LSTM),保证池化过程不会丢失重要节点。Ma等人(2019)提出谱池化(eignpooling)算法,利用谱聚类将整个大图划分成几个不存在重叠的子图,每个子图作为池化后新图的一个节点,新图的边基于子图的边产生,从而在池化过程中充分利用节点特征和局部结构。此外,You等人(2020)提出一种新的GCN分层训练算法,其核心思想是将每层前向图卷积层中的两个关键操作(特征聚合和特征变换)进行解耦,减轻这两个操作级联导致的复杂度呈指数级增长的问题。总之,图池化层是减小图规模的一个基本层,如何提高图池化算法的有效性和降低图池化算法的计算复杂度是GCN的一个重要研究方向。2.3图正则化层图正则化层可以提高模型的泛化性,减轻模型的过拟合问题和过平滑问题。Kipf和Welling(2017)的实验结果显示,仅使用Dropout随机删除节点不能有效防止过平滑(部分是由于过拟合),但Rong等人(2020)的实验结果显示,将DropEdge(从图中随机删除一组边)与Dropout进行组合可以缓解过平滑问题和过拟合问题。Li等人(2018a)利用特征分解给出GCN必定过平滑的证明,认为同一连通分量内的节点表征会趋向于收敛到同一特征向量,Huang等人(2021)和Yang等人(2020a)也同样证明过平滑是GCN网络的特性。于是Zhao和Akoglu(2020)假定成对节点间的特征向量的距离之和为一个常数,使距离较远的节点的特征向量距离也较远,避免节点的表示变得过于相似。在此基础上,Hasanzadeh等人(2020)提出自适应连接(graph adaptive connection,GDC)算法,该算法可以对GNN通道的邻域聚合过程进行正则化,防止图中连接节点在GNN层中具有相同的学习表示,从而在提高模型性能的同时避免出现严重的过平滑问题。现有的GNN正则化技术(Chen等,2015;Rong等,2020;Srivastava等,2014)可以视为GDC的特例。2.4图读出层图卷积层的输出包含不同的结构特征、节点特征和边特征。为完成最终的特征分类,需聚合所有特征信息,此操作称为读出操作(readout),其作用与CNN的全连接层作用类似。常见的读出操作包括所有节点特征或边特征的求和、求平均、最大或最小值,其操作基本类似。例如,平均节点特征的操作为 15 $\boldsymbol{h}_{g}=\frac{1}{|\boldsymbol{V}|} \sum\limits_{v \in \boldsymbol{V}} \boldsymbol{h}_{v}$ 式中,$ {\boldsymbol{h}}_g $为最后输出的单个节点特征向量,$ {\boldsymbol{h}}_v $为输入的所有节点特征向量。与上述基本读出方法不同,Li等人(2018c)将从基于空间域的图卷积得到的无序图节点特征视为连续的WL颜色,根据图结构特征对节点进行排序,输出至分类器中。3GCN改进GCN的改进方向与CNN类似。例如,通过基于跳跃连接机制的残差连接和密集连接加深网络模型,引入注意力机制和inception机制等。此外,还从图构造方向入手,对邻接矩阵进行重构。3.1跳跃连接机制模型加深是GCN模型架构的重要优化方向。Kipf和Welling(2017)的研究表明,当网络层数超过5层时,过平滑问题会导致模型性能下降。为解决过平滑问题,Kipf和Welling(2017)利用跳跃连接机制添加残差连接,将节点自身的特征从上一层直接传输到下一层 16 $\begin{aligned}\boldsymbol{Z}^{(l+1)} &=\hat{\boldsymbol{D}}^{-\frac{1}{2}} \hat{\boldsymbol{A}} \hat{\boldsymbol{D}}^{-\frac{1}{2}} \boldsymbol{X}^{(l)} \boldsymbol{W}^{(l)} \\\boldsymbol{X}^{(l+1)} &=\sigma\left(\boldsymbol{Z}^{(l+1)}\right)+\boldsymbol{X}^{(l)}\end{aligned}$ Chiang等人(2019)认为残差模块完全忽略了相邻节点的权重,于是对节点自身的特征权重进行加强,改进式(16)得到 17 $\boldsymbol{X}^{(l+1)}=\sigma\left(\left(\hat{\boldsymbol{D}}^{-\frac{1}{2}} \hat{\boldsymbol{A}} \hat{\boldsymbol{D}}^{-\frac{1}{2}}+\boldsymbol{I}\right) \boldsymbol{X}^{(l)} \boldsymbol{W}^{(l)}\right)$ Yang等人(2020a)研究发现,利用跳跃连接机制建立的深层GCN模型能够在训练过程中学习到抗过度平滑能力,真正影响模型性能的原因在于过拟合问题。此外,陆续也有工作借助DenseNet的密集连接思想,设计深层GCN模型。例如,Li等人(2019)在点云分割任务中构建了64层的GCN模型,取得当时最优结果。Xu等人(2018)提出的JK(jumping knowledge)框架可以与多种GNN结合,能有效地提高模型的性能。3.2inception机制Abu-El-Haija等人(2020)模仿inception的思路加宽网络,提出了N-GCN(network of GCN),将多个不同GCN的输出进行组合,提高模型对节点的表征能力。Frasca等人(2020)将GCN、SGCN(synergic graph convolution network)和ChebNet等相关方法加以推广,提出SIGN(scalable inception graph neural networks),其架构类似于inception模块(Kazi等,2019;Szegedy等,2015),能够通过组合不同大小的图卷积滤波器进行有效的预计算,极快地进行模型训练和推理。Zhu等人(2019)认为,深层GCN所构造的高阶图会造成信息冗余,同时加深GCN的操作会忽略图结构权重,改变节点间原有的关系。作者提出多跳(multi-hop)GCN,该模型架构类似于inception架构,由多个GCN分支组成,每个分支从不同跳数的邻居处捕获节点表示,进而利用自适应权重层融合所有分支信息,能够在不添加冗余信息的情况下系统地聚合多尺度上下文信息,显著提高医学图像分类精度。3.3图注意力机制Veličković等人(2018)将注意力机制引入GCN并提出GAT(graph attention network)模型。GAT假设邻近节点对中心节点的贡献既不像GraphSAGE那样完全相同,也不像ChebNet那样可以预先确定,而是需要采用注意力机制学习两个连通节点之间的相对权值,利用注意力系数对邻域节点进行有区别的信息聚合。在此过程中,注意力权重能够把邻居节点(一阶邻域)的表达以加权求和形式聚合到自身。Zhang等人(2020)在肝部血管形态重建任务中,使用4个图注意力层获得潜在的节点表示,完成对假阳性分支的修剪,其中图注意力层的第$ i $个节点特征$ {\boldsymbol{h}}_i^0 $计算为 18 $\boldsymbol{h}_{i}^{\prime}=\|_{k=1}^{K} \sigma\left(\sum\limits_{j \in \boldsymbol{N}_{i}} \alpha_{i j}^{k} \boldsymbol{W}^{k} \boldsymbol{h}_{j}\right)$ 式中,$ {\boldsymbol{N}}_i $是图中节点$ i $的一阶邻域,$ {\boldsymbol{W}}^k $对应第$ k $个注意力头的输入线性变换权重矩阵,‖表示串联,$ K $为多头注意力个数,$ k $为第$ k $个注意力头,$ σ $是ReLU激活函数,注意力系数$ \alpha_{i}^{j} $的计算公式为 19 $\alpha_{i j}=\frac{\exp \left(\sigma\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W} \boldsymbol{h}_{i} \| \boldsymbol{W} \boldsymbol{h}_{j}\right]\right)\right)}{\sum\limits_{k \in \boldsymbol{N}_{i}} \exp \left(\sigma\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W} \boldsymbol{h}_{i} \| \boldsymbol{W} \boldsymbol{h}_{k}\right]\right)\right)}$ 式中,$ {\boldsymbol{a}} $是单层注意力的权重向量,$ σ $是LeakyReLU激活函数。输出层为 20 $\boldsymbol{h}_{i}^{\prime}=S\left(\frac{1}{K} \sum\limits_{k=1}^{K} \sum\limits_{j \in \boldsymbol{N}_{i}} \alpha_{i j}^{k} \boldsymbol{W}^{k} \boldsymbol{h}_{j}\right)$ 式中,$ S $是sigmoid函数。定义置信度分数为$G(i)= \frac{1}{\left|\boldsymbol{B}_{i}\right|} \sum\limits_{b \in \boldsymbol{B}_{i}} t_{b}, \boldsymbol{B}_{i} $表示分支节点$ i $的邻域分支集合。当分支$ b $在预测中心线一定距离内时,$ t_b=1 $,否则$ t_b=0 $;当置信度低于某个阈值时,将该分支舍去。3.4邻接矩阵重构另一种改进方法是以重新构造邻接矩阵的方式改进GCN。例如,自适应图卷积网络(adaptive graph convolution network,AGCN)(Li等,2018b)能够学习图邻接矩阵未指定的隐藏结构,以一个成对节点特征为输入的可学习距离函数构造残差图邻接矩阵,从而得到性能更好的GCN模型。Yan等人(2018)提出分区图卷积(partition graph convolution,PGC)算法。该算法基于最短路径的准则将节点的邻居划分为$ Q $组,然后根据每组定义的邻域构造$ Q $个邻接矩阵,将具有不同参数矩阵的GCN应用于每个相邻组,并将结果相加 21 $\boldsymbol{H}^{(l)}=\sum\limits_{j=1}^{Q} \overline{\boldsymbol{A}}{}^{(j)} \boldsymbol{H}^{(l-1)} \boldsymbol{W}^{(j, l)}$ 式中,$ \begin{array}{l} \boldsymbol{H}^{(0)}=\boldsymbol{X}, \overline{\boldsymbol{A}}^{(j)}=\left(\widetilde{\boldsymbol{D}}^{(j)}\right)^{-1 / 2} \widetilde{\boldsymbol{A}}^{(j)}\left(\widetilde{\boldsymbol{D}}^{(j)}\right)^{-1 / 2}, \widetilde{\boldsymbol{A}}^{(j)}=\boldsymbol{A}^{(j)}+\boldsymbol{I}\end{array} $。4GCN在医学图像分析上的应用医学图像分析旨在协助医生提高诊断和治疗效率,是疾病诊断和治疗的重要组成部分。GCN在医学图像分析中的应用主要集中在组织高效分割、疾病精准检测以及图像重建等方面。4.1结构分割GCN在器官分割中的研究主要集中在血管分割和组织分割两个方面。4.1.1血管分割血管分割是图像分割技术在医学领域的重要应用,血管的精确提取可以辅助医生诊断心血管疾病并确定治疗方案,在临床医疗中发挥着重要作用。在近几年的血管分割研究中,Shin等人(2019)突破性地将CNN与GCN结合在一起,共同学习血管形状的整体结构和局部外观。首先将原始图像分割成等大的斑块并标记,利用CNN模块提取每个斑块的局部外观特征,以推断输入图像的血管像素级概率图。然后使用形态学细化算法对血管概率图进行骨架化,并通过等距采样算法在骨架上以及骨骼关节处生成节点,进而基于血管概率图上的骨骼连通性或节点之间的距离生成边,从而利用GCN学习原始图像的整体结构特征。最后使用推断模块,组合CNN和GCN模块对血管进行像素级预测,得到最终的分割结果。Zhai等人(2019)基于血管分割GCN算法前期研究,直接将提取的特征图输入到GCN中,对GCN进行训练,并对每个斑块进行预测,以达到分割动脉和静脉的目的。Yang等人(2020b)提出一种条件部分残差连接图卷积网络,该网络能够充分利用心脏计算机断层扫描(computed tomography,CT)血管造影图像中的位置信息和3维图像信息,将局部残差块应用于ROI(region of interest)特征,同时利用3DCNN和双向长短期记忆(bi-directional long short-term memory,BiLSTM)提取每个分支的特征,组成端到端训练模型完成冠状动脉的分割。Wolterink等人(2019)放弃体素分割思路,使用GCN直接优化冠状动脉表面网格顶点的位置,将冠状动脉腔表面网格上的顶点视为图节点,并对每个图节点求解回归问题,顶点的预测依赖于局部特征以及网格上相邻顶点的内部表示。Zhou(2020)提出一种全新的残差门控图卷积网络。在该网络中,以动脉树中的血管段为节点,以父段和两个子分支之间的相对角度,以及血管段开始、中间和结束处的方向作为节点特征,通过预测两两节点之间是否连接,将缺失连接的血管连接起来,完成解剖动脉标记任务。与上述研究不同,Yao等人(2020b)选择将GCN应用于点云体素结构,利用血管管状结构的先验知识,明确地学习管状结构的解剖形状,不仅可以学习全局血管结构,还可以学习局部血管形状,能精确地在CT血管造影图像中分割出头颈部血管。4.1.2组织分割Zhang等人(2019)利用改进的简单线性迭代聚类算法从3维MR图像中生成超体素,再通过KNN算法从超体素中构建图结构,最后输入GCN完成脑组织的分割。同时,Tian等人(2020)提出了一种基于GCN的多尺度卷积神经网络编码器,该编码器通过学习具有代表性的特征来获得精确分割前列腺轮廓。Wu等人(2019)利用GCN强大的学习能力,在不需要球面映射的情况下,将大脑皮层直接分割到原始皮层表面,并使用核策略将图卷积扩展到曲面流形,使模型能够克服不同对象间形状差异问题,从而解决大脑局部内在表面斑块上皮质属性模式与分割标签之间的高度非线性映射难题。Gopinath等人(2019)利用图卷积网络中的频谱坐标去拟合学习算法和几何结构之间的差异。该方法使用频谱过滤器对表面邻域内在表示进行图卷积操作,可以跳过学习大脑皮层表面基础的过程,直接学习大脑皮层表面数据的分类,完成大脑皮层的分割任务。Joshi和Sharma(2021)通过CNN自动编码器和GCN对多发性硬化症进行病灶分割。该模型首先使用CNN自动编码器结构对图像进行处理,将图像转换为图结构数据,然后将图结构数据输入至GCN架构,并通过加权归一化矩阵修正模型,在训练过程中添加节点与邻域节点之间的差异性信息和相关性信息,有效提高了多发性硬化病变组织分割的精度。表 1梳理了GCN在医学图像分割中的部分代表性工作。可以看出,将GCN应用于医学图像分割的普遍构图方法是以ROI区域作为节点,以ROI区域是否存在连接作为边,对于某些成像独特的数据(例如脑部体素数据和心脏冠状动脉表面网格数据),可利用KNN算法将其转换为图结构。与此同时,医学图像分割中的模型架构从CNN与GCN的简单堆叠,逐渐转变为多种模型的复杂组合。表1 GCN在医学图像分割中的应用 文献 模型 构图方法 分割目标 Shin等人(2019) CNN+GCN 以ROI区域为节点,ROI区域之间是否连接作为边 视网膜 Zhai等人(2019) CNN+GCN 以ROI区域通过CNN得到的特征图作为节点,ROI区域之间是否连接作为边 肺部动静脉血管 Wolterink等人(2019) KNN+GCN 以冠状动脉腔表面网格上的顶点作为图节点,顶点是否连接作为边 心脏冠状动脉 Zhang等人(2019) KNN+GCN 以MRI生成的超体素作为图结构 脑组织 Wu等人(2019) CNN+GCN 以流形结构为图 大脑皮层 Tian等人(2020) CNN+GCN 以ROI区域为节点,ROI区域之间是否连接作为边 前列腺 Yang等人(2020b) ResNet+LSTM+GCN 以ROI区域为节点,ROI区域之间是否连接作为边 心脏冠状动脉 Application example of GCN in medical image segmentationTable 14.2疾病检测以脑部疾病和肺部疾病为代表的病变检测是GCN的重要研究领域。4.2.1脑部疾病检测Parisot等人(2018)利用GCN研究表型信息(性别和年龄)和遗传信息(APOE ε4等位基因的存在与否)与自闭谱系障碍和阿尔茨海默症(Alzheimer disease,AD)等疾病的相关性,并利用相似度函数进行边构造,进而采用试错法和经验法取得了比CNN更好的疾病分类精度。在此基础上,Zhang等人(2018b)提出了一种基于记忆的GCN模型,实现对患者临床记录和神经图像的综合分析,完成帕金森氏症的检测。Song等人(2019)利用脑部神经自身的拓扑结构,采用GCN生成认知状态类别标签,完成AD检测。Marzullo等人(2019)从弥散张量成像得到的结构连通性信息出发,构造图结构数据用于GCN训练。Arya等人(2020)同样将脑部功能性磁共振成像(functional magnetic resonance imaging,fMRI)数据转换为图结构数据,节点表示大脑的ROI,边表示脑部两个ROI之间的连通性。在同样的AD疾病检测中,Kazi等人(2019)使用inceptionGCN网络对原始数据进行处理,通过inception架构捕捉异构图结构的局部和全局上下文信息,加速多尺度上的特征学习过程。Zhang等人(2018c)将基于多视图融合的方法应用于脑部神经病变检测,采用基于ROI-ROI成对匹配的方法,比较患者不同ROI区域的相似度。研究发现,尾状核和壳核区等重要ROI能够直接影响疾病检测结果。除此之外,Yang等人(2019)提出脑部疾病检测的SGCN模型,该模型利用两个GCN进行成对匹配学习,取得了比单个GCN和浅层CNN更好的学习效果。Jiang等人(2020)提出了面向孤独症谱系障碍和AD疾病检测的分层GCN框架。该模型通过分层结构实现个体脑网络结构以及个体在全体人群网络中相关性的综合评估。Song等人(2021)提出疾病检测的自适应融合方法。该方法通过组合权重机制平衡两个GCN模型之间的输出,并使用预训练模型计算相似度,能够充分利用fMRI和DTI结构网络间的互补关系。与前人只考虑fMRI不同,Yu等人(2020)认为结构连接(structural connectivity,SC)和功能性连接(functional connectivity,FC)是互补的,通过多模态的融合可以充分利用这种关系。因此,他们提出MSE-GCN(multi-scale enhanced graph convolutional network)模型,通过GCN融合FC和SC图像信息,以及部分非图像信息如患者的性别和年龄信息等,有效提高了早期轻度认知损伤的检测率。Song等人(2020)同时利用FC和SC信息预测严重记忆障碍和轻度认知障碍。他们设计了一种相似性感知的自适应校正结构。该结构使用两个GCN分类器分别分类fMRI和DTI数据,并通过投票策略去平衡它们的输出,其自适应机制利用预评分之间的差异来代替相关距离,从而获得更准确的边权重。与Song等人(2020)的做法类似,Yao等人(2021)利用多个GCN模块提取脑部多尺度模板的特征,然后输入至融合模块,融合多尺度的信息。所不同的是,其设计了模板互学习策略去融合信息,并使用fMRI和dMRI(diffusional magnetic resonance imaging)进行实验,结果证明该模型能够有效地提高疾病检测性能。Yao等人(2020a)认为现有基于静息状态功能磁共振成像(resting-state functional MRI,rsfMRI)数据的GCN,只能学习功能连接(functional connectivity,FC)模式的静态信息,忽略了随时间变化的动态信息,且由于使用固定组级别(如患者或对照组)的FC网络表示,不能获得患者间的FC特异性。作者提出时间自适应图卷积网络,该网络首先从每个特定的ROI提取rsfMRI时间序列信号,然后使用固定大小的滑动窗口将时间序列数据划分为多个重叠块。随后,自适应图卷积层为每一个块生成一个可变连通矩阵,该矩阵有助于对整个时间序列中的多层次语义信息进行建模。接着,对每个ROI沿不同的块进行卷积运算,以获取完整时间序列的时间动态。最后,使用一个全连接层和一个softmax函数进行特征分类,以完成抑郁症检测任务。4.2.2胸部疾病检测Mao等人(2019)利用胸部X射线图像之间的多种关系(人际关系、年龄关系、性别关系和视图关系)进行图构造,使用GraphSAGE(Hamilton等,2017)解决了归纳学习问题,使用关系GCN(Schlichtkrull等,2018)解决了多关系融合问题。Du等人(2019)基于CNN与GCN相结合的思想,采用GAT算法对经CNN提取后的ROI特征进行病变判别,高效地模拟了放射科医生对病变ROI的放大操作,最后使用GAT完成X射线图像的乳腺癌检测。在另一项乳腺癌检测研究中,Ye等人(2019)将图像划分成不同的ROI块,先使用U-Net(Ronneberger等,2015)对ROI进行肿瘤分割,再使用GCN捕捉ROI图像的拓扑结构,最后使用全连接网络实现特征分类,完成对ROI区域的乳腺癌检测。Yu等人(2021)提出CGNet(CNN+GNN)模型对新冠肺炎进行检测。首先通过迁移学习使用预训练好的CNN模型对医学图像进行特征提取,然后采用KNN算法对提取后的特征进行构图,最后使用GCN完成疾病检测。Wang等人(2021)同样采用CNN模型对新冠肺炎图像进行特征提取,然后使用聚类方法对提取后的特征进行构图,最终的分类准确率高达97.71 %,取得了多种方法中的最优结果。4.2.3其他疾病检测Ou等人(2020)认为结构不变的静态拓扑假设限制了GCN在卷积过程中学习新特征的能力。他们提出在学习过程中自适应更新邻接矩阵的特征编码器,该编码器首先将原始图像特征转换为嵌入空间(embedding space),然后通过余弦相似度创建邻接矩阵,最后利用图卷积操作使其成为自适应过程,有效地提高了宫颈癌检测性能。Huang和Chung(2020)提出了一种新型的图卷积模型,其引入了可训练的边适配器,能够将非成像数据(如年龄和性别)并行归一化编码为节点的连边;同时,该适配器在梯度下降优化过程中是一个可微可学习过程,能够提升眼部疾病检测的能力。表 2梳理了基于GCN的代表性医学图像疾病检测方法和典型应用。可以看出,早期GCN在医学图像疾病检测中的应用主要集中在脑部图像,基于对象之间的各种关系利用GCN完成疾病检测。近期的研究主要分为两大步骤,即首先利用各种CNN模型对原始医学图像进行特征提取,然后使用KNN算法或GAT算法进行特征重构,最后利用GCN挖掘特征之间的潜在关系完成特征分类。表2 GCN在医学图像疾病检测中的应用 文献 模型 数据集 检测目标 Zhang等人(2018b) CNN+GCN PPMI 帕金森氏症 Parisot等人(2018) MLP/Auto Encoder +GCN ABIDE和ADNI 阿尔茨海默病和自闭症 Song等人(2019) GCN ADNI 阿尔茨海默病 Kazi等人(2019) InceptionNet+GCN ABIDE和ADNI 阿尔茨海默病和自闭症 Mao等人(2019) CNN+GraphSAGE+GCN ChestX-ray14 14种胸腔疾病 Du等人(2019) CNN+GAT INbreast 乳腺癌 Ye等人(2019) U-Net+GCN BACH 2018 乳腺癌 Yu等人(2021) CNN+KNN+GCN 胸部X-Ray和胸部CT 新冠肺炎 Application example of GCN in medical image classificationTable 2 PPMI: Parkinson’s progression Markers initiative; ABIDE: autism brain imaging data exchange; ADNI: Alzheimer’s disease neuroimaging initiative; BACH: grand challenge on breAst cancer histology images。4.3图像重建除结构分割和疾病检测之外,GCN在医学图像重建方面也取得了较大进展。Hong等人(2019b)将GCN应用于脑部MR图像重建,其中GCN学习了从切片欠采样弥散加权图像到完整弥散加权图像的非线性映射,能充分利用空间域和角度域中的结构特征;Dhamala等人(2019)提出图卷积变分自动编码器模型,能有效利用非欧氏空间数据建模3D心脏网格图像;Tong等人(2020)将GCN与CNN进行结合,提出X-ray2Shape模型架构,能够将肝部低分辨率的单视角2D图像重建为高分辨率的3D图像;Lang等人(2020)将局部注意力机制与GCN进行结合,完成了颅颌面部中的标志点定位任务。5结语综上所述,GCN能够有效挖掘图像数据中广义的拓扑结构,已在医学图像分割、疾病检测和图像重建等多个领域取得了突破性进展。特别是以预训练的CNN作为特征提取器,GCN作为分类器的集成式深度学习架构,能够有效破解图结构医学训练样本稀缺难题,显著提高深度学习技术在医学图像分析领域中的性能,是图神经网络深度学习的重要优化方向。但是,基于GCN的医学图像挖掘仍然存在着亟待突破的瓶颈问题。例如,在多模态医学图像学习中,异构图的构建与学习任务的优化;特征重构和池化过程中,如何通过构图算法设计与神经架构搜索算法结合,以实现最优图结构的可学习过程转换;高质量图结构医学标注数据的大规模低成本生成与生成对抗网络的算法设计等。解决这些问题仍然需要不断探索深度学习与最优化理论、自动化机器学习理论与方法等的深度融合。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读