网刊加载中。。。

0引言阿尔茨海默症(Alzheimer’ s disease，AD) (Mattson，2004)是一种由于大脑神经细胞死亡造成的不可逆的神经退行性疾病，在临床上主要体现为智能损害。针对受试者是否患病或病情程度的不同，主要分为认知正常(cognitive normal，CN)、轻度认知功能障碍(mild cognitive impairment，MCI)和AD 3种。患者在AD的治疗过程中使用的一些治疗AD的药物只能在某种程度上延缓病情的恶化。因此，实现AD早期诊断，对AD的诊断与预防都有着至关重要的作用。现阶段由于没有系统化的诊断方式，医生临床对AD诊断和后续治疗经常采用观察法，但受人为影响较大，不仅效率低下，还容易造成误判(Sakkalis，2011)。因此，智能化区分AD发展阶段是帮助临床医生预防和治疗AD的重要步骤。核磁共振成像(magnetic resonance imaging，MRI)(Frisoni等，2010；Feng等，2021；Lee等，2019)是一种常见的生物标志物，具有无创性、可用性以及对疾病发作后大脑变化的高度敏感性, 并具有高空间分辨率的脑形态可视化能力等一系列优点(Lin，2000)，是研究AD引起的各种脑结构和形态学变化的理想工具，通常用于诊断AD的标准临床评估(陈弘扬等，2021)。MRI分为结构MRI(structural MRI, s-MRI)和功能MRI(functional MR, f-MRI), 本文研究s-MRI, 对MRI而言，能够获取的图像数量通常远小于图像的特征维度，并且图像中的许多特征与学习任务并不相关，即具有小样本高维度的特性。对此，如果先验知识不足，可以考虑对大脑全体结构(de Magalhães Oliveira等，2010；Liu等，2013)的特征进行分析，这种方法通过将每个结构的描述压缩成标量或低维表示，并忽略其结构内部的详细信息，从而获取关于整体的特征。此外如果可以结合一些标准的脑部模板进行配准，将每个受试者图像映射到同一标准空间中，再分别提取目标特征，将大幅提升结构内的相关性，以获取更为合理的特征分布。这些标准大脑模板通常将大脑分为若干个区域，如116个区域的自动解剖标准模板(anatomical automatic labeling，AAL)(Tzourio-Mazoyer等，2002)。选择所有体素特征进行分类不是一个理想的选择。通过特征选择步骤(Fung和Stoeckel，2007)或稀疏诱导范数(时中荣等，2017)降低特征数量和维度，不仅能够提高分类精度，还能产生更具临床意义的结果。组级别上的范数针对特征进行分组，以特征组为单位进行操作，进行特征组间的稀疏和选取相关特征组。传统组稀疏正则化方法(group lasso，$\text{GL}$)是以组为级别的一种稀疏方法(Yuan和Lin，2006；Meier等，2008)，可以针对每个解剖组进行稀疏，排除一些冗余的组，但不能对组内特征进行稀疏，因此无法去除组内一些冗余特征。针对此问题，组L1/2稀疏正则化(group L1/2，$\text{GL}$1/2)(Liu等，2016)通过将$\text{GL}$中组内的非稀疏平方范数换成能实现稀疏效果的L1/2范数进行解决，组L1/2稀疏正则化不仅可以去除冗余的组，还可以对选取组的组内特征再次进行稀疏，从而选取更为准确的特征，以提升预测准确性。但这种方法仍有局限性，由于包含一个非平滑的绝对值函数，在数值计算中将会引起振荡，很难收敛。本文使用平滑的组L1/2稀疏正则化(smooth groupL1/2，$\text{SGL}$1/2)(Li等，2018；Alemu等，2019；Fan等，2020)方法，将原先组L1/2方法中含有的非平滑的绝对值函数向平滑函数逼近，解决组L1/2方法中数值计算振荡和收敛难的缺点。在本研究中，组级别使用经过与标准模板配准过的AAL116模板的各结构区域作为分组模板，其配准流程如图 1所示，然后提取每个结构区域的体素作为各自的组，在这种基础上实现对组级别上的正则化效果。本文将配准后的AAL模板分成的每个区域各当做一组，每组中含有该组中所有的体素特征。同时通过$\text{SGL}$1/2结合C-SVM对每组的特征进行选择和分类，将原先$\text{GL}$1/2方法中含有的非平滑的绝对值函数向平滑函数逼近，解决$\text{GL}$1/2方法中数值计算振荡和收敛难的缺点。图1 AAL模板标准化过程图 AAL template standardization process mapFig 1((a) AAL template map; (b) standard template map; (c) standard AAL template map) 1基于组稀疏方法的分类模型本文对$\text{GL}$、$\text{GL}$1/2和$\text{SGL}$1/2这3种组级别上的正则化方法进行研究。1.1基于组稀疏化方法的特征提取$\text{GL}$主要处理的是组间的稀疏关系，而对组内没有稀疏关系。$\text{GL}$可以用于去除一些不相关组，以达到减少数据特征维度、提升分类性能的目的。$\text{GL}$的函数定义为 1 $G L(\boldsymbol{x})=\sum\limits_{g=1}^{G} \beta_{g}\left\|\boldsymbol{x}_{g}\right\|_{2}$ 式中，$g$表示第$g$个组，$β$$_{g}$表示第$g$个组的组权重，${\boldsymbol{x}}$$_\text{g}$表示第$g$个组的特征。可以看到$\text{GL}$可以用于对组间的稀疏，但不能对幸存组的组内特征进行稀疏。同时，它的导函数可以近似为 2 $\rho_{\mathrm{GL}}=\max \left(0,\left(1-\frac{\lambda \beta_{g} \alpha}{\left\|\boldsymbol{x}_{g}\right\|_{2}}\right) x_{g}\right)$ 式中，$λ$是正则化参数，$β$是组权重，$α$为近似梯度的步长。$\text{GL}$1/2范数有利于解决$\text{GL}$只能对组间进行稀疏而不能对组内特征稀疏的问题，它将$\text{GL}$中组间的结合方式从L1方法改变为一个L1/2方法，而组内从L2方法改变为一个L1方法。从而对组内特征能够进行稀疏选择且兼顾防止过拟合的效果。因此$\text{GL}$1/2既能去除冗余的特征组，又能够对幸存组的组内特征进行稀疏选择，以得到强相关组的强相关特征，最后经过分类模型训练，得到更好的分类精度。$\text{GL}$1/2的函数定义为 3 $G L_{\frac{1}{2}}(\boldsymbol{x})=\sum\limits_{g=1}^{G} \beta_{g} \sqrt{\left\|\boldsymbol{x}_{g}\right\|_{1}}$ 其导函数可近似为 4 $\rho_{\mathrm{GL} \frac{1}{2}}=\max \left(0,\left(1-\frac{\lambda \beta_{g} \alpha}{2\left\|\boldsymbol{x}_{g}\right\|_{1}^{\frac{1}{2}}}\right) \operatorname{sign}\left(\boldsymbol{x}_{g}\right)\right)$ 式中，$β$$_{g}$表示不同组之间的权重，用于权衡每个组对分类的影响, sign为符号函数。$\text{SGL}$1/2范数是对$\text{GL}$1/2的一种平滑逼近，虽然$\text{GL}$1/2不仅能去除冗余的特征组，还能够对幸存组的组内特征进行稀疏选择，但它与L1/2正则化类似，其定义为 5 $\|\boldsymbol{x}\|_{\frac{1}{2}}^{\frac{1}{2}}=\sum\limits_{g=1}^{G} \sqrt{\left|\boldsymbol{x}_{g}\right|}$ 由此可见，$\text{GL}$1/2的缺点是涉及一个非光滑的绝对值函数，导致数值计算出现振荡，收敛分析困难。$\text{SGL}$1/2提出对$\text{GL}$1/2中非光滑的绝对值函数进行平滑逼近，使得能够更快收敛和计算平稳。$\text{SGL}$1/2的函数定义为 6 $G L_{\frac{1}{2}}(\boldsymbol{x})=\sum\limits_{g=1}^{G} \beta_{g} \sqrt{\left\|f\left(\boldsymbol{x}_{g}\right)\right\|_{1}}$ $\text{SGL}$1/2的导函数变为 7 $\rho_{\mathrm{GL} 1 / 2}=\max \left(0,\left(1-\frac{\lambda \beta_{g} \alpha}{2\left\|f\left(\boldsymbol{x}_{g}\right)\right\|_{1}^{\frac{1}{2}}}\right)\right) f^{\prime}\left(\boldsymbol{x}_{g}\right)$ 式中，$f$′(${\boldsymbol{x}}$$_{g}$)为$f$(${\boldsymbol{x}}$$_{g}$)的导函数。$\text{SGL}$1/2提出将$\text{GL}$1/2中的| ${\boldsymbol{x}}$ |用一个平滑函数$f$($x$)替代，其定义为 8 $f(\boldsymbol{x})= \begin{cases}|\boldsymbol{x}| & |\boldsymbol{x}| \geqslant c \\ -\frac{1}{8 c^{3}} x^{4}+\frac{3}{4 c} x^{2}+\frac{3}{8} c & |\boldsymbol{x}|c\end{cases}$ 式中，$c$为一个很小的正数，$f$(${\boldsymbol{x}}$)∈ [ $ \frac{3}{8}c $, +∞ ]，$f$′(${\boldsymbol{x}}$)∈[-1, 1]，$f$′′(${\boldsymbol{x}}$)∈ [0, $\frac{3}{2c}$ ]。本文中特征提取均根据配准后AAL模板划分的脑区组进行提取，将获取各组的灰质密度体素作为各组的特征，如图 2所示，受试者的大脑图像经过预处理后获得的灰质图像也与标准模板进行配准，以保证AAL分组模板和受试者大脑存在相同空间分布。将同样空间分布的AAL模板和受试者灰质图像进行定位，对所有受试者图像都在相同定位区域提取各脑区特征，这种方法可以很好地降低受试者个体的差异性，保证研究中提取的特征实用可靠。图2 图像预处理和各脑区组特征提取过程图 Image preprocessing and feature extraction of brain regionsFig 2((a) original MRI map; (b) preprocessed gray matter map; (c) registered AAL template; (d) localization of AAL brain regions on gray matter map) 1.2分类模型建立支持向量机(support vector machine，SVM)(Cortes和Vapnik，1995)是一种通过监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。支持向量机采用损失函数与最大边距项进行结合，通过求解最小化问题来计算最优权重${\boldsymbol{w}}_\text{opt}$和偏置参数${\boldsymbol{b}}$$_\text{opt}$，具体为 9 $\left\{\boldsymbol{w}_{\mathrm{opt}}, \boldsymbol{b}_{\mathrm{opt}}\right\}=\operatorname{argmin} \frac{1}{n} \sum\limits_{i=1}^{n} \mathcal{L}_{\text {lossfun }}(u)^{2}+\frac{1}{2} \lambda_{1}\|\boldsymbol{w}\|_{2}^{2}$ 10 $u=\boldsymbol{y}_{i}\left(\left\langle\boldsymbol{w}, \boldsymbol{x}_{i}\right\rangle+\boldsymbol{b}\right)$ 式中，‖${\boldsymbol{w}}$‖$^\text{2}_\text{2}$表示最大边距惩罚项，它能够更好地进行分类的划分，大边距惩罚项假设每个特征是独立的。$λ$$_\text{1}$是一个非负的参数，表示最大边距惩罚。权值${\boldsymbol{w}}$的维数与特征向量${\boldsymbol{x}}$$_{i}$的维数相同，${\boldsymbol{y}}$$_{i}$是该疾病真实标签，${\boldsymbol{b}}$为偏差。传统的基于铰链损失函数的SVM模型具有良好的分类性能，但对于两类间边界较模糊的情况，仍有待提高。采用基于一种校准hinge(calibrated hinge, $\rm Chinge$)损失函数的SVM(calibrated SVM，C-SVM)作为终端分类器，在特征提取模块的基础上完成AD的分类识别。模型构建流程如图 3所示。C-SVM采用$\rm Chinge$作为损失函数，具体为 11 $\mathcal{L}_{\text {lossfun }}(u)=\mathcal{L}_{\text {Chinge }}(u)=1-\frac{1+\max (0, u)}{2+\operatorname{abs}(u)}$ 图3 主要分类流程图 Main flow-process diagramFig 3$\rm Chinge$函数分布如图 4所示。当$u$0时，$u$越大，$\rm Chinge$损失越小；当$u$≤0时，$u$越小，$\rm Chinge$损失越大。因此这个校准损失函数可以给分类超平面处于预测正确的一侧更小的损失，给分类超平面处于预测错误的一侧更大的损失，它从侧面向分类平面输出更大的损失。从而确保靠近超平面的样本的预测结果倾向于分布在正确的一侧。图4 $\rm Chinge$损失函数分布图 The distribution chart of $\rm Chinge$ loss functionFig 4此外，对于单纯SVM模型来说，权重是一个系数向量，其中大部分是非零项(Sun等，2018)。本研究选取的数据集是一个高维小样本数据，因此选择所有体素特征进行分类是一个不太理想的选择，特征数量过多、维度过大对程序运行有极大影响，而且对分类效果没有多大提升，甚至可能降低。因此, 为了减少样本特征数量, 降低运算成本，本文采用基于配准的AAL116模板作为分组模板，以大脑区域的灰质密度体素作为特征，结合$\text{SGL}$1/2正则化的C-SVM分类模型，这种模型的总代价函数定义为 12 $\begin{gathered}f_{\mathrm{SGL} \frac{1}{2}}=\frac{1}{n} \mathcal{L}_{\text {Chinge }}\left(\boldsymbol{y}_{i}\left(\left\langle\boldsymbol{w}, \boldsymbol{x}_{i}\right\rangle+\boldsymbol{b}\right)\right)^{2}+ \\\frac{1}{2} \lambda_{1}\|\boldsymbol{w}\|_{2}^{2}+\lambda_{2} \sum\limits_{g=1}^{G} \beta_{g}\left\|f\left(\boldsymbol{w}_{g}\right)\right\|_{\frac{1}{2}}\end{gathered}$ 该模型结合了校准SVM和$\text{SGL}$1/2的各自优点，能够在保证分类效果的同时，找到大脑特征关键区域中的关键体素，具有很好的可解释性。对校准支持向量机函数定义和$\text{SGL}$1/2正则化模型分析可知，$f$$_\text{SGL}{_{\frac{1}{2}}}$模型是可微的，能够使用梯度下降的方法进行极小化，可以大幅减小模型求解的复杂度。2实现及分析将AAL116模板作为分组模板，以大脑区域的灰质密度体素作为特征，结合$\text{SGL}$1/2正则化的C-SVM分类模型，对经过预处理的ADNI(Alzheimer's disease neuroimaging initiative)数据集通过交叉验证进行训练和测试，获取测试的分类效果，并使用该分类模型对其他数据集进行重新训练与测试，对比分类效果以验证模型的泛化性能。2.1数据预处理使用的数据均来自阿尔茨海默病神经成像计划(ADNI)数据集(http://adni.loni.usc.edu)。ADNI的研究对象来自美国和加拿大的50多个地点，主要目的是测试磁共振成像(MRI)、正电子发射断层扫描(positron emission tomography，PET)、其他生物标志物以及临床和神经心理学评估相结合是否可以应用于度量轻度认知损害(MCI)和早期阿尔茨海默病(AD)的识别。实验选取ADNI中公开的ADNI1: Complete 2Yr 1.5 T的部分数据集(Wyman等，2013)，MRI图像为T1加权的1.5 T MR图像，共选择511例来自不同受试者的数据，包括AD患者145名，MCI患者209名和正常对照(control normal，CN)组成员157名。在性别成分中，AD男性65名，女性80名; MCI男性111名，女性98名；CN男性65名，女性92名。所选受试者详细情况如表 1所示，其中MMSE表示简易精神状况检查(后同)。表1 ADNI数据集的人员分布情况统计类型数量年龄分布(均值±方差[范围]) 性别分布(M: 男，F: 女) MMSE(均值±方差[范围]) AD 145 77.4±7.8[56-91] 65M/80F 21.1±5.1[2-28] MCI 209 76.1±6.3[55-91] 111M/98F 26.4±3.1[8-30] CN 157 77.7±6.1[60-92] 65M/92F 29.2±1.0[24-30] Distribution of ADNI datasetsTable 1 []中括号内的值分别代表数据集实际年龄分布范围和MMSE值分布范围。采用SPM(statistical parametric mapping)(骆姚星等，2003)对MRI图像提取的灰质体素特征进行计算，全过程使用SPM的默认参数。另外，本研究选取Cuingnet等人(2013)的Cuingnet数据集进行测试，以比较模型的泛化性能。在这个数据集中，509名受试者都来自ADNI，包括162例CN、137例AD、76例将在18个月内转为AD的MCI(MCIc)和134例保持稳定的MCI(MCIs)。Cuingnet数据集的特征描述如表 2所示。表2 Cuingnet数据集的人员分布情况统计类型数量年龄分布(均值±方差[范围]) 性别分布(M: 男，F: 女) MMSE(均值±方差[范围]) AD 137 76.0±7.3[55-91] 67M/70F 23.2±2.0[18-27] MCIc 76 74.8±7.4[55-88] 43M/33F 26.5±1.9[23-30] MCIs 134 74.5±7.2[58-91] 84M/50F 27.2±1.7[24-30] CN 162 76.3±5.4[60-90] 76M/86F 29.2±1.0[25-30] Distribution of Cuingnet datasetTable 2 []中括号内的值分别代表数据集实际年龄分布范围和MMSE值分布范围。由于测试的不同脑部结构大小不一，在对图像进行特征提取前需进行预处理。本研究使用SPM软件在MATLAB平台对受试者的sMRI图像数据进行标准的数据预处理操作，获得不同大脑区域的灰度体积作为训练模型的输入特征。对每个sMRI图像数据的预处理流程如图 5所示。首先对图像进行AC-PC校准(Talairach和Tournoux，1988)，AC-PC为前连合(anterior commissure，AC)后缘中点至后连合(posterior commissure，PC)前缘中点的连线，又称AC-PC线，在脑立体定位断层解剖研究中多以此线为基线。在这步操作中，先将图像的原点设置为中心，再将其注册到MNI (montreal neurological institute)空间中。之后对校正后的脑图进行去颅骨和分割处理，获取去除非脑组织的图像。然后对图像进行配准，配准使用的模板是剥离颅骨的Colin27模板(Aubert-Broche等，2006)，以获取更加清晰、高分辨率的空间模板。配准过后进行分割获取灰质图像，并对灰质图像结构进行归一化等一系列操作。图5 图像预处理过程 Image preprocessing processFig 5((a) original MRI map; (b) AC-PC calibration; (c) skull removal; (d) segmentation and registration) 2.2实验设置实验环境在单机系统搭建，处理器为Intel(R)Core(TM)i7-8750H CPU @ 2.20 GHz(2201 MHz)，32 GB内存，通过MATLAB2019a进行相关实验的运行。在实验中，将预处理过的ADNI数据集分成3个对比组，分别为AD与CN，AD与MCI以及CN与MCI。同时为了避免训练过程中的过拟合，使用$K$-折交叉验证法(Wu等，2010；James等，2013)，并在数值训练中选择$K$值为10，即10折交叉验证。采用准确度(accuracy，$\rm ACC$)、接受者工作特征曲线(receiver operating characteristics curve，${\rm{ROC}}$)下的面积(area under curve，$\rm AUC$)、灵敏度(sensitivity，${\rm{SEN}}$)、特异性(specificity，${\rm{SPE}}$)、精确率(${\rm{precision}}$)、召回率(${\rm{recall}}$)、几何平均值(geometric mean, ${\rm{Gmean}}$)和${\rm{F1}}$分数(${\rm{F1}}$-score)等指标对分类性能进行评价。在实际AD分类中一般会出现4种情况：若一个样本是AD类(以下称为正类)且预测为正类，即为真正类(true positive, ${\rm{TP}}$)；若一个实例是非AD类(以下称为负类)但预测为负类，即为假负类(false negative, ${\rm{FN}}$)；若一个实例是负类但预测为正类，即为假正类(false positive, ${\rm{FP}}$)；若一个实例是负类且预测为负类，即为真负类(true negative, ${\rm{TN}}$)。根据这4种分类，使用的评价指标的具体定义为 13 $f_{\mathrm{ACC}}=\frac{T P+T N}{T P+T N+F P+F N} \times 100 \%$ 14 $f_{\mathrm{AUC}}=\frac{\sum {rank}_{i}-\frac{(T P+T N) \times(T P+T N+1)}{2}}{(T P+T N) \times(F P+F N)}$ 式中，$∑rank_{i}$表示所有正样本的序号值之和。 15 $f_{\text {recall }}=f_{\mathrm{Sen}}=\frac{T P}{T P+F N} \times 100 \%$ 16 $f_{\mathrm{Spe}}=\frac{T N}{T N+F P} \times 100 \%$ 17 $f_{\text {precision }}=\frac{T P}{T P+F P} \times 100 \%$ 18 $f_{\text {Gmean }}=\sqrt{f_{\text {recall }} \times f_{\mathrm{Spe}}} \times 100 \%$ 19 $f_{\mathrm{F} 1}=\frac{2 \times f_{\text {precision }} \times f_{\text {recall }}}{f_{\text {precision }}+f_{\text {recall }}} \times 100 \%$ 2.3实施及结果分析首先验证SVM算法采用不同损失函数对数据分类性能的影响，以获取对数据集分类效果较好的模型；之后对比在组级别上的$\text{GL}$、$\text{GL}$1/2范数和$\text{SGL}$1/2范数结合稀疏范数选择特征的分布和分类性能的效果；而后使用结合$\text{SGL}$1/2范数的校准支持向量机(C-SVM)模型，对更困难的对照组进行分类，并获取其分类效果；最后对Cuingnet数据集进行测试。2.3.1校准铰链损失函数对分类模型的性能影响选取线性损失函数、逻辑损失函数、hinge损失函数和$\rm Chinge$损失函数进行对比，验证基于不同损失函数的SVM模型对测试数据的分类性能。在数据集中对AD与CN对照组进行比较，结果详见表 3。可以看出，$\rm Chinge$函数比其他损失函数具有更好的分类效果。C-SVM的准确率高达91.06 %，与hinge作为损失函数的标准SVM相比，分类准确率提高了2.65 %，同时高于线性分类的90.40 %和逻辑回归的83.77 %。依据此结果，本实验选择以$\rm Chinge$为损失函数的C-SVM作为分类模型，在接下来的测试中结合其他模型进行训练和测试。表3 不同模型的分类效果分类方法 ACC AUC SPE SEN C-SVM (Chinge) 0.910 6 0.964 6 0.937 9 0.885 4 SVM(hinge) 0.884 1 0.951 8 0.910 3 0.859 9 线性分类 0.904 0 0.959 0 0.937 9 0.872 6 逻辑回归 0.837 7 0.914 1 0.875 9 0.802 5 Classification effect of different modelsTable 3 加粗字体为各列最优结果，分类方法的括号内为损失函数。2.3.2组级别的稀疏化方法比较根据组稀疏范数的定义，在组级别的稀疏范数的分类模型中，由于组稀疏的约束作用，将倾向选择与AD分类相关性较大的部分脑部区域，使得选中的每个区域内的体素相对集中，从而更好地展示与AD疾病有关的大脑区域。为了验证组稀疏范数的分类效果，选取$\text{GL}$、$\text{GL}$1/2和$\text{SGL}$1/2 3种组稀疏范数进行对比。图 6展示了基于AAL模板的$\text{GL}$和$\text{SGL}$1/2校准支持向量机模型在大脑区域选取的重要分类区域，其中$λ$$_\text{2}$是用于控制组稀疏范数的超参数。可以看出，海马、海马旁回、舌回和梭状回等区域对于AD的分类非常重要，这些组方法基本上都选取了这些区域。不同的是，$\text{SGL}$1/2方法对选中区域内的一些体素进行了稀疏，去除了一些相关度较低的体素，选中的脑部区域如表 4所示。图 6(a)-(c)是C-SVM+$\text{SGL}$1/2模型，能够选取高相关脑区的高相关体素，在加大正则化项惩罚时，仅会去除相对相关度低的脑区和相关度高的脑区中相对相关度低的体素，因此红色标注区域会近似对称；图 6(d)-(f)是C-SVM+Group Lasso($\text{GL}$)模型，仅针对组间进行稀疏，一旦认为某些脑区相对较其他脑区相关性低时，将去除整个脑区中的所有体素。因此在加大正则化项惩罚时，会依次去除相对相关性低的完整脑区，导致惩罚较大时红色标注区域不完全对称的视觉效果。组级别范数的C-SVM在AD与CN上的分类性能如表 5所示，图 7是基于AAL模板的组方法模型的分类性能比较。结合表 5和图 7可以看出，以AAL为分组模板的$\text{SGL}$1/2校准支持向量机有一个更好的分类效果，平均运行时间最短，而$\text{GL}$1/2 + C-SVM平均运行时间最长，这是由于$\text{GL}$1/2的不稳定性引起的。$\text{GL}$的稀疏效果没有$\text{SGL}$1/2强，因此存在更慢的迭代求解速度。$\text{SGL}$1/2范数是对$\text{GL}$1/2的一种平滑逼近，二者的组稀疏效果大致相同，但是改进的平滑$\text{GL}$1/2范数$\text{SGL}$1/2能够使函数更快收敛，防止数据发生振荡。图6 基于AAL模板分组的不同组稀疏模型选中的组特征区域 AAL template grouping based group feature regions selected by different group sparsity modelsFig 6((a) $\text{SGL}$1/2 and $λ$$_\text{2}$= 0.000 1; (b) $\text{SGL}$1/2 and $λ$$_\text{2}$= 0.002; (c) $\text{SGL}$1/2 and $λ$$_\text{2}$= 0.05; (d) $\text{GL}$ and $λ$$_\text{2}$= 0.001; (e) $\text{GL}$ and$λ$$_\text{2}$= 0.01; (f) $\text{GL}$ and $λ$$_\text{2}$= 0.1) 表4 基于${\rm{SGL}}$1/2的C-SVM模型(本文模型)在ADNI的数据集上选择的脑区脑区编号中文名称脑区命名 3 左背外侧额上回 Frontal_Sup_L 37 左海马 Hippocampus_L 38 右海马 Hippocampus_R 39 左海马旁回 ParaHippocampal_L 40 右海马旁回 ParaHippocampal_R 41 左杏仁核 Amygdala_L 42 右杏仁核 Amygdala_R 43 左距状裂周围皮层 Calcarine_L 48 右舌回 Lingual_R 55 左梭状回 Fusiform_L 56 右梭状回 Fusiform_R 83 左颞极：颞上回 Temporal_Pole_Sup_L 89 左颞下回 Temporal_Inf_L Selected brain regions of C-SVM model based on ${\rm{SGL}}$1/2(proposed model) in ADNI datasetTable 4 按AAL模板编号从小到大排序。表5 组级别范数的C-SVM在AD与CN上的分类性能组方法 ACC AUC SEN SPE 平均时间/s ${\rm{GL}}$ 0.940 4 0.978 6 0.937 9 0.942 7 738.11 ${\rm{GL}}$1/2 0.947 0 0.977 4 0.951 7 0.942 7 103 4.02 ${\rm{SGL}}$1/2 0.947 0 0.978 8 0.944 8 0.949 0 446.77 Classification performance of group level norm C-SVM on AD and CNTable 5 加粗字体为各列最优结果。图7 基于AAL模板的组方法模型的分类性能比较 Classification performance comparison of group method models based on AAL templateFig 72.3.3对较难分辨的对照组的分类效果测试本文结果表明平滑稀疏化在组级别上是有效的，使得特征选择更加聚集，获取与疾病高度相关的局部区域，有更好的分类效果。前文比较了脑部形态差异最大的AD与CN组，在实际中，很多病患通常处在介于AD和CN之间的MCI状况，临床表现通常没有AD患者严重，这种状态与其他两种状态也更难进行区分，分类边界较为模糊。为了进一步验证模型性能，对AD组与MCI组、CN组与MCI组进行分类测试，分组模板仍使用AAL模板，对比$\text{GL}$和$\text{SGL}$1/2两种组稀疏方法，结果如表 6所示，表 6中时间为平均求解时间。可以看出，在AD与MCI对照组中，$\text{SGL}$1/2模型的分类准确度为71.47 %，高于$\text{GL}$模型的70.62 %，平均运行时间较$\text{GL}$减少269.34 s，效率提升33.53 %；在MCI与CN对照组中，$\text{SGL}$1/2模型准确率为78.81 %，比$\text{GL}$模型高1.97 %，时间效率比$\text{GL}$提高38.30 %。表6 基于${\rm{SGL}}$1/2的C-SVM模型在困难对照组上的分类结果对照组稀疏方法 ${\rm{ACC}}$ ${\rm{AUC}}$ ${\rm{SEN}}$ ${\rm{SPE}}$ 时间/s AD与MCI ${\rm{GL}}$ 0.706 2 0.801 3 0.724 1 0.693 8 803.32 ${\rm{SGL}}$1/2 0.714 7 0.803 3 0.737 9 0.698 6 533.98 CN与MCI GL 0.768 4 0.831 7 0.793 1 0.751 2 784.50 ${\rm{SGL}}$1/2 0.788 1 0.859 9 0.827 6 0.760 8 484.05 Classification performance of C-SVM model based on ${\rm{SGL}}$1/2 in more difficult control groupTable 6 加粗字体为对比组中各项性能的最优结果。AD与MCI、CN与MCI的分类效果分别如图 8和图 9所示。可以看出，基于$\text{SGL}$1/2范数的分类模型的分类性能都明显高于基于$\text{GL}$范数的分类模型。由此可见，基于$\text{SGL}$1/2的C-SVM模型在更困难的对照组中也能体现良好的分类效果，这对模型的可靠性是一个强有力的支持。图8 基于$\text{SGL}$1/2的C-SVM模型在AD与MCI的分类效果 Classification effect of C-SVM model based on $\text{SGL}$1/2 in AD and MCIFig 8 图9 基于$\text{SGL}$1/2的C-SVM模型在CN与MCI的分类效果 Classification effect of C-SVM model based on $\text{SGL}$1/2 in CN and MCIFig 92.3.4在Cuingnet数据集的分类性能为了验证本文模型的泛化能力，使用Cuingnet数据集对本文模型进行训练和测试。根据不同疾病状态分为不同对照组，即CN与MCI、AD与MCI以及MCIc与MCIs。其中，MCI组由MCIc和MCIs合并而成。通过调整正则化项的超参数，在训练数据上进行重新优化，其他参数和其他模型一致，完成训练后再进行测试。本文模型与无稀疏操作和$\text{GL}$稀疏化两种方法的对比结果如表 7所示，表 7中时间为平均求解时间。可以看出，在所有对照组中，$\text{SGL}$1/2的分类性能在大部分情况都高于其他模型的分类性能，仅在CN与MCI组呈较为接近状态，求解时间均大幅降低，在AD与MCI组和CN与MCI组中，在保持高于或近乎持平的分类性能前提下，时间效率较$\text{GL}$方法提升了近60 %，优势明显。同时，基于组范数的C-SVM的各项分类性能都优于无范数的C-SVM模型，同时$\text{SGL}$1/2略优于$\text{GL}$，基于$\text{SGL}$1/2的C-SVM模型在Cuingnet数据集上也能相较于其他正则化范数达到更好的效果，这充分说明了该模型应对其他数据集时具有较强的泛化能力。表7 基于${\rm{SGL}}$1/2的C-SVM模型在Cuingnet数据集上的分类性能对照组稀疏方法 ${\rm{ACC}}$ ${\rm{AUC}}$ ${\rm{SEN}}$ ${\rm{SPE}}$ 时间/s AD与CN - 0.899 7 0.955 4 0.897 8 0.901 2 678.69 ${\rm{GL}}$ 0.916 4 0.967 2 0.912 4 0.919 8 730.65 ${\rm{SGL}}$1/2 0.919 7 0.963 3 0.912 4 0.925 9 428.31 AD与MCI - 0.639 8 0.686 1 0.678 8 0.614 3 1 361.82 ${\rm{GL}}$ 0.648 4 0.702 3 0.678 8 0.628 6 1 698.31 ${\rm{SGL}}$1/2 0.651 3 0.713 5 0.686 1 0.628 6 520.52 CN与MCI - 0.680 1 0.772 2 0.734 6 0.638 1 1 177.65 ${\rm{GL}}$ 0.685 5 0.791 3 0.746 9 0.638 1 1 448.78 ${\rm{SGL}}$1/2 0.682 8 0.778 9 0.740 7 0.638 1 499.44 MCIc与MCIs - 0.628 6 0.667 2 0.684 2 0.597 0 468.97 ${\rm{GL}}$ 0.661 9 0.679 8 0.723 7 0.626 9 649.78 ${\rm{SGL}}$1/2 0.661 9 0.687 6 0.710 5 0.634 3 359.18 Classification performance of C-SVM model based on ${\rm{SGL}}$1/2 on Cuingnet datasetTable 7 加粗字体为对比组中各项性能的最优结果；“-”表示未使用组稀疏方法。3基于AAL模板的各特征组独立分类效果比较为进一步了解与AD高度相关的单独脑部区域对区分AD的效果，以AAL分组模板对进行分组的各组特征使用单独分类函数进行分类，对左右脑平均分类排名前27的脑部各区域及同一区域左右脑区的分类效果进行对比，结果如图 10所示。其中，分类效果最好的右舌回(Lingual_R)、右海马旁回(ParaHippocampal_R)、右海马(Hippocampus_R)、右梭状回(Fusiform_R)、左颞下回(Temporal_Inf_L)和左背外侧额上回(Frontal_Sup_L)6个脑区的具体分类效果如图 11所示。图10 单独分类模型在AAL模板中左右脑区域分类准确率比较 Comparison of classification accuracy between left and right brain in AAL templateFig 10 图11 分类准确率排名前6的脑区 Brain regions with top 6 classification accuracyFig 11将高相关的单独组区域得到的最佳结果与基于$\text{SGL}$1/2正则化的C-SVM模型进行比较，如表 4和图 11所示，可以发现这种组稀疏方法也基本选中了本文模型获取的分类准确率排名前6的脑区，证明了该组方法的可靠性。同时，本文模型在基于AAL模板中获得的分类准确度为94.70 %，比高相关单独组经过非组稀疏的最佳分类准确率高2.32 %，这一结果同样很好地证明了多个脑区之间存在一定的相关性，它们共同影响AD的发病。4与现有方法比较为了进一步验证本文基于$\text{SGL}$1/2组稀疏方法的C-SVM分类模型性能优越性，与多核学习方法(multiple kernel learning，MKL)(Ben Ahmed等，2017)、3维卷积神经网络(3D convolutional neural networks，3D-CNN)(khvostikov等，2018)、SVM+$\text{GL}$+SAR(spatial anatomical regularization)(Sun等，2018)、deep CNNs(convolutional neural networks)(Aderghal等，2018)、3维卷积神经网络与长短期记忆网络(3D convolutional neural networks-long short-term memory，C3d-LSTM)(Li等，2020)和SVM+ROICSE(ROI-based contourlet subband energy(Feng等，2021)等AD诊断方法在ADNI数据库上进行对比，以诊断准确率($\rm ACC$)为评判指标，结果如表 8所示。可以看出，本文模型具有更好的分类效果。表8 不同方法分类性能比较模型 ACC MKL(Ben Ahmed等，2017) 0.902 0 3D-CNN(Khvostikov等，2018) 0.829 0 SVM+GL+SAR(Sun等，2018) 0.893 0 deep CNNS(Aderghal等，2018) 0.925 0 C3d-LSTM(Li等，2020) 0.927 8 SVM+ROICSE(Feng等，2021) 0.935 7 本文 0.947 0 Comparison of classification performance of different methodsTable 85结论本研究提出基于解剖平滑分组的L1/2正则化方法，并结合校准支持向量机组合成分类框架，实现对阿尔茨海默症(AD)的分类。这种平滑解剖分组稀疏的方法以流行的Group Lasso为原型，针对性地解决了Group Lasso不能对每个解剖组内的特征进行稀疏的缺点，达到可以同时去除冗余组和相关组内一些冗余特征的效果。此外，针对组级别上的正则化范数提出了经过配准后的AAL模板，将每个区域作为一组，每个区域内所有体素作为每组的特征进行组稀疏。然后在提出的C-SVM框架中以组为级别进行训练，最后预测出受试者是否患有AD。实验结果表明，本文模型结果比其他稀疏范数有更好的结果，分类准确率最高达94.70 %。同时，选中的权重分布较为集中，能够更好地发现与疾病高度相关的区域，增强了可解释性。根据权重图的分布情况可以将选定脑部区定位到AD相关的脑部区域，并且选择的区域也会较为集中。根据当前的知识可知，海马旁回、舌回和梭状回是与AD高度相关区域，权重图在这些区域也展现了较高的相关性，这为实验结果的合理性提供了有效支持。