|
发布时间: 2022-03-16 |
中医图像 |
|
|
收稿日期: 2021-08-20; 修回日期: 2021-11-23; 预印本日期: 2021-11-30
基金项目: 国家自然科学基金项目(61872261); 虚拟现实技术与系统国家重点实验室开放课题项目(VRLAB2020B06); 细胞生理学教育部重点实验室开放基金资助项目(KLMEC/SXMU-201905); 山西省重点研发计划项目(201903D321034)
作者简介:
王麒达,1997年生,男,硕士研究生,主要研究方向为医学图像处理和深度学习。E-mail: wangqida0375@link.tyut.edu.cn
冀伦文,男,博士研究生,主要研究方向为机器学习和计算机视觉。E-mail: jilunwen@tyut.edu.cn 强彦,通信作者,男,教授,主要研究方向为人工智能、图像处理、云计算技术和计算机视觉。E-mail: qiangyan@tyut.edu.cn 王华虎,男,硕士研究生,主要研究方向为中医学、人工智能和医学图像处理。E-mail: wanghuahu@stu.pku.edu.cn 赵琛琦,男,硕士研究生,主要研究方向为医学图像处理、自然语言处理与深度学习。E-mail: zhaochenqi0097@link.tyut.edu.cn 李慧芝,女,本科生,主要研究方向为人工智能和深度学习。E-mail: 42585479@qq.com 赵紫娟,女,博士,主要研究方向为中医大数据分析和深度学习。E-mail: zhaozijuan0064@link.tyut.edu.cn *通信作者: 强彦 qiangyan@tyut.edu.cn
中图法分类号: TP399
文献标识码: A
文章编号: 1006-8961(2022)03-0935-13
|
摘要
目的 脑卒中发病征兆不明显,发病速度快且致死率高,目前医学领域的主要诊疗手段仍是针对脑卒中病时和病后,但在病前预测方面缺少有效办法。中医对于治未病等效果显著,其中望诊更是中医诊疗的重要方式。本文结合中医望诊,基于面部与手部图像提出了一种多分支深度特征融合的中医脑卒中辅助诊断方法。方法 针对不同部位图像,分别构建两部位的双分支特征提取模块,将面部和手部的重点区域作为主体分支提取主要特征。根据中医望诊在面部与手部诊疗的特点,进一步将眉心的纹理特征和掌心的颜色特征作为辅助信息提取辅助特征;在此基础上提出信息交互模块(information interaction module,IIM),将主要特征与辅助特征进行有效信息交互,从而辅助主体分支提取更有区别性的信息;最终将两部位的特征进行融合降维用于脑卒中辅助诊断。结果 本文将采集的3 011例面部和手部图像数据进行筛查扩充后作为实验数据集,并在不同评价指标下与当前主流的分类模型进行对比。实验结果表明,本文方法在准确性上达到了83.36%,相比ResNet-34、DenseNet121、VGG16(Visual Geometry Group 16-layer net)和InceptionV3等其他主流分类模型性能提高了3%~7%;在特异性和敏感性方面分别为82.47% 和85.10%,其效果优于对比方法。结论 本文方法能够有效结合中医望诊的诊疗经验并通过传统面部和手部图像实现对脑卒中的有效预测,为中医望诊在脑卒中方面的客观化和便捷化发展提供了帮助。
关键词
中医望诊; 脑卒中; 图像识别; 特征提取; 特征融合; 卷积神经网络
Abstract
Objective Stroke is a severe human cerebrovascular disease that causes brain tissue damage due to sudden rupture of blood vessels or vascular obstruction originated blood flow inefficiency. The incidence of ischemic stroke is high frequency, high recurrence rate and high fatality rate. Traditional Chinese medicine (TCM) has its priority of stroke. In the four-diagnosis-inspection, listening, asking and feeling the pulse-(in Chinese) of Chinese medicine, the prime step of inspection shows that information extraction is one of the essential factors of TCM. But, TCM has its constraints of medical standardization and manual factor issues. A deep learning technology is benefit to further recognize the constraints of TCM. Method Our research illustrates a dual-branch cross-attention feature fusion model (DCFFM) based on facial images and hand images. It can assists in predicting stroke disease well. The overall model is divided into three parts: facial feature extraction module, hand feature extraction module and feature fusion module. For the facial feature extraction module, we construct the subject branch and auxiliary information branch to extract facial features. In accordance with the guidance of Chinese medicine doctors, we pre-process the facial image and use the key diagnostic area of the stroke in the face as the input of the main branch. In addition, we also integrate the knowledge of inspection of TCM to cut out the image of the area around the eyebrows, and use the Sobel filter to extract the gradient image as the input of the auxiliary information branch. For the hand feature extraction module, this demonstration adopts the same double-branch structure to cut out the palm area as the input of the main branch. In order to more stably and accurately reflect the pathological condition of the hand and reflect the small changes in the characteristics of the hand, we convert the palm image from the RGB color space to the HSV color space and transfer it to the differentiated auxiliary information branch. The proposed branches are respectively input to their respective convolution blocks, and the depth characteristics of the input data are extracted based on the convolution operation. Max pooling is used on the feature maps and batch normalization is used to prevent the model from over-fitting. In addition, we use two loss functions to constrain the training of the two feature extraction modules, and use the total loss to constrain the entire model. Between the two branches of each feature extraction module, we built an information interaction module (IIM) for further information interaction amongst the branches to reveal the model extract distinctive features. It assigns a certain weight to the feature map of auxiliary information and then interconnected with the feature of the subject branch. We use 1 × 1 convolution fusion to reduce dimensionality. Under no special operations circumstances, the IIM can be trained in an end-to-end manipulation. For the feature fusion module, multiple convolutional layers are used for overall fusion dimensionality reduction to generate the prediction result via the multi-branch deep feature fusion based on fusing the depth features of the facial feature extraction module and the hand feature extraction module. Result In order to aid model training and improve the stability and robustness of the model, our demonstration screens and extends the collected 3 011 face and hand image data. We remove some scrambled images with scars and conduct the data extension by horizontal flipping. We remove some images of peeling, disability, background clutter and implement random option for the remaining images to expand the data by horizontal flipping. It is determined that 3 964 images of positive and negative samples are involved as the experimental data set. Our multiple sets of comparative experiments and ablation experiments have been facilitated based on a variety of evaluation indicators to verify the performance of the model, such as accuracy, specificity, sensitivity, and F1-score. First, we compare the overall performance of the proposed method with the current mainstream classification algorithms. Experimental results show that the accuracy of the method proposed reaches 83.36%, which is 3%—7% higher than the performance of other mainstream classification models. Based on ten-fold cross-validation, the specificity and sensitivity reached 82.47% and 85.10% respectively. The illustrated sensitivity shows a relatively large advantage, indicating that the method in this paper has a better performance for the detection of true positives. Next, we still verified the impact of facial feature extraction module, hand feature extraction module and IIM on the performance of the model. This analyzed results show that feature extraction of face data and hand data can effectively improve the performance of the model simultaneously. In addition, the IIM has targeted the sensitivity and specificity of the model. Conclusion Our method can use human facial features and human hand data to assist in stroke prediction, and has good stability and robustness. Meanwhile, the demonstrated IIM also promotes the information interaction between multi-branch tasks.
Key words
inspection diagnosis of traditional Chinese medicine; stroke; image identification; feature extraction; feature fusion; convolutional neural network
0 引言
脑卒中是一种由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种急性脑血管疾病。其中缺血性卒中(又称脑梗)发病率最高(Zhou等,2019),占脑卒中发病率的70%以上(Feigin等,2015)。近年来,虽然诊疗技术不断发展,但由于其发病速度快、复发率高且致死率高,仍是各国的主要死亡原因之一。由于临床缺乏有效的诊疗手段,即使进行针对性治疗,患者也会出现一系列并发症,无法有效恢复。目前普遍认为预防是最好的措施,因此,如何在发病前及时检测,提醒患者预防与保养是医学领域急需解决的重大问题。然而,临床检测存在如下弊端:脑卒中患者发病前征兆不明显,尽管患者会在发病前出现一侧肢体无力或麻木、说话不清和头晕头痛等症状,但这些并非典型临床症状,患者往往不会重视。
不同类型的脑卒中治疗方式也存在差异,磁共振成像(magnetic resonance imaging,MRI)和计算机断层扫描(computed tomography,CT)是临床筛查诊断的有效方式(Zhang等,2005)。近年来,许多研究专注于脑部的相关病症。Cho等人(2019)提出级联深度学习模型以辅助真的颅内出血;Kuo等人(2019)利用4 396幅CT图训练了一个全卷积神经网络;Chilamkurthy等人(2018)开发并验证了一套深度学习算法以自动检测颅内出血。这些研究针对的患者不是已经发病,就是出现一些严重的临床表现,即使治疗也极易复发。因此,如何针对性有效预防脑卒中显得极为重要。
中医经过长期不断发展,对脑卒中已经有了较为完整的认识。其中中医四诊望、闻、问、切中将“望诊”排在首位,不仅是中医诊病中提取患者信息的首选方式,更是突出了望诊在中医诊病中的重要地位。《黄帝内经·灵枢·本脏》中有“有诸于内,必行于外”、“视其外应,以知其内脏,则知其病矣”等记载,《灵枢·九宫八风论》中也有“三虚而偏中于邪风,称之为击仆偏枯”等关于脑卒中的记载,因此无论是脑卒中哪一种类型,人体的内脏都会与人体的各外部部位产生一种隐形的映射关系,通过外部特征的变化间接了解身体内脏的变化情况。因此许多脑卒中患者更加倾向于由传统中医医师通过便捷的望诊进行初步诊断,但传统中医进行望诊需要诊断医师具备多年的行医经验,并且不同医师在手诊标准上会有些许差异,出现医生数量少、患者数量多、患者等候时间长以及医师诊断压力大等问题。许多研究也验证了人体外部表征与体内各器官间的变化有着不可或缺的关系。Zhang等人(2017)提出一个基于几何特征的自动识别和分析舌型的分类方法。Li等人(2007)通过CIELAB(CIE L*a*b*)颜色空间提出一种基于中医理论的舌色分类数值方法。Kim等人(2008)提出一种利用面部图像周围颜色分布的心脏病诊断系统。Li等人(2019)提出多模态的学习方法来利用不同体表特征的相关性,以此辅助检测糖尿病。Su等人(2011)对肺癌患者舌象进行定性和定量分析后对肺癌患者进行分类。除此之外,Wang等人(2017a)对脉诊进行相应研究,通过提取脉冲特征辅助糖尿病诊断。Wang等人(2014)实现了多通道脉冲信号采集的复合系统,能够分析病人的健康状况并且性能良好。Yan等人(2014)描述了一种新颖的呼吸分析系统,通过分析一些指标浓度实现糖尿病患者的检测。Lin等人(2020)开发了一种基于人脸照片的CAD(coronary artery disease)深度学习算法。Zhang等人(2021)提出了双堆栈网络,通过分析患者面部图像区分慢性肾病和糖尿病。韩学杰等人(2018)从医学角度验证了动脉血管病与手部等身体部位有着不可忽视的联系,因此,如何通过深度学习技术将中医望诊进一步客观化,进而有效辅助中医进行脑卒中预测成为研究的重中之重。
本文基于面部图像与手部图像提出一种双分支交叉注意特征融合模型(dual-branch cross-attention feature fusion model,DCFFM),能够很好地辅助传统中医进行脑卒中疾病的预测。本文模型分别构建面部与手部的深度特征提取任务模块,在各模块中构建主体分支与辅助分支。除此之外,在模块的双分支间构建了信息交互模块,进一步帮助模型提取具有区别性的特征。最终,将各模块间的特征进行特征融合以实现预测。
本文的主要贡献有:1)提出一种基于面部图像与手部图像的深度学习辅助中医预测脑卒中的方法,首次尝试将面诊与手诊相结合进行脑卒中病症预测。2)设计了一种多分支深度特征融合学习模型,将两个部位重点诊断区域作为辅助信息,并构建一种新的信息交互模块(information interaction module,
1 方法
本文模型的整体架构如图 1所示,整体分为面部特征提取模块、手部特征提取模块和特征融合模块3部分。首先,根据中医医师的指导,对采集的面部图像和手部图像进行预处理,截取出脑卒中在面部和手部的重点诊断区域,并依据中医望诊经验进行对应图像处理后作为辅助信息分支的输入,将原始图像作为主体分支的输入。接着,通过模型训练进行两个分支的深度特征提取与融合,并通过信息交互模块实现分支间的信息共享。最后,将两部位的深度特征进行整体融合降维,输出多分支深度特征融合下的预测结果。
1.1 数据预处理
本文收集由专业设备拍摄的面部与手部高清
对于手部图像,根据中医医师传统手诊经验,脑卒中的手诊重点诊断区域集中在掌丘、大小鱼际等掌心区域,如图 2所示,将中指与手掌交界点作为
$ \left\{\begin{array}{l} \Delta X_{h}=\left|X_{h 1}-X_{h 2}\right| \\ \Delta Y_{h}=\left|Y_{h 1}-Y_{h 2}\right| \end{array}\right. $ | (1) |
最后,选择两值中较大的一项得到
$ P_{\text {size }}=\max \left(\Delta X_{h}, \Delta Y_{h}\right) $ | (2) |
对于面部图像的预处理如图 3所示,首先将额上与发际线交界处的中心点标记为
$ \Delta Y_{f}=\left|Y_{f 1}-Y_{f 2}\right| $ | (3) |
接着,按照
$ \Delta X_{f}=\left|X_{f 1}-X_{f 2}\right| $ | (4) |
最后,将
手部图像选取
为了尽可能统一掌心区域、面部区域以及眉心区域的尺寸,且保证重点诊断区域均包含在截取后的图像中,本文统计了所有手掌图像、面部图像、眉心图像按数据预处理后对应的尺寸,如表 1所示,最终发现大多数掌心和面部图像尺寸都小于530,眉心图像的尺寸都小于132,因此,本文将模型输入的掌心图像和面部图像的尺寸统一为530,眉心图像的尺寸统一为132,从而尽可能减少图像尺寸不统一对模型性能造成的影响。
表 1
截取图像数量统计
Table 1
Statistics of the number of captured images
不同部位图像 | 不同图像尺寸范围下的图像数量 | ||||
≤80 | ≤132 | ≤364 | ≤440 | ≤530 | |
掌心区域 | — | — | 24 | 689 | 765 |
面部区域 | — | — | — | 427 | 1 064 |
眉心区域 | 245 | 1 246 | — | — | — |
注:“—”表示无此范围内的数据。 |
1.2 面部和手部图像的主体分支与辅助信息分支
如图 1所示,本文提出的模型有面部特征提取、手部特征提取和特征融合3个模块。其中面部特征提取模块和手部特征提取模块都构建了双分支,即主体分支与辅助信息分支。
主体分支中,将面部和手部的重点区域图像作为分支的输入,包含最多的信息。由于专业拍摄的图像分辨率(1 200×1 200像素)高于一般图像,如果将完整图像作为网络的输入,则需要很深的神经网络进行降维。然而当网络中使用过多卷积层时,就会产生大量参数,导致模型过拟合问题。如果不想使用过多卷积层,就需要使用几次下采样来减小特征图的大小以便符合网络的尺寸要求,从而学习更深的特征用于预测,但是多次下采样又可能会丢失很多有用的特征。除此之外,原图中包含很多无关信息,在中医望诊中,脑卒中在面部与手部的诊断也主要集中在额头、眉心、掌丘和鱼际等部位,医生通过观察这些部位是否有异常现象(眉心有竖纹、两眉间凹陷发红、掌丘隆起肥厚和大小鱼际红肿等症状)来提前预测患者是否有脑卒中的风险。因此,主体分支的输入应尽可能避免其他信息的干扰,从而学习正确的映射关系。
辅助信息分支中,针对面部图像与手部图像在中医望诊中的区别,对辅助信息分支的输入进行不同的处理。对于面部图像,眉心部位的纹路状况对于脑卒中的诊断尤为重要。因此,对截取的眉心区域图像做进一步处理,为了避免图像中一些细小纹路的噪声干扰,本文针对眉心区域的辅助分支,采用Laplace、Canny和Sobel这3种不同的滤波器得到眉心区域的纹路图像。Laplace滤波器对边缘信息较为敏感,某些噪声边缘也会提取出来,因此并不适合眉心区域的纹路提取。Canny滤波器产生的边缘信息没有强弱之分并且检测算法较为复杂,作为辅助分支,本文希望辅助分支在提取有效特征的同时也注重检测效率。而Sobel滤波器的检测效率在实际应用中比Canny滤波器高,并且滤波后的图像边缘有强弱之分,具有良好的抗噪性,因此Sobel滤波器是本文方法的最优选择。本文方法首先对图像进行基于中值滤波的图像平滑,之后采用Sobel滤波器(Sobel和Feldman,1973),通过图像水平和垂直两个方向的梯度来逼近图像中每一个像素的梯度,从而得到梯度图像。因为对于方向复杂的眉心纹路,单靠水平或垂直方向的纹路不足以有效提取眉心区域的纹理特征,而将横向与纵向梯度进行结合的梯度图像更有助于本文模型完成任务。具体计算为
$ G=\sqrt{G_{h}^{2}+G_{v}^{2}} $ | (5) |
式中,
对于中医望诊在面部与手部的相关诊断知识,眉心部分的纹路特征以及掌心部位的形态特征是传统中医医师进行望诊的重点。因此在面部特征提取模块的眉心辅助分支中采用Sobel等滤波器进行实验而不采用转化颜色空间等方法,这样可以更好地关注眉心的纹路特征,从而更好地辅助面部特征提取。对于手部特征提取模块,本文同样只转化不同颜色空间进行实验,因为掌心纹路复杂且手掌掌纹非常容易干扰模型提取有效特征。
值得注意的是,虽然本文在每个模块中只使用了两个分支,但仍然可以引入很多新的分支。最终,主体分支输入数据从
1.3 信息交互模块(${\rm IIM}$ )
信息交互模块(
$ \left\{\begin{array}{l} I I M_{f}=\left(T_{1 \times 1}\left(F_{f} \oplus \lambda_{1} F_{f a}\right)+1 \odot F_{f}\right. \\ I I M_{h}=\left(T_{1 \times 1}\left(F_{h} \oplus \lambda_{2} F_{h a}\right)+1\right) \odot F_{h} \end{array}\right. $ | (6) |
式中,
1.4 损失函数
为了更好地约束面部特征提取模块和手部特征提取模块的训练,在两个模块的最后一层均采用
$ L_{f}=-\left[y_{f} \times \log \left(p_{f}\right)+\left(1-y_{f}\right) \times \log \left(1-p_{f}\right)\right] $ | (7) |
$ L_{h}=-\left[y_{h} \times \log \left(p_{h}\right)+\left(1-y_{h}\right) \times \log \left(1-p_{h}\right)\right] $ | (8) |
式中,
最终的总损失函数
$ \begin{gathered} L_{\text {total }}\left(\sigma_{f}, \sigma_{h}\right)=\frac{1}{2 \sigma_{f}^{2}} L_{f}+\frac{1}{2 \sigma_{h}^{2}} L_{h}+ \\ \log \sigma_{f}^{2}+\log \sigma_{h}^{2} \end{gathered} $ | (9) |
式中,
总损失函数受Cipolla等人(2018)方法影响,采用权重不确定的方法设置任务权重,该方法可以统一多任务各损失的尺度且不再受额外权重超参数的影响。
2 实验与结果分析
2.1 数据集
本文使用的实验数据集来自合作中医药公司的脑卒中患者病例,收集了包括3 011例脑卒中患者的脸部与手部高分辨率图像,并由具有20年丰富中医诊疗经验的医师进行标签标注。本文按照如下规则进行数据筛查:1)手部具有脱皮现象的图像(
2.2 实现细节
实验均在一个工作站进行,工作站配备Ubuntu 18.04 LTS系统,1个2.90 GHz Intel(R) Xeon(R) W-2102 CPU和1个NVIDIA TITAN XP GPU。网络模型使用python3.6搭建,通过pytorch在工作站展开实验。实验采用10折交叉验证评估模型,将数据集分为10组,每折使用任意9组作为训练集,剩下的1组作为测试集,依次迭代。优化器采用mini-batch Adam,其中初始学习率设置为0.01,batchsize设置为32,模型迭代次数为500。为了获得更好的模型性能,本文采用的学习率变化方法为
$ l(s)= \begin{cases}l(0) & 0 \leqslant s \leqslant 100 \\ l(0) \times 0.5 & 100<s \leqslant 150 \\ l(0) \times 0.1 & 150<s \leqslant 250 \\ l(0) \times 0.01 & 250<s \leqslant 400 \\ l(0) \times 0.001 & 400<s \leqslant 500\end{cases} $ | (10) |
式中,
$ f_{\mathrm{Acc}}=\frac{T_{p}+T_{n}}{T_{p}+F_{p}+T_{n}+F_{n}} \times 100 \% $ | (11) |
$ f_{\mathrm{Sen}}=\frac{T_{p}}{T_{p}+F_{n}} \times 100 \% $ | (12) |
$ f_{\mathrm{Spe}}=\frac{T_{n}}{T_{n}+F_{p}} \times 100 \% $ | (13) |
$ F 1=\frac{2 T_{p}}{2 T_{p}+F_{n}+F_{p}} \times 100 \% $ | (14) |
式中,
2.3 实验结果及分析
2.3.1 分类性能对比实验
由于现有方法中未发现类似研究的方法,为了验证本文方法有效性,实验中将当前几种主流的分类网络应用于本文任务中,将面部提取模块与手部提取模块分别替换为其他分类网络,在其他条件不变的情况下进行训练并统计这些方法的性能指标。
图 5显示了不同方法在准确性上的差异,表 2显示了本文方法DCFFM与其他几种分类网络在准确性、敏感性、特异性和
表 2
不同方法的各评价指标对比
Table 2
Comparison of results of each evaluation index among different methods
/% | |||||||||||||||||||||||||||||
方法 | 准确性 | 敏感性 | 特异性 | ||||||||||||||||||||||||||
ResNet-34 | 80.02±2.35 | 83.49±2.23 | 80.18±5.34 | 78.36±1.23 | |||||||||||||||||||||||||
DenseNet121 | 78.63±0.36 | 81.42±3.46 | 78.11±1.40 | 74.12±0.49 | |||||||||||||||||||||||||
VGG16 | 76.26±1.24 | 79.81±2.42 | 76.49±3.32 | 73.94±1.22 | |||||||||||||||||||||||||
AlexNet | 74.01±2.15 | 76.09±2.20 | 73.29±2.08 | 72.33±1.87 | |||||||||||||||||||||||||
InceptionV3 | 76.28±2.27 | 78.25±3.31 | 75.38±1.17 | 73.97±4.11 | |||||||||||||||||||||||||
MobileNet | 75.37±4.13 | 77.39±3.67 | 74.33±3.47 | 73.86±2.92 | |||||||||||||||||||||||||
本文DCFFM | 83.36±2.11 | 85.10±0.82 | 82.47±4.16 | 80.25±1.57 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
为了进一步验证本文方法的稳定性和鲁棒性,对所有方法均在采集的数据集上进行10折交叉验证。图 6为各方法敏感性和特异性指标对比。其中,图 6(a)为10折交叉验证下,不同方法10次fold的敏感性指标比较。DCFFM方法相比其他方法在敏感性上有明显提升,其中fold9为85.13%,相比较第二表现好的ResNet-34提升了1.85%。除此之外,在fold2、fold5、fold7的敏感性都远高于其余方法,进一步说明本文方法在检测真阳性上的突出性能。图 6(b)为10折交叉验证下,不同方法10次fold的特异性指标比较。DCFFM方法除了在fold6上比ResNet-34低0.75%,在其他fold上均高于ResNet-34以及其他方法。除此之外,在fold2上DCFFM的特异性为82.54%,明显优于其他方法。整体分析可以证明,本文所提方法相比其他方法具有更好的稳定性和鲁棒性。
2.3.2 辅助信息分支对模型性能的影响
为了量化本文方法中辅助信息分支的有效性,去掉辅助信息分支,仅用主体分支作为面部和手部的特征提取网络并进行最终预测。实验结果如表 3所示,去掉面部和手部的辅助信息分支后,准确性、敏感性、特异性和
表 3
辅助信息分支对模型性能的影响
Table 3
The impact of auxiliary information branch on model performance
/% | |||||||||||||||||||||||||||||
方法 | 准确性 | 敏感性 | 特异性 | ||||||||||||||||||||||||||
本文(无辅助分支) | 81.02±2.02 | 82.96±1.33 | 79.03±4.30 | 78.47±1.12 | |||||||||||||||||||||||||
本文 | 83.21±2.41 | 84.65±1.03 | 82.63±3.16 | 80.10±0.57 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
由于面部特征提取分支与手部特征提取分支没有直接联系,因此对不同分支内的
表 4
Table 4
Influence of different values of
/% | |||||||||||||||||||||||||||||
|
准确性 | 敏感性 | 特异性 | F-score | |||||||||||||||||||||||||
0.1 | 82.2 | 84.31 | 81.08 | 80.27 | |||||||||||||||||||||||||
0.2 | 83.63 | 84.19 | 81.5 | 80.71 | |||||||||||||||||||||||||
0.3 | 82.26 | 84.77 | 80.81 | 79.62 | |||||||||||||||||||||||||
0.4 | 82.72 | 85.01 | 80.26 | 79.24 | |||||||||||||||||||||||||
0.5 | 82.9 | 83.44 | 80.1 | 79.33 | |||||||||||||||||||||||||
0.6 | 81.29 | 83.06 | 79.4 | 78.09 | |||||||||||||||||||||||||
0.7 | 84.01 | 85.13 | 82.25 | 80.31 | |||||||||||||||||||||||||
0.8 | 80.28 | 82.03 | 78.35 | 77.29 | |||||||||||||||||||||||||
0.9 | 79.31 | 81.76 | 77.3 | 76.51 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
表 5
Table 5
Influence of different values of
/% | |||||||||||||||||||||||||||||
|
准确性 | 敏感性 | 特异性 | F-score | |||||||||||||||||||||||||
0.1 | 81.28 | 83.11 | 79.74 | 79.1 | |||||||||||||||||||||||||
0.2 | 83.1 | 84.52 | 82.48 | 80.15 | |||||||||||||||||||||||||
0.3 | 83.05 | 84.83 | 82.37 | 80.17 | |||||||||||||||||||||||||
0.4 | 83.36 | 85.1 | 82.47 | 80.25 | |||||||||||||||||||||||||
0.5 | 83.3 | 85.05 | 81.05 | 80.77 | |||||||||||||||||||||||||
0.6 | 82.1 | 83.42 | 80.11 | 79.08 | |||||||||||||||||||||||||
0.7 | 82.72 | 83.8 | 81.49 | 80.2 | |||||||||||||||||||||||||
0.8 | 81.33 | 83.06 | 79.53 | 77.18 | |||||||||||||||||||||||||
0.9 | 80.38 | 82.19 | 78.72 | 76.08 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
对于不同方法下的辅助信息分支,本文增加了相应的对比试验,验证了面部特征提取模块与手部特征提取模块中不同技术处理的辅助信息分支对于整体模型性能的影响。但值得注意的是,实验并未考虑在一个辅助信息分支中采用另一个辅助分支中的方法,因为对于中医望诊在面部与手部的相关诊断知识,眉心部分的纹路特征以及掌心部位的形态特征是传统中医医师进行望诊的重点。因此在面部特征提取模块的眉心辅助分支中采用Sobel等滤波器进行实验而不采用转化颜色空间等方法,这样可以更好地关注于眉心的纹路特征,从而更好地辅助面部特征提取,实验结果如表 6所示,可以看出,面部特征提取模块中采用Sobel滤波器作为辅助信息分支的处理方法是最优选择。对于手部特征提取模块,只转化不同颜色空间进行实验,因为掌心纹路复杂且手掌掌纹非常容易干扰模型提取有效特征,实验结果如表 7所示,可以看出,手部特征提取模块中采用HSV颜色空间作为辅助信息分支的处理方法是最优选择。
表 6
面部特征提取模块中不同滤波器对模型性能的影响
Table 6
The influence of different filters in facial feature extraction module on model performance
/% | |||||||||||||||||||||||||||||
滤波器 | 准确性 | 敏感性 | 特异性 | ||||||||||||||||||||||||||
Sobel | 83.12 | 85.32 | 81.77 | 80.93 | |||||||||||||||||||||||||
Canny | 82.33 | 85.01 | 81.62 | 80.1 | |||||||||||||||||||||||||
Laplace | 82.47 | 84.91 | 80.72 | 80.29 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
表 7
手部特征提取模块中不同颜色空间对模型性能的影响
Table 7
The effect of different color spaces in the hand feature extraction module on the performance of the model
/% | |||||||||||||||||||||||||||||
颜色空间 | 准确性 | 敏感性 | 特异性 | ||||||||||||||||||||||||||
HSV | 83.41 | 86.02 | 82.51 | 81.03 | |||||||||||||||||||||||||
YCbCr | 82.3 | 84.82 | 81.27 | 80.11 | |||||||||||||||||||||||||
Lab | 78.33 | 81.7 | 77.39 | 76.24 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
2.3.3 信息交互模块(${\rm IIM}$ )对模型性能的影响
为了证明本文提出的信息交互模块(
表 8
信息交互模块(
Table 8
The impact of
/% | |||||||||||||||||||||||||||||
方法 | 准确性 | 敏感性 | 特异性 | ||||||||||||||||||||||||||
本文(无 |
82.41±0.33 | 83.29±.61 | 79.96±2.59 | 79.52±2.11 | |||||||||||||||||||||||||
本文 | 83.10±1.38 | 85.02±0.43 | 82.33±1.26 | 80.41±1.02 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
2.3.4 面部图像与手部图像对于模型性能的影响
本文针对面部图像与手部图像双特征模块进行了消融实验对比,以此证明两个部位的同时输入可以实现相互促进,而不是相互限制。实验将面部特征提取模块与手部特征提取模块分别去掉,在仅保留一种部位的特征提取模块下进行实验,观察单部位特征提取模块与双部位特征提取模块的性能变化,实验结果如表 9所示。当去掉手部特征提取模块仅依靠面部数据(DCFFM-face)预测脑卒中时,准确性、敏感性、特异性和
表 9
单部位数据与多部位数据对模型性能的影响
Table 9
The influence of single-part data and multi-part data on model performance
/% | |||||||||||||||||||||||||||||
方法 | 准确性 | 敏感性 | 特异性 | ||||||||||||||||||||||||||
DCFFM-face | 78.83 | 81.28 | 76.39 | 77.04 | |||||||||||||||||||||||||
DCFFM-hand | 80.63 | 82.77 | 79.04 | 80.11 | |||||||||||||||||||||||||
本文 | 83.02 | 84.71 | 81.29 | 80.27 | |||||||||||||||||||||||||
注:加粗字体表示各列最优结果。 |
3 结论
鉴于对脑卒中的病前预测缺少有效方法,本文依据中医望诊在“治未病”方面的显著作用,结合中医望诊在脑卒中领域的相关诊疗知识,基于面部与手部图像数据提出一种多分支深度特征融合的中医脑卒中辅助诊断方法。构建面部与手部特征提取模块,并在各模块中采取双分支的结构用于提取不同部位的深度特征;将面部和手部的重点区域作为主体分支以提取主要特征信息,并在中医望诊知识指导下将眉心和掌心的不同特征作为辅助信息以进一步提取有效信息;构建信息交互模块(
本文方法虽取得一定效果,但在整体准确性的提升以及如何引入更多符合中医诊疗知识的辅助信息等方面仍需进一步研究。基于这些问题,后续工作将集中于以下两点开展:1)结合更多部位的图像数据进行模型搭建,进一步提高准确率;2)考虑到实际应用需求,对网络模型进行进一步修改和优化。
参考文献
-
Cheng H D, Jiang X H, Sun Y, Wang J L. 2001. Color image segmentation: advances and prospects. Pattern Recognition, 34(12): 2259-2281 [DOI:10.1016/S0031-3203(00)00149-7]
-
Chilamkurthy S, Ghosh R, Tanamala S, Biviji M, Campeau N G, Venugopal V K, Mahajan V, Rao P, Warier P. 2018. Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study. Lancet, 392(10162): 2388-2396 [DOI:10.1016/S0140-6736(18)31645-3]
-
Cho J, Park K S, Karki M, Lee E, Ko S, Kim J K, Lee D, Choe J, Son J, Kim M, Lee S, Lee J, Yoon C, Park S. 2019. Improving sensitivity on identification and delineation of intracranial hemorrhage lesion using cascaded deep learning models. Journal of Digital Imaging, 32(3): 450-461 [DOI:10.1007/s10278-018-00172-1]
-
Cipolla R, Gal Y and Kendall A. 2018. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7482-7491 [DOI: 10.1109/CVPR.2018.00781]
-
Feigin V L, Krishnamurthi R V, Parmar P, Norrving B, Mensah G A, Bennett D A, Barker-Collo S, Moran A E, Sacco R L, Truelsen T, Davis S, Pandian J D, Naghavi M, Forouzanfar M H, Nguyen G, Johnson C O, Vos T, Meretoja A, Murray C J L, Roth G A, GBD 2013 Writing Group, GBD 2013 Stroke Panel Experts Group. 2015. Update on the global burden of ischemic and hemorrhagic stroke in 1990-2013: the GBD 2013 study. Neuroepidemiology, 45(3): 161-176 [DOI:10.1159/000441085]
-
Han X J, Gao Y R, Liu D S, Yu X, Ren C. 2018. Research on the theory and mechanism of three-dimensional observation diagnosis of coronary heart disease. Chinese Journal of Basic Medicine in Traditional Chinese Medicine, 24(4): 441-442, 456 (韩学杰, 郜亚茹, 刘大胜, 于潇, 任聪. 2018. 冠心病大鱼际三维望诊法的理论与机制探究. 中国中医基础医学杂志, 24(4): 441-442, 456)
-
He K M, Zhang X Y, Ren S Q and Jian S. 2016. Identity mappings in deep residual networks//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 630-645 [DOI: 10.1007/978-3-319-46493-0_38]
-
Ioffe S and Szegedy C. 2015. Batch normalization: accelerating deep network training by reducing internal covariate shift//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France: ICML: 448-456
-
Kim B H, Lee S H, Cho D U and Oh S Y. 2008. A proposal of heart diseases diagnosis method using analysis of face color//Proceedings of 2008 International Conference on Advanced Language Processing and Web Information Technology. Dalian, China: IEEE: 220-225 [DOI: 10.1109/ALPIT.2008.27]
-
Kuo W C, Häne C, Mukherjee P, Malik J, Yuh E L. 2019. Expert-level detection of acute intracranial hemorrhage on head computed tomography using deep learning. Proceedings of the National Academy of Sciences of the United States of America, 116(45): 2737-22745 [DOI:10.1073/pnas.1908021116]
-
Li B C, Huang Q M, Lu Y, Chen S H, Liang R and Wang Z P. 2007. A method of classifying tongue colors for traditional Chinese medicine diagnosis based on the CIELAB color space//Proceedings of the 1st International Conference on Medical Biometrics. Hong Kong, China: Springer: 153-159 [DOI: 10.1007/978-3-540-77413-6_20]
-
Li J X, Zhang B, Lu G M, You J, Zhang D. 2019. Body surface feature-based multi-modal learning for diabetes mellitus detection. Body surface feature-based multi-modal learning for diabetes mellitus detection.Information Sciences, 472: 1-14 [DOI:10.1016/j.ins.2018.09.010]
-
Lin M, Chen Q and Yan S C. 2013. Network in network [EB/OL]. [2021-08-10]. http://arxiv.org/pdf/1312.4400v3.pdf
-
Lin S, Li Z G, Fu B W, Chen S P, Li X, Wang Y, Wang X Y, Lv B, Xu B, Song X T, Zhang Y J, Cheng X, Huang W J, Pu J, Zhang Q, Xia Y L, Du B, Ji X Y, Zheng Z. 2020. Feasibility of using deep learning to detect coronary artery disease based on facial photo. European Heart Journal, 41(46): 4400-4411 [DOI:10.1093/eurheartj/ehaa640]
-
Lu X G, Ma K W, Wang Y Q, Hao Y M. 2019. Study on tongue color features of healthy people with "Joy" emotion based on objectification of tongue diagnosis. World Science and Technology-Modernization of Traditional Chinese Medicine, 21(3): 471-476 (鲁晓篝, 马凯雯, 王忆勤, 郝一鸣. 2019. 基于舌诊客观化的情志"喜"舌色特征研究. 世界科学技术-中医药现代化, 21(3): 471-476) [DOI:10.11842/wst.2019.03.022]
-
Sobel I, Feldman G. 1973. A 3×3 isotropic gradient operator for image processing. Pattern Classification and Scene Analysis: 271-272
-
Su W, Xu Z Y, Wang Z Q, Xu J T. 2011. Objectified study on tongue images of patients with lung cancer of different syndromes. Chinese Journal of Integrative Medicine, 17(4): 272-276 [DOI:10.1007/s11655-011-0702-6]
-
Wang D M, Zhang D, Lu G M. 2017a. Generalized feature extraction for wrist pulse analysis: from 1-D time series to 2-D matrix. IEEE Journal of Biomedical and Health Informatics, 21(4): 978-985 [DOI:10.1109/JBHI.2016.2628238]
-
Wang F, Jiang M Q, Qian C, Yang S, Li C, Zhang H G, Wang X G and Tang X O. 2017b. Residual attention network for image classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 6450-6458 [DOI: 10.1109/CVPR.2017.683]
-
Wang P, Zuo W M, Zhang D. 2014. A compound pressure signal acquisition system for multichannel wrist pulse signal analysis. IEEE Transactions on Instrumentation and Measurement, 63(6): 1556-1565 [DOI:10.1109/TIM.2013.2267458]
-
Yan K, Zhang D, Wu D R, Wei H, Lu G M. 2014. Design of a breath analysis system for diabetes screening and blood glucose level prediction. IEEE Transactions on Biomedical Engineering, 61(11): 2787-2795 [DOI:10.1109/TBME.2014.2329753]
-
Zhang D, Zhang H and Zhang B. 2017. Tongue Shape Classification by Geometric Features. Tongue Image Analysis. Springer, Singapore. 133-153. [DOI: 10.1007/978-981-10-2167-1_8]
-
Zhang L, Samaras D, Tomasi D, Volkow N and Goldstein R. 2005. Machine learning for clinical diagnosis from functional magnetic resonance imaging//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE: 1211-1217 [DOI: 10.1109/CVPR.2005.219]
-
Zhang Q, Zhou J H, Zhang B, Wu E H. 2021. DsNet: dual stack network for detecting diabetes mellitus and chronic kidney disease. Information Sciences, 547: 945-962 [DOI:10.1016/j.ins.2020.08.074]
-
Zhou M G, Wang H D, Zeng X Y, Yin P, Zhu J, Chen W Q, Li X H, Wang L J, Wang L M, Liu Y N, Liu J M, Zhang M, Qi J L, Yu S C, Afshin A, Gakidou E, Glenn S, Krish V S, Miller-Petrie M K, Mountjoy-Venning W C, Mullany E C, Redford S B, Liu H Y, Naghavi M, Hay S I, Wang L H, Murray C J L, Liang X F. 2019. Mortality, morbidity, and risk factors in China and its provinces, 1990-2017: a systematic analysis for the global burden of disease study 2017. Lancet, 394(10204): 1145-1158 [DOI:10.1016/S0140-6736(19)30427-1]