Print

发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200544
2021 | Volume 26 | Number 9




    计算机断层扫描图像    




  <<上一篇 




  下一篇>> 





改进Faster R-CNN模型的CT图磨玻璃密度影目标检测
expand article info 杨淑莹1,2, 邓东升1,2, 郑清春3
1. 天津理工大学计算机科学与工程学院, 天津 300384;
2. 计算机视觉与系统教育部重点实验室, 天津 300384;
3. 天津理工大学机械工程学院, 天津 300384

摘要

目的 针对Faster R-CNN(faster region convolutional neural network)模型在肺部计算机断层扫描(computed tomography,CT)图磨玻璃密度影目标检测中小尺寸目标无法有效检测与模型检测速度慢等问题,对Faster R-CNN模型特征提取网络与区域候选网络(region proposal network,RPN)提出了改进方法。方法 使用特征金字塔网络替换Faster R-CNN的特征提取网络,生成特征金字塔;使用基于位置映射的RPN产生锚框,并计算每个锚框的中心到真实物体中心的远近程度(用参数“中心度”表示),对RPN判定为前景的锚框进一步修正位置作为候选区域(region proposal),并将RPN预测的前景/背景分类置信度与中心度结合作为候选区域的排序依据,候选区域经过非极大抑制筛选出感兴趣区域(region of interest,RoI)。将RoI对应的特征区域送入分类回归网络得到检测结果。结果 实验结果表明,在新冠肺炎患者肺部CT图数据集上,本文改进的模型相比于Faster R-CNN模型,召回率(recall)增加了7%,平均精度均值(mean average precision,mAP)增加了3.9%,传输率(frames per second,FPS)由5帧/s提升至9帧/s。特征金字塔网络的引入明显提升了模型的召回率与mAP指标,基于位置映射的RPN显著提升了模型的检测速度。与其他最新改进的目标检测模型相比,本文改进的模型保持了双阶段目标检测模型的高精度,并拉近了与单阶段目标检测模型在检测速度指标上的距离。结论 本文改进的模型能够有效检测到患者肺部CT图的磨玻璃密度影目标区域,对小尺寸目标同样适用,可以快速有效地为医生提供辅助诊断。

关键词

新型冠状病毒肺炎(COVID-19); 磨玻璃密度影; Faster R-CNN; 特征金字塔网络(FPN); 区域候选网络(RPN); 残差神经网络(ResNet)

Ground-glass opacity target detection in CT scans based on improved Faster R-CNN model
expand article info Yang Shuying1,2, Deng Dongsheng1,2, Zheng Qingchun3
1. School of Computer Science and Engineering, Tianjin University of Technology, Tianjin 300384, China;
2. Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin 300384, China;
3. School of Mechanical Engineering, Tianjin University of Technology, Tianjin 300384, China
Supported by: Tianjin Educational Science Planning Institute Teaching Achievement Award Key Cultivation Project (PYGJ-015);Ministry of Education New Engineering Research and Practice Project([2017] 33)

Abstract

Objective The outbreak of corona virus disease 2019 (COVID-19) has become a serious public health event of concern worldwide. The key to controlling the spread of this disease is early detection. Computed tomography (CT) is highly sensitive to the early diagnosis of patients with COVID-19, and the changes in clinical symptoms are time-consistent with the changes in lung CT lesions, which is a simpler, faster indicator for judging changes in the condition. Faint ground-glass opacity is common in the early stage of COVID-19 lesions, and the ground-glass opacity gradually increases as the lesion progresses. Manual detection methods are time consuming, and manual detection inevitably has subjective diagnostic errors. In recent years, deep learning has made great progress in computer vision and achieved outstanding performance in the detection of lung CT scans. In the target detection task, the two-stage target detection method easily achieves a higher precision. The most representative model is faster region convolutional neural network (Faster R-CNN). However, with the increasing diversification and complexity of target detection tasks, the shortcomings of the Faster R-CNN model have also been exposed. In the detection of the ground-glass opacity target, the target size range is large, and Faster R-CNN only uses the highest layer feature map to obtain the region proposal, which has the problem of low recognition rate for small targets. When the region proposal network of Faster R-CNN model supervises the foreground/background classification, most of the overlap calculations between the anchor boxes and the background area are redundant calculations. in the task of detecting ground-glass opacity targets in CT scans of the lung and given the problems of the Faster R-CNN model, an improved method for the feature extraction network and region proposal network of the Faster R-CNN model is proposed. Method First, the feature pyramid network replaces the feature extraction network of Faster R-CNN to generate a feature pyramid. Then, the region proposal network based on location mapping generates anchor boxes and calculates the distance from the center of each anchor boxes to the center of the real object, which is represented by the parameter "centrality". The anchor box judged as the foreground by the region proposal network is further modified as a region proposal, and the foreground/background classification confidence predicted by the region proposal network and centrality are combined as the sorting basis for the region proposal. The interest regions are filtered out from region proposals through non-maximal suppression. Finally, the characteristic regions corresponding to regions of interest are sent to the classification regression network to obtain the detection results. Content of main experiments, the experiment uses recall, mean average precision (mAP), and frames per second (FPS) as evaluation indicators to compare the performance of the standard Faster R-CNN, Faster R-CNN + FPS, and the proposed model, and the effects of different backbone networks on the model in this paper. Result On the dataset of COVID-19, the experimental results show that compared with the Faster R-CNN model, the improved model increases recall by 7%, mAP by 3.9%, and FPS from 5 to 9. Conclusion The improved model can effectively detect the ground-glass opacity target of the patient's lung CT scans and is suitable for small targets. The improved region proposal network reduces network output parameters, saves calculation time, and increases model running speed. Meanings using the feature pyramid network to replace the feature extraction network of Faster R-CNN can be a general method to solve the problem of a large size range of target objects. The method of using the location mapping-based region proposal network to replace the traditional multianchor box mapping-based region proposal network can also provide a reference for accelerating the running speed of the model.

Key words

corona virus disease 2019 (COVID-19); ground-glass opacity; faster region convolutional neural network (Faster R-CNN); feature pyramid network (FPN); region proposal network (RPN); residual neural network (ResNet)

0 引言

新型冠状病毒肺炎(corona virus disease 2019, COVID-19)疫情已成为世界关注的严重公共卫生事件,控制这种疾病传播的一个关键是早期检测。主流测试方法是基于逆转录聚合酶链反应(reverse transcription—polymerase chain reaction,RT-PCR)检测,即核酸检测,该方法虽然特异性强,但敏感性差。根据目前的经验(中华医学会放射学分会传染病学组等,2020),肺部影像表现早于临床症状。肺部计算机断层扫描(computed tomography,CT)对新型冠状病毒肺炎早期诊断有高度敏感性,临床症状变化与肺部CT病灶改变具有时间一致性,是判断病情变化更为简单迅速的指标(赵考昌等,2020)。因此,影像学检查在临床前期筛查具有不可替代的作用。病灶早期多见淡薄的磨玻璃密度影,随着病变进展,磨玻璃密度逐渐增高(李宏军,2020中华医学会放射学分会传染病学组等,2020)。目前广泛使用计算机断层扫描(CT),通过人工检测肺部是否存在磨玻璃密度影作为重要的诊断依据,耗时较长,且难免存在主观诊断误差。

深度学习在计算机视觉方向取得了长足进步,肺部CT图像的病灶检测取得突出表现。Hwang等人(2016)首次提出了基于卷积神经网络(convolutional neural network,CNN)的结核病自动检测系统。Islam等人(2017)使用卷积神经网络检测和定位肺水肿取得了很好效果。Tong等人(2018)使用U-Net网络分割肺结节,强大的泛化能力使深度神经网络能够应对多样和复杂的肺部CT图像。

区域卷积神经网络(region convolutional neural network,R-CNN)(Girshick等,2014)推动了双阶段目标检测方向的研究,识别精度相比传统方法有了大幅提高。SSP-Net(spatial pyramid pooling in deep convolutional networks for visual recognition)(He等,2014)对原图仅进行一次卷积层特征提取,即将候选区域在原图的位置映射到特征图,解决了R-CNN重复提取候选区域特征的问题。Fast R-CNN(Girshick,2015)在此基础上提出了多任务损失函数(multi-tast loss),并将边界框回归加入到网络中训练。Faster R-CNN(Ren等,2017)使用区域候选网络(region proposal network,RPN)替换SS(selective search)获得候选区域(Uijlings等,2013),并与特征提取网络共享特征。相比于R-CNN,Faster R-CNN既保持了双阶段目标检测模型的高精度,又提升了模型的运行速度,成为主流高精度目标检测模型。但是,随着目标检测任务的日益多样化和复杂化,Faster R-CNN模型显现不足。在磨玻璃密度影目标检测中,目标尺寸差别较大,虽然传统Faster R-CNN的RPN中设置了多种锚框(anchor)尺度,但由于只使用最高层特征图获得候选区域,该层特征图具有高语义低分辨率的特点,小物体经过层层卷积池化到达最高层特征图过程中,细节特征容易滤除,无法有效识别。因此引入特征金字塔网络(feature pyramid network,FPN)(Lin等,2017),充分利用由低到高多层特征图,小尺寸目标可以在低层高分辨率特征图上有效检测。另外,针对Faster R-CNN模型RPN在监督前景/背景分类时,大量候选区域与背景重叠度计算造成的算力浪费,本文提出了改进方法。将前景/背景分类监督由判断真实物体框与候选区域的重叠度(intersection over union,IoU)改为判断特征图上每个位置在原图的映射(也是锚框中心)是否落入真实物体。仅RPN判定为前景的少数锚框修正位置参数后作为候选区域进一步计算重叠度,而多数判定为背景的锚框省去计算重叠度造成的算力浪费。同时在RPN筛选感兴趣区域(region of interest,RoI)过程中添加参数——中心度,用来抑制基于位置映射的RPN产生的偏离中心点候选区域。改进后的RPN减少了网络输出参数,节约了计算时间,加快了网络运行速度。

1 算法描述

1.1 FPN网络

传统Faster R-CNN使用不同尺寸锚框检测不同尺寸真实物体,具有一定的局限性。对此,本文引入FPN,使用高层强语义特征图融合低层高分辨率特征图,不同层融合特征图映射不同尺寸锚框,FPN的构造涉及自下而上的路径、自上而下的路径和横向连接,如图 1所示。

图 1 改进Faster R-CNN模型结构图
Fig. 1 Structure of improved Faster R-CNN model

自下而上的路径即主干卷积神经网络的前馈计算。本文主干网络选用残差神经网络(residual neural network,ResNet)(He等,2016a),FPN使用主干网络每个阶段的最后一个特征图,记作$\boldsymbol{C}_{2}$$\boldsymbol{C}_{3}$$\boldsymbol{C}_{4}$$\boldsymbol{C}_{5}$(由于$\boldsymbol{C}_{1}$占内存过大,故不包含在特征金字塔中),相对于输入图像,步幅分别为4、8、16、32像素。

自上而下的路径是将高层特征图通过上采样扩大尺寸后合并到低层特征图上生成新特征图。首先在$\boldsymbol{C}_{5}$上附加一个1×1卷积层生成最粗糙分辨率新特征图;然后将此特征图上采样2倍,同时将低一层的特征图$\boldsymbol{C}_{4}$经过1×1卷积层横向连接过来与之求和生成新特征图;迭代上一步骤直到生成最高分辨率的新特征图。最后在每个合并的新特征图上附加3×3卷积以生成最终的特征图,这将减少上采样产生的混叠效果。最终特征图记作$\boldsymbol{P}_{2}$$\boldsymbol{P}_{3}$$\boldsymbol{P}_{4}$$\boldsymbol{P}_{5}$

由于FPN输出的不同层特征图$\boldsymbol{P}_i$后接参数共享的RPN,为了保证输出特征图的通道数一致,在自上而下构建特征金字塔时,使用的1×1卷积层通道数均设置为256。

1.2 基于位置映射的RPN网络

RPN是根据特征图预测目标位置的网络,包括前景/背景二分类与锚框位置回归两部分。

RPN使用一个卷积层在特征图上滑动,卷积核大小为3×3,步长为1,填充为1,提取更深层特征。然后此特征连接到两个同级1×1卷积层——前景/背景分类层和位置回归层。本文使用FPN作为特征提取网络,输出4层特征图,每层特征图连接1个RPN,且RPN参数共享。

传统Faster R-CNN的RPN将特征图上的每个位置视为多个锚框的中心并将锚框映射到原图。训练过程中监督前景/背景分类时,将真实物体框与候选区域的重叠度作为前景/背景判断依据,如图 2(a)所示。因而在训练每幅图像时,特征图前景/背景分类的判断需要$m$×$n$×9×$g_n$次重叠度计算,其中$m$$n$表示特征图的长宽,9表示每个位置锚框的数量,$g_n$表示此幅图像中真实物体的数量。每个位置映射到原图的9个锚框采用3种尺度(scales)和3种长宽比例(ratios)对应不同大小和不同长宽比的真实物体。由于CT图像的大部分区域是背景,所以大部分锚框与背景区域的重叠度计算是冗余计算。传统Faster R-CNN仅使用最高层特征图获得候选区域,所以设置的3种尺度锚框仅适用于检测中大尺度物体,无法有效检测小尺度物体。在本文的磨玻璃密度影目标检测任务中,目标长宽差异较小,且不存在物体重叠现象,所以将不同长宽比锚框合并为1种。因此,本文提出了基于位置映射的前景/背景分类规则,在监督前景/背景分类训练时,判断特征图上每个位置在原图的映射是否落入任何一个真实物体框,如图 2(b)所示。如果位置($x,y$)映射到原图的像素落入真实物体框,则该位置分类标签记为前景,否则为背景。每个位置对应一个原图上的锚框,位置映射到原图的像素作为锚框中心,锚框尺寸与特征图层级相关。

图 2 前景/背景分类的传统监督规则与改进监督规则
Fig. 2 Traditional supervision rules and improved supervision rules for foreground/background classification
((a) supervised classification based on anchor box mapping; (b)supervised classification based on location mapping)

计算特征图映射到原图的像素时,记$\boldsymbol{P}_i∈{\bf{R}}^{H×W×C}$为FPN产生的第$i$层特征图,$s$为输入原图至该层的总跨度,对特征图$\boldsymbol{P}_i$上的位置($x,y$), 将其映射回输入原图的像素为

$ \left( {{x_{\rm{o}}},{y_{\rm{o}}}} \right) = \left( {\left\lfloor {\frac{s}{2}} \right\rfloor + xs,\left\lfloor {\frac{s}{2}} \right\rfloor + ys} \right) $ (1)

当RPN判定特征图的某位置为前景时,使用真实物体与该位置对应锚框的差值监督锚框位置回归产生候选区域。当RPN判定特征图的某位置为背景时不做进一步计算,节约算力。为了让不同尺寸候选区域能够映射到合适的特征图层(即尺寸较小的候选区域映射到较高分辨率的特征图,尺寸较大的候选区域映射到较低分辨率的特征图),本文设定每层特征图映射候选区域的尺寸范围如表 1所示,超出尺寸范围的候选区域滤除。

表 1 FPN输出特征图对应的映射锚框尺寸和候选区域限定范围
Table 1 The size of the mapping anchor frame and region proposals limit range corresponding to the feature layer of FPN outputs

下载CSV
特征图 锚框尺寸 候选区域尺寸范围
P2 15×15 0×0 ~ 28×28
P3 40×40 28×28 ~ 64×64
P4 90×90 64×64 ~ 128×128
P5 180×180 128×128 ~ 256×256

$t$(包含$t_{x}, t_{y}, t_{w}, t_{h}$)为RPN预测的锚框位置修正参数,$t^*$是锚框相比于真实物体框的位置修正参数。$t$$t^*$计算为

$ {t_x} = \frac{{{x_{\rm{p}}} - x}}{w},\;\;\;{\kern 1pt} {t_y} = \frac{{{y_{\rm{p}}} - y}}{h} $ (2)

$ {t_w} = \log \frac{{{w_{\rm{p}}}}}{w},\;\;\;{\kern 1pt} {t_h} = \log \frac{{{h_{\rm{p}}}}}{h} $ (3)

$ t_x^* = \frac{{{x^*} - x}}{w},\;\;\;{\kern 1pt} t_y^* = \frac{{{y^*} - y}}{h} $ (4)

$ t_w^* = \log \frac{{{w^*}}}{w},\;\;\;{\kern 1pt} t_h^* = \log \frac{{{h^*}}}{h} $ (5)

式中,$x$$y$$w$$h$表示框的中心横纵坐标及其宽度和高度,变量$x_\rm{p}$$x$$x^*$分别对应候选区域、锚框和真实物体框的中心横坐标($y$$w$$h$与此类同)。因此,训练位置回归层就是训练$t$$t^*$逼近的过程。

1.3 中心度与筛选RoI

使用具有多层次强语义的FPN并优化了RPN的计算冗余和参数冗余之后,实验发现改动后的目标检测模型与Faster R-CNN仍然存在性能差距,这是由于产生了许多远离真实物体中心位置的低质量候选区域,降低了RPN网络生成RoI的质量。为此本文添加了一个参数——中心度,表示特征图中某位置映射回原图像素距离真实物体中心的远近程度,范围是0~1。中心度定义为

$ Ct = {{\rm{e}}^{ - \sqrt {t_x^2 + t_y^2} }} $ (6)

从候选区域中筛选RoI时,将预测的前景/背景分类置信度分数乘以中心度作为排序分数(用于对候选区域排名)。因此,中心度可以降低远离对象中心候选区域的分数。实验表明,在非极大抑制(non-maximum suppression,NMS)过程中滤除了大部分低质量候选区域,显著提升了RoI质量,提高了模型性能。非极大抑制的步骤如下:

1) 将所有候选区域根据前景置信度分数与中心度的乘积降序排列。

2) 从最高分数的候选区域开始,标记最高分数候选区域,并判断之后每个候选区域与其重叠度是否大于阈值,本文设阈值为0.7,抛弃大于阈值的候选区域。重叠度计算为

$ IoU = \frac{{{\mathit{\boldsymbol{S}}_{\rm{p}}} \cap {\mathit{\boldsymbol{S}}_{\rm{t}}}}}{{{\mathit{\boldsymbol{S}}_{\rm{p}}} \cup {\mathit{\boldsymbol{S}}_{\rm{t}}}}} $ (7)

式中,$\boldsymbol{S}_\rm{p}$为候选区域的面积,$\boldsymbol{S}_\rm{t}$为真实物体框的面积。

3) 从剩下的候选区域中选择未标记的最高分数候选区域,并标记此候选区域。判断之后每个预候选区域与其重叠度是否大于阈值,抛弃大于阈值的候选区域。

4) 重复步骤3)至标记所有候选区域。

1.4 RoI分类回归网络

分类回归网络是使用RoI对应到特征图中的区域特征判断RoI类别,并修正RoI位置的网络。RoI在FPN的输出层级对应策略为

$ k = \left\lfloor {{k_0} + {{\log }_2}(\sqrt {wh} /500)} \right\rfloor $ (8)

式中,500是训练集中图像预训练后的最大尺寸;$h、w$是RoI的长和宽;$k_0$是初始化特征图层级,本文中设置$k_0=4$。由此,将尺寸小的RoI映射到高分辨率的特征图,小尺寸目标得以有效检测。

RPN产生的RoI具有不同尺寸,对应到特征图的区域特征尺寸也不相同,因此将区域特征经过1个池化层,本文中使用最大池化,输出7×7的固定尺寸区域特征。不论对应哪个层级的特征图,均采用RoI池化提取7×7特征。而后连接两个1 024维的全连接层(fully connected layers,FC),每个层后面接修正线性单元ReLU(rectified linear unit),最后连接两个同级的分类层和位置回归层。

2 网络训练

2.1 RPN损失函数

训练RPN即训练判断特征图每个位置属于前景/背景的分类能力以及修正锚框与真实物体框之间位置的回归能力。RPN的损失函数为

$ {L_{{\rm{rpn}}}} = \frac{1}{{{N_{{\rm{cls}}}}}}\sum\limits_i {{L_{{\rm{cls}}}}} \left( {{p_i},p_i^*} \right) + \frac{1}{{{N_{{\rm{loc}}}}}}\sum\limits_i {p_i^*} {L_{{\rm{loc}}}}\left( {{t_i},t_i^*} \right) $ (9)

在一个训练批次(batch)中,选取部分特征图位置作为训练样本,$i$是训练样本中的索引。$p_i$是RPN预测第$i$个训练样本前景/背景的置信度(2维信息),$p_i^*$是第$i$个训练样本的位置映射到原图像素后与真实物体框对照后产生的标签(2维信息)。$t_i$是RPN预测的第$i$个训练样本的位置修正参数,$t_i^*$是第$i$个训练样本锚框相比于真实物体框的位置修正参数。$p_i^*L_\rm{loc}$表示仅对前景样本激活位置回归损失,对背景样本禁用回归损失。$N_\rm{cls}$是训练样本的数量,$N_\rm{loc}$是标签为背景的训练样本数量。

$L_\rm{cls}$是一个锚框二分类(前景和背景)的交叉熵损失函数,具体为

$ {L_{{\rm{cls}}}}\left( {p,{p^*}} \right) = - \sum\limits_j {p_j^*} \ln \left( {{\mathop{\rm softmax}\nolimits} \left( {{p_j}} \right)} \right) $ (10)

式中,$j∈{0, 1}$表示预测置信度和标签的前景/背景2维信息的索引。

$L_\rm{loc}$是修正位置参数的回归损失函数,具体为

$ {L_{{\rm{loc}}}}\left( {t,{t^*}} \right) = \sum\limits_{k \in \{ x,y,w,h\} } {smooth} \left( {{t_k} - t_k^*} \right) $ (11)

式中,$t$$t^*$按式(2)—(5)计算,$smooth$函数定义为

$ smooth(x) = \left\{ {\begin{array}{*{20}{l}} {0.5{x^2}}&{|x| < 1}\\ {|x| - 0.5}&{|x| \ge 1} \end{array}} \right. $ (12)

2.2 RoI分类回归网络损失函数

首先,在RPN产生的RoI中选取训练样本,采样规则如下:

1) 计算所有RoI与真实物体框的重叠度。

2) 设置采样总数为128,正负样本比例为1 ∶ 3,将重叠度最高或重叠度大于等于0.5的RoI记做正样本,若正样本数目大于32,则从其中随机取32个,剩余抛弃。

3) 将重叠度大于等于0且小于0.5的RoI记做负样本,若负样本数目大于采样总数与采样正样本数量的差,则从中随机取96个,剩余抛弃。

4) 抛弃既未记做正样本也未记做负样本的RoI,既不积极也不消极的RoI无助于培训目标。

上述正负样本参与损失计算,定义分类判别网络的损失函数为

$ {L_{{\rm{roi}}}} = \frac{1}{{{N_{{\rm{cls}}}}}}\sum\limits_i {{L_{{\rm{cls}}}}} \left( {{p_i},p_i^*} \right) + \frac{1}{{{N_{{\rm{loc}}}}}}\sum\limits_i {p_i^*} {L_{{\rm{loc}}}}\left( {{t_i},t_i^*} \right) $ (13)

式中,$i$是每个作为训练样本的RoI在一个训练批次(batch)中的索引,$p_i$是分类回归网络预测第$i$个RoI属于类别的置信度((类别数量+1)维信息),$p_i^*$是第$i$个RoI与真实物体框对比后产生的标签((类别数量+1)维信息)。$t_i$是分类回归网络预测的第$i$个RoI的位置修正参数,$t_i^*$是第$i$个RoI相比于真实物体框的位置修正参数。$N_\rm{cls}$是训练样本的数量,$N_\rm{loc}$是标签为正的训练样本数量。$L_\rm{cls}$$L_\rm{loc}$按式(10)和式(11)计算。

2.3 联合训练

传统上使用交替训练(alternating training)方式训练目标检测模型,即先训练RPN再训练RoI分类回归网络。本文使用联合训练(approximate joint training),即RPN与RoI分类判别网络同时训练。经验表明,联合训练时间减少了约25 % ~50 %,训练结果与交替训练接近(Ren等,2017)。联合训练函数为

$ L{\rm{ }} = {\rm{ }}{L_{{\rm{rpn}}}} + {\rm{ }}{L_{{\rm{roi}}}} $ (14)

训练过程的损失值收敛情况如图 3所示。

图 3 损失值收敛情况
Fig. 3 Convergence of loss
((a) RPN foreground/background classification network loss; (b) RPN anchor box position regression network loss; (c) RoI classification network loss; (d) RoI anchor box position regression network loss; (e) approximate joint training loss)

3 实验与结果分析

3.1 数据集及预处理

本文使用的训练集与测试集图像取自公开数据集COVID-CT(https://github.com/UCSD-AI4H/CO-VID-CT)。该数据集包含216名新冠肺炎患者的349幅肺部CT图像,图像均未标注。本文的数据集标注工作由医院的放射科医生完成,首先在数据集中挑选清晰且肉眼可分辨病灶特征的图像,然后用边界框标注图像中由病毒性肺炎引起的磨玻璃密度影目标区域,最后将标注的图像按2 ∶ 1的比例分为训练集与测试集。图 4是本文数据集的示例图像。

图 4 COVID-CT数据集图像示例
Fig. 4 Image example of COVID-CT dataset

使用训练集训练网络之前,先对数据预处理。首先将数据集中过大或过小的图像尺寸缩放到300~500之间;然后对图像进行随机水平翻转、随机平移和亮度调整等,增强模型的泛化能力;最后对训练集图像进行标准化(standardization)处理,先将图像的像素值除以255,记为$x$,然后计算$x$的均值,记为$\text{mean}(x)$,计算$x$的标准差,记为$σ$,原图标准化后的输出记为$x′$,具体为

$ {x^\prime } = \frac{{x - {\mathop{\rm mean}\nolimits} (x)}}{\sigma } $ (15)

3.2 磨玻璃密度影目标检测

在磨玻璃密度影目标检测任务中,模型训练统一采用随机梯度下降(stochastic gradient descent,SGD)优化(Bottou,2010),初始学习率为0.001,50个epoch后降为0.000 1。

采用召回率(recall)、平均精度均值(mean average precision,mAP)和传输率(frames per second,FPS)指标评价模型的检测结果。召回率是正确检测出的磨玻璃密度影目标数量占原图中磨玻璃密度影目标数量的比例。mAP即检测结果的平均准确度,是目标检测任务中常见的评估指标。FPS是每秒检测图像的数量。为了全面验证本文提出的改进方法,设计了多组对照实验,验证加入FPN以及改进RPN对磨玻璃密度影目标检测的有效性与性能提升。此外,最新的单阶段目标检测模型也在小目标识别问题上进行了优化,包括由YOLO(you only look once)模型(Redmon等,2016)改进的YOLOv3模型(Redmon和Farhadi,2018)和由SSD(single shot multiBox detector)模型(Liu等,2016)改进的DSSD(deconvolutional SSD)模型(Fu等,2017)。实验中YOLOv3模型的骨干网络使用原作者自行设计的Darknet53,其他模型的骨干网络均使用ResNet50。实验结果如表 2所示。

表 2 不同模型的性能指标
Table 2 Performance indicators of different models

下载CSV
模型结构 召回率/% mAP/% FPS/(帧/s)
Faster R-CNN 89.2 67.9 5
Faster R-CNN+FPN 94.8 69.5 5
本文 96.2 71.8 9
SSD 81.2 62.0 10
DSSD 90.2 68.5 8
YOLO 76.5 59.6 11
YOLOv3 85.0 63.2 31
注:加粗字体为各列最优结果。

在标准Faster R-CNN的基础上,用FPN代替特征提取网络,最大的区别是FPN不仅在高层强语义特征图上寻找候选区域,而且在具有高清晰度的低层特征图上寻找候选区域,可以找到被多层池化掩盖掉的小物体。实验发现,使用FPN的模型有效检测到了小尺寸玻璃密度影目标区域,有效提升了模型的召回率与mAP。本文对Faster R-CNN的RPN改进由于去除了在前景/背景分类监督时产生的大量锚框与背景重叠度计算,模型的检测速度由Faster R-CNN的5帧/s提升为9帧/s。与最新的单阶段目标检测模型相比,本文模型在保持双阶段目标检测模型高精准度优势的同时,拉近了与单阶段目标检测模型在检测速度指标上的距离。表 3展示了本文模型使用VGG16(Visual Geometry Group 16-layer net)(Simonyan和Zisserman,2015)、ResNet18(He等,2016a)和ResNet50等不同骨干网络的性能指标。其中ResNet50的深层残差网络结构取得了最高得分。

表 3 本文模型使用不同骨干网络的性能指标
Table 3 The model in this paper performance indicators of uses different backbone networks

下载CSV
骨干网络 召回率/% mAP /%
VGG16 94.8 70.1
ResNet18 96.0 68.5
ResNet50 96.2 71.8
注:加粗字体为各列最优结果。

图 5为本文模型在测试集的结果示例,红框区域即模型预测的磨玻璃密度影目标,框上方标明分类标签与置信度,磨玻璃密度影目标标签简写为g。可以看出,本文模型能够正确区分肺部CT图像中存在的磨玻璃密度影、结节、胸腔积液,并准确标注磨玻璃密度影目标的位置。

图 5 测试集检测结果示例
Fig. 5 Example of test set detection results

4 结论

本文针对Faster R-CNN模型在玻璃密度影目标区域检测中的小尺寸目标无法有效识别与模型检测速度慢等问题,首先使用FPN替换Faster R-CNN,从单一特征图上搜索候选区域的特征提取网络,解决了小尺寸玻璃密度影目标区域无法有效识别问题,提升了模型的recall与mAP。然后提出基于位置映射的RPN,消除了基于重叠度监督前景/背景分类产生的大量冗余计算,提升了模型检测速度。同时在RPN中添加参数——中心度,将预测的前景/背景分类置信度分数乘以中心度作为排序分数,这样在非极大抑制阶段可以滤除低分数的边缘候选区域,提升了RoI的质量。对比实验表明,本文方法在新冠肺炎患者肺部CT图数据集上,检测精度与检测速度均获得了显著提升,可以提供快速有效的辅助诊断。

然而本文模型也存在不足,相比于检测速度最快的单阶段目标检测模型,仍存在优化空间。在未来工作中,针对磨玻璃密度影目标检测任务,优化骨干网络设计,将提升模型检测速度作为研究方向。另一方面,本文收集的数据集规模较小且不是患者完整肺部CT图集,检测单位是单幅图像,而医学上一般以患者的完整肺部CT图集为评价单位,因此下一步将着手融合患者的完整肺部CT图集对病情进行综合评价。

参考文献

  • Bottou L. 2010. Large-scale machine learning with stochastic gradient descent//Proceedings of the 19th International Conference on Computational Statistics. Paris, France: Physica-Verlag HD: 177-186[DOI:10.1007/978-3-7908-2604-3_16]
  • Committee of the Infectious Diseases Radiology Group of Chinese Society of Radiology, Committee of the Infectious Diseases Radiology Section of Chinese Medical Doctor Association, Infectious Disease Imaging Group, Infectious Disease Branch, Chinese Research Hospital Association, Imaging Committee of Chinese Association for the Prevention and Treatment of STD AIDS Infection (Infectious Disease), Infectious Diseases Group, General Radiological Equipment Committee, Beijing Imaging Diagnosis and Treatment Technology Innovation Alliance, Beijing Imaging Diagnosis and Treatment Technology Innovation Alliance. 2020. Guideline for imaging diagnosis of novel coronavirus (2019-nCoV) infected pneumonia (1st edition 2020). New Medicine, 30(1): 22-34 (中华医学会放射学分会传染病学组, 中国医师协会放射医师分会感染影像专委会, 中国研究型医院学会感染与炎症放射学分会, 中国性病艾滋病防治协会感染(传染病)影像工作委员会, 中国医院协会传染病分会传染病影像学组, 中国装备协会普通放射装备专业委员会传染病学组, 北京影像诊疗技术创新联盟. 2020. 新型冠状病毒感染的肺炎影像学诊断指南(2020第一版). 医学新知, 30(1): 22-34) [DOI:10.12173/j.issn.1004-5511.2020.01.07]
  • Fu C Y, Liu W, Ranga A, Tyagi A and Berg A C. 2017. DSSD: deconvolutional single shot detector[EB/OL]. [2020-07-15]. https://arxiv.org/pdf/1701.06659.pdf
  • Girshick R. 2015. Fast R-CNN//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1440-1448[DOI:10.1109/ICCV.2015.169]
  • Girshick R, Donahue J, Darrell T and Malik J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 580-587[DOI:10.1109/CVPR.2014.81]
  • He K, Zhang X Y, Ren S Q, Sun J. 2014. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis & Machine Intelligence, 37(9): 1904-1916 [DOI:10.1007/978-3-319-10578-9_23]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016a. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI:10.1109/CVPR.2016.90]
  • Hwang S, Kim H E, Jihoon J M D and Kim H J. 2016. A novel approach for tuberculosis screening based on deep convolutional neural networks//Proceedings of SPIE, Medical imaging 2016: Computer-Aided Diagnosis. San Diego, USA: SPIE: 97852 W[DOI:10.1117/12.2216198]
  • Islam M T, Aowal A, Minhaz A T and Ashraf K. 2017. Abnormality detection and localization in chest x-rays using deep convolutional neural networks[EB/OL]. [2019-12-15]. http://arxiv.org/pdf/1705.09850.pdf
  • Li H J. 2020. Guideline for medical imaging in auxiliary diagnosis of coronavirus disease 2019. Chinese Journal of Medical Imaging Technology, 36(3): 321-331 (李宏军. 2020. 新型冠状病毒肺炎影像学辅助诊断指南. 中国医学影像技术, 36(3): 321-331) [DOI:10.13929/j.issn.1003-3289.2020.03.001]
  • Lin T Y, Dollár P, Girshick R, He K M, Hariharan B and Belongie S. 2017. Feature pyramid networks for object detection//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 936-944[DOI:10.1109/CVPR.2017.106]
  • Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot MultiBox detector//Proceedings of the 14th European Conference on Computer Vision-ECCV 2016. Amsterdam, the Netherlands: Springer: 21-37[DOI:10.1007/978-3-319-46448-0_2]
  • Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 779-788[DOI:10.1109/CVPR.2016.91]
  • Redmon J and Farhadi A. 2018. YOLOv3: an Incremental Improvement[EB/OL]. [2020-07-10]. https://arxiv.org/pdf/1804.02767.pdf
  • Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-12-12]. https://arxiv.org/pdf/1409.1556.pdf
  • Tong G F, Li Y, Chen H R, Zhang Q C, Jiang H Y. 2018. Improved U-NET network for pulmonary nodules segmentation. Optik, 174: 460-469 [DOI:10.1016/j.ijleo.2018.08.086]
  • Uijlings J R R, van de Sande K E A, Gevers T, Smeulders A W M. 2013. Selective search for object recognition. International Journal of Computer Vision, 104(2): 154-171 [DOI:10.1007/s11263-013-0620-5]
  • Wang Y L, Qiao Z W, Liu W Y, Xu C J, Li P, Wang L Y, Zhang X C, Lin J Z, Xu Q Z, Lu Z Y, Cheng G X, Liu Q, Liu X J, Li L, Yang Q, Zhang L N, Zhang H J, Hou D L, Yin X P, Liao M Y. 2020. Guideline for imaging diagnosis of novel coronavirus infected pneumonia. Journal of Capital Medical University, 41(2): 168-173 (王亚丽, 乔中伟, 刘文亚, 许传军, 李萍, 汪丽娅, 张笑春, 林吉征, 徐秋贞, 鲁植艳, 成官迅, 刘强, 刘新疆, 李莉, 杨旗, 张立娜, 张惠娟, 侯代伦, 殷小平, 廖美焱. 2020. 新型冠状病毒肺炎影像诊断指南(2020年第二版简版). 首都医科大学学报, 41(2): 168-173) [DOI:10.3969/j.issn.1006-7795.2020.02.004]
  • Zhao K C, Suo T, Wang Y N, Huang Y, Xing B Z, Chen G Z, Zou J J. 2020. Application of chest CT scans in the diagnosis and treatment of COVID-19. Medical Journal of Wuhan University, 42(05): 704-708 (赵考昌, 索涛, 王妍妮, 黄毅, 邢变枝, 陈国忠, 邹进晶. 2020. 胸部CT扫描在新型冠状病毒肺炎诊治中的应用价值. 武汉大学学报(医学版), 42(05): 704-708) [DOI:10.14188/j.1671-8852.2020.0344]