发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220423
2023 | Volume 28 | Number 1

医学图像处理

多尺度自适应融合的肝脏肿瘤检测

马金林^1,2, 欧阳轲¹, 马自萍¹, 毛凯绩¹, 陈勇³

1. 北方民族大学计算机科学与工程学院, 银川 750021;

2. 北方民族大学图像图形智能处理国家民委重点实验室, 银川 750021;

3. 宁夏医科大学总医院放射介入科, 银川 750004

收稿日期: 2022-05-07; 修回日期: 2022-08-11; 预印本日期: 2022-08-18

基金项目: 宁夏自然科学基金项目(2020AAC03215，2022AAC03268，2020AAC02004)；北方民族大学中央高校基本科研业务费专项资金资助(2021KJCX09，FWNX21)；北方民族大学计算机视觉与虚拟现实创新团队项目(2021KF01)；北方民族大学研究生创新项目(YCX21094)

作者简介: 马金林，通信作者，男，副教授，硕士生导师，主要研究方向为计算机图形学和医学图像处理。E-mail: majinlin@nmu.edu.cn
欧阳轲，男，硕士研究生，主要研究方向为计算机图形学。E-mail: 594741028@qq.com
马自萍，女，副教授，硕士生导师，主要研究方向为智能信息处理。E-mail: 2006041@nmu.edu.cn
毛凯绩，男，硕士研究生，主要研究方向为医学图像处理。E-mail: 2980958847@qq.com
陈勇，男，教授，主要研究方向为医学影像分析。E-mail: chenyong6981@sina.com
*通信作者: 马金林 majinlin@nmu.edu.cn

中图法分类号: TP391.7

文献标识码: A

文章编号: 1006-8961(2023)01-0260-17

摘要

目的针对肝脏肿瘤检测方法对小尺寸肿瘤的检测能力较差和检测网络参数量过大的问题，在改进EfficientDet的基础上，提出用于肝脏肿瘤检测的多尺度自适应融合网络MAEfficientDet-D0(multiscale adaptive fusion network-D0)和MAEfficientDet-D1。方法首先，利用高效倒置瓶颈块替换EfficientDet骨干网络的移动倒置瓶颈块，在保证计算效率的同时，有效解决移动倒置瓶颈块的挤压激励网络维度和参数量较大的问题；其次，在特征融合网络前添加多尺度块，以扩大网络有效感受野，提高体积偏小病灶的检测能力；最后，提出多通路自适应加权特征融合块，以解决低层病灶特征图的语义偏弱和高层病灶特征图的细节感知能力较差的问题，提高了特征的利用率和增强模型对小尺寸肝脏肿瘤的检测能力。结果实验表明，高效倒置瓶颈层在少量增加网络复杂性的同时，可以有效提高网络对模糊图像的检测精度；多通路自适应加权特征融合模块可以有效融合含有上下文信息的深层特征和含有细节信息的浅层特征，进一步提高了模型对病灶特征的表达能力；多尺度自适应融合网络对肝脏肿瘤检测的效果明显优于对比模型。在LiTS(liver tumor segmentation)数据集上，MAEfficientDet-D0和MAEfficientDet-D1的mAP(mean average precision)分别为86.30%和87.39%；在3D-IRCADb(3D image reconstruction for comparison of algorithm database)数据集上，MAEfficientDet-D0和MAEfficientDet-D1的mAP分别为85.62%和86.46%。结论本文提出的MAEfficientDet系列网络提高了特征的利用率和小病灶的检测能力。相比主流检测网络，本文算法具有较好的检测精度和更少的参数量、计算量和运行时间，对肝脏肿瘤检测模型部署于嵌入式设备和移动终端设备具有重要参考价值。

关键词

MAEfficientDet; 高效倒置瓶颈块; 多尺度块; 多通路; 特征融合; 自适应加权

Multiscale adaptive fusion network based algorithm for liver tumor detection

Ma Jinlin^1,2, Ouyang Ke¹, Ma Ziping¹, Mao Kaiji¹, Chen Yong³

1. School of Computer Science and Engineering, North Minzu University, Yinchuan 750021, China;

2. Key Laboratory of Image and Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan 750021, China;

3. Department of Interventional Radiology, General Hospital of Ningxia Medical University, Yinchuan 750004, China

Supported by: Natural Science Foundation of Ningxia Autonomous Region, China(2020AAC03215, 2022AAC03268, 2020AAC02004)

Abstract

Objective Human liver-detected computerized tomography (CT) images are widely used in the diagnosis of liver diseases. CT images-based liver tumors' symptom is varied in related to its shape, size and location and its low contrast is projected with adjacent tissues. However, the challenging issues are concerned of poor detection ability of small-sized tumors in liver tumor detection and a huge number of parameters of detection network. These challenges are mainly involved in as mentioned below: 1) weak detection ability of small lesions; 2) large amount of model parameters-derived low efficiency and high computational cost; 3) less semantic feature description ability of the model for low-level feature map lesions; 4) poor details-perceptive ability for high-level feature map lesions. In order to solve these problems and improve the detection and recognition ability of the model, we develop a multi-scale EfficientDet-based adaptive fusion network (MAEfficientDet-D0, MAEfficientDet-D1) for liver tumor detection. Method A multiscale adaptive fusion network method, called MAEfficientDet, is facilitated for liver tumor detection. Our contribitions are based the key asepcts as following: 1) first, efficient inverted bottleneck (EFConv) is designed to replace the mobile inverted bottleneck block of EfficientDet backbone network with efficient inverted bottleneck block, which can effectively reolve the problem of large dimensions and parameters of the squeeze excitation network of mobile-inverted bottleneck block. The structure of the EFConv is to construct multi-channel of input image by expanding convolution to obtain more feature layers. Next, the depth separable convolution is used to extract the features of each layer. Third, a local channel-across interaction strategy with no dimension-reduced is used to realize channel-cross information interaction, and one-dimensional convolution is used to reduce the complexity of the model significantly. Fourth, the number of channels is compressed by dimensional-reduced convolution. Finally, the residual connection is used to alleviate the gradient dispersion and improve the parameter-transfering ability for network model training efficiency. 2) The multiscale blocks (Multiscale-A, Multiscale-B) are focused regional features of liver lesions to expand the effective receptive field of the network and improve the detection ability of small lesions. The internal structure of multi-scale blocks can be divided into multi-branch convolution layers of different cores and maximum pooling operations. Its characteristics are illustrated below: (1) adopting 1 × 1 convolution filtering useless information; (2) using different convolution kernels for different branches to obtain characteristic graphs of different sizes; (3) using the maximum pool operation of different receptive fields to reduce the size of the characteristic map and prevent the network from over fitting; (4) using residuals to improve the efficiency of network parameter transmission. 3) Using multi-channel adaptive weighted feature fusion block (MAWFF) to adaptively fuse the high-level semantic features and the low-level fine-grained features of the liver tumor image. The problems of weak semantics of the low-level lesion feature map and poor details perception of the high-level lesion feature map can be resolved further and the utilization of features and the detection ability of the model are improved. The experimental datasets are composed of liver tumor segmentation challenge dataset (LiTS) and 3D image reconstruction for comparison of algorithm database (3D-IRCADb). Result The experiments show that the efficient inversion of bottleneck layer can improve the detection accuracy of fuzzy images effectively while improving a small amount of network complexity. The multi-channel adaptive feature-weighted fusion module fuses the deep features-contextual information effectively and the features-shallowed detail information, which improves the demonstration ability of the model to the lesion features further. The effect of multi-scale adaptive fusion network on liver tumor detection is significantly developed and optimized in terms of the comparative analyses as listed below: 1) LiTS-based: MAEfficientDet-D0 is higher than EfficientDet-D0 by 7.48%, 9.57%, 6.42%, 7.96% and 8.52%, respectively. MAEfficientDet-D1 is increased by 3.47%, 6.64%, 6.33%, 8.12% and 5.02% of each beyond EfficientDet-D1. 2) 3D-IRCADb-based: MAEfficientDet-D0 is increased by 5.51%, 9.82%, 6.16%, 7.39% and 7.63%, respectively beyond EfficientDet-D0. MAEfficientDet-D1 is increased by 5.87%, 6.24%, 5.81%, 9.39% and 6.05%, respectively beyond EfficientDet-D1. Conclusion Our MAEfficientDet-D0 and MAEfficientDet-D1 architectures improve the utilization of features and the detection ability of small lesions. Our detection algorithm has better results on detection accuracy, less parameter amount, calculation cost and running time, as well as its potentials for embedded devices and mobile terminal devices.

Key words

MAEfficientDet; efficient inverted bottleneck block; multiscale block; multichannel; feature fusion; adaptive weighting

0 引言

随着卷积神经网络(convolutional neural network，CNN)的发展，深度学习(deep learning，DL)已经成为研究肝脏疾病诊断的主要方法。Che等人(2021)设计了一种多特征引导的多尺度残差卷积神经网络(multi-feature guided multi-scale residual convolutional neural network)来捕获不同感受野的特征，用于非酒精性脂肪肝(nonalcoholic fatty liver disease，NAFLD)分类，但忽视了模型参数骨架优化关系，且引入的3种大卷积核增大了网络的参数量和计算量。Guo等人(2019)采用深度学习模型Mask-RCNN(region convolutional neural network)对成团的脂肪变性液滴进行识别，用于检测边界框和预测对象掩码，但是该方法的区域建议网络生成的预选框对小物体检测效果不佳。Lee等人(2018)将分组卷积(group convolution)应用到单级多框检测器SSD(single shot detector)中，有效利用了多阶段数据的丰富信息，但无法解决低层病灶特征图语义性偏弱和高层病灶特征图对细节感知较差的问题。Tao等人(2019)提出了一种注意特征聚合机制，通过引入上下文注意模块(contextual attention module)和空间注意模块(spatial attention module)提取更重要的判别特征，并通过软重采样选择性地聚合不同肝肿瘤切片的信息，但忽略了病变与非病变特征之间的通道相关区域。Kesav和Jibukumar(2022)利用两通道卷积神经网络进行脑瘤检测，基于RCNN进行两阶段检测，但是双阶段的检测算法具有执行时间长和执行效率低的问题。Zhang等人(2021)提出基于蒙特卡罗dropout(Monte Carlo dropout，MC-Drop)的贝叶斯YOLOv4(you only look once version 4)网络，为乳腺肿瘤检测网络引入不确定性。由于特征提取阶段的理论感受野较小，该网络易遗漏大阴影附近的小肿瘤。可以看出，肝脏肿瘤检测存在以下亟待解决的问题：1)小病灶的检测能力较弱；2)模型参数量较大导致模型运行效率低、对设备性能要求高；3)模型对低层特征图病灶的语义特征描述能力偏弱，对高层特征图病灶的细节感知能力较差。

针对上述问题，为提升肝脏疾病的诊断精度，优化不同尺寸病灶的检测能力，本文提出一种用于肝脏肿瘤检测的多尺度自适应融合网络(multiscale adaptive fusion network，MAEfficientDet)，本文主要完成以下工作：1)设计高效倒置瓶颈块(efficient inverted bottleneck convolution，EFConv)有效解决移动倒置瓶颈块的挤压激励网络维度和参数量较大问题；2)设计关注肝脏病灶区域特征的多尺度块(Multiscale-A，Multiscale-B)，扩大网络有效感受野，提高了体积偏小病灶的检测能力；3)设计多通路自适应加权特征融合块(multi-channel adaptive weighted feature fusion block，MAWFF)，自适应地融合肝脏肿瘤图像的高层语义特征与底层细粒度特征，提高特征的利用率和模型的检测能力。

1 相关工作

1.1 EfficientDet

随着深度神经网络的发展，基于深度学习的目标检测(object detection)成为目标检测的主要方法(Liu等，2020；Ma等，2020)。神经网络模型通过缩放网络宽度、网络深度或图像分辨率取得了更高的准确率。为了满足资源受限设备的需求，Google(Tan等，2020)提出轻量级、可扩展的高效目标检测网络(EfficientDet)，如图 1所示，该网络包括EfficientNet、加权双向特征金字塔网络(bidirectional feature pyramid network，BiFPN)、分类预测网络和边界框回归预测网络。

图 1 EfficientDet模型

Fig. 1 EfficientDet model

EfficientDet系列网络通过神经结构搜索算法(neural architecture search，NAS)(Zoph和Le，2017)对网络深度、网络宽度和图像分辨率复合缩放，并平衡3个维度的缩放比例，提出了包含EfficientDet-D0—EfficientDet-D7的8个模型，依次作为主干网络提取特征映射。BiFPN利用跨尺度连接在不增加过多计算成本的情况下融合更多特征，加权特征融合使网络学习不同特征的重要性，分类预测网络判定目标所属类别，边界框回归预测网络定位目标位置。与单维度检测网络(He等，2017；Lin等，2017a, b；Liu等，2016；Redmon和Farhadi，2018)相比，EfficientDet网络更容易提取更多的语义信息，在更少参数量的前提下获得更高的准确率。本文使用EfficientDet-D0和EfficientDet-D1作为基础框架。

1.2 自适应融合方法

特征融合(feature fusion)方法广泛应用于目标检测任务(尉婉青等，2021；谢星星等，2022)，用于整合不同深度、不同层次的特征，充分利用多尺度特征缩小不同层之间的语义鸿沟，获得更具判别力的输出特征层，使检测器能够同时学习到足够的细节信息和语义信息。

特征金字塔(feature pyramid network，FPN)(Lin等，2017a)是一种典型的特征融合方法，采用自上而下等权重的特征融合方法，但存在以下两个问题：1)自上而下等权重的特征融合方法未区分不同特征层的重要程度；2)金字塔不同层对同一特征采取不同的处理方式易造成特征冲突，这种特征冲突在训练期间会干扰梯度计算，降低特征金字塔的有效性。

自适应空间特征融合方法(adaptively spatial feature fusion，ASFF)包括重新缩放和自适应融合两个步骤(Liu等，2019)，旨在解决单阶段目标检测特征金字塔存在的不一致性问题。自适应空间特征融合方法通过学习有效权重，自适应地调整不同特征层的融合比例，优化融合过程，在空间上过滤其他层的无用信息，改善特征融合中的图像空间信息冲突和特征金字塔中的不一致性问题。

2 多尺度自适应融合的肝脏肿瘤检测方法

本文提出多尺度自适应融合的肝脏肿瘤检测方法MAEfficientDet，网络结构如图 2所示。MAEfficientDet包括7个高效倒置瓶颈大结构块、2个多尺度块A、3个多尺度块B、1个多通路自适应加权特征融合块、肝肿瘤类别预测网络和肝肿瘤位置预测网络6个部分。与EfficientDet模型相比，MAEfficientDet进行了3方面改进：1)用高效倒置瓶颈块替换移动倒置瓶颈块，实现了跨通道信息交互，在显著降低模型复杂性的同时保证检测性能；2)使用多尺度块提高有效感受野，增强肝脏肿瘤区域识别能力和模型鲁棒性；3)用多通路自适应加权特征融合块替换双向加权特征金字塔网络，抑制不同尺度特征图之间的不一致性，同时，采用多通路自适应加权特征融合块选择性地整合多个特征层，保证特征的尺度不变性。

图 2 MAEfficientDet的网络框架

Fig. 2 The framework of the proposed MAEfficientDet

根据高效倒置瓶颈大结构块和多通路自适应加权特征融合块的层结构差异和多尺度块的特征维度差异，MAEfficientDet分为MAEfficientDet-D0和MAEfficientDet-D1两种网络，结构如图 2所示。MAEfficientDet-D1模型的7个高效倒置瓶颈大结构块从1层到7层分别包含1、2、2、3、3、4、1个高效倒置瓶颈块。模型包含2个多尺度块A和3个多尺度块B。多尺度块A和多尺度块B均采用最大池化，从浅层特征层P3_in到深层特征层P7_in输出维度分别是(64，64，40)、(32，32，112)、(16，16，320)、(8，8，64)和(4，4，64)。模型的多通路自适应加权特征融合块中含有3个自顶向下特征提取块、3个自底向上特征提取块和1个自适应空间特征融合块。MAEfficientDet-D0的7个高效倒置瓶颈大结构块从1层到7层分别包含2、3、3、4、4、5、2个高效倒置瓶颈块。多尺度块A和多尺度块B从浅层特征层P3_in到深层特征层P7_in输出维度分别是(80，80，40)、(40，40，112)、(20，20，320)、(10，10，88)和(5，5，88)。MAEfficientDet-D1的多通路自适应加权特征融合块中含有4个自顶向下特征提取块、4个自底向上特征提取块和1个自适应空间特征融合块。

图 3列出了EfficientDet-D0、MAEfficientDet-D0和MAEfficientDet-D1的网络结构，描述了输入和输出特征的尺寸。

图 3 EfficientDet-D0、MAEfficientDet-D0和MAEfficientDet-D1网络结构

Fig. 3 The structure of EfficientDet-D0, MAEfficientDet-D0 and MAEfficientDet-D1

2.1 高效倒置瓶颈块

挤压激励网络(squeeze-and-excitation networks，SE-Net)(Hu等，2018)的主要思想是增强提供更多有用特征的通道，抑制提供较少有用特征的通道。实际部署中，SE模块存在占用过多计算资源和网络推理过程较慢的问题。因此，本文在移动倒置瓶颈块(mobile inverted bottleneck convolution，MBConv)的基础上设计了高效倒置瓶颈块(efficient inverted bottleneck convolution，EFConv)。EFConv在移动倒置瓶颈结构中加入1维卷积和残差连接，用于替代挤压激励网络，其原理如图 4所示。

图 4 高效倒置瓶颈块结构

Fig. 4 Efficient inverted bottleneck convolution structure

高效倒置瓶颈块的结构如下：通过扩展卷积扩展输入图像的通道，获得更多特征层；使用深度可分离卷积(Howard等，2017)提取各层特征；引入无降维的局部交叉信道交互策略实现跨通道信息交互，利用1维卷积显著降低模型复杂性的同时保持性能；使用降维卷积压缩通道数量；使用残差连接缓解梯度弥散的同时提高参数传递效率，使网络模型易于训练。

挤压激励网络使用全连接层捕获跨通道交互信息，使用降维操作减少模型复杂度，但维度减少对通道注意力预测产生了消极影响。另外，捕获所有通道之间的依赖关系是低效而非必要的。为解决此问题，本文在全局平均值池化后使用1维卷积捕获跨通道交互信息，在保证计算效率的同时，提升模型有效性。通过加入反向残差结构解决梯度弥散和梯度爆炸问题，加速网络收敛。为了尽可能保持图像特征的多样性，增强网络表达能力，高效倒置瓶颈块的最后一层使用线性激活函数有效保留低维输入信息。

MAEfficientDet-D0和MAEfficientDet-D1分别使用16个和23个高效倒置瓶颈块。其中，顶层块在保证特征图通道数的前提下降低分辨率，低层块在不丢失太多信息的情况下从高维特征图提取特征。将高效倒置瓶颈大结构块3、5、7最后一层输出特征作为多尺度块的输入特征。

2.2 多尺度块

深层卷积的有效感受野远小于理论感受野，多通路自适应加权特征融合块(MAWFF)的感受野不足以捕捉肝脏肿瘤图像的上下文信息。因此，本文设计多尺度块(Multiscale-A，Multiscale-B)添加在MAWFF之前，以扩展MAWFF的有效感受野。多尺度块的结构如图 5所示。多尺度块A、B参考了Inception(Szegedy等，2016)的多分支结构，在其上加入残差连接和不同尺度的最大值池化操作，用于提取深层网络的上下文特征，从而使检测器更加准确、快速。多尺度块的内部结构可分为不同内核的多分支卷积层和最大值池化操作。其特点为：1)使用1 × 1卷积过滤无用信息；2)不同分支使用不同的卷积核获得多个不同大小的特征图，网络深度的增加和网络宽度的扩展提高了模型对网络规模的适应性；3)使用不同感受野的最大值池化操作减小特征图尺寸并防止网络过拟合；4)使用残差连接提高网络参数传递效率。

图 5 多尺度块的结构

Fig. 5 Multiscale block structure((a)multiscale-A; (b)multiscale-B)

在卷积神经网络的参数学习过程中，标准方形卷积的参数是随机初始化的，因此内核矩阵可能朝着4个边(角)方向优化，忽略了平均重要性更高的中心点参数，易导致网络特征提取能力降低。本文采用非对称卷积(asymmetric convolution)结构，将水平卷积和垂直卷积添加到标准卷积中，形成非对称卷积块，其原理如图 6所示。非对称卷积块通过中心十字组成的增强骨架关注中心点特征。

图 6 非对称卷积块结构图

Fig. 6 Asymmetric convolution block structure

多尺度块使用1维非对称卷积增强平方卷积核，在不增加推理时间和计算负担的前提下，不引入额外超参数。3 × 3卷积总是学习每一层的中心十字增强骨架，突出了中心点参数的重要性。

MAEfficientDet-D0和MAEfficientDet-D1均包含5个多尺度块(2个多尺度块A和3个多尺度块B)，用于提取图像的深层病灶特征，解决深层语义信息在向低层传输的过程中逐渐稀释的问题。

2.3 多通路自适应加权特征融合块

EfficientDet-D0和EfficientDet-D1提取的特征图存在低层病灶特征图语义偏弱和高层病灶特征图细节感知较差问题，降低了检测的准确性和稳定性。此外，每个特征层主要或仅包含单个卷积层的信息，这些信息不足以完全体现病灶特征。因此，对EfficientDet网络中现有的BiFPN进行改良，在原本输出特征层($\mathit{\boldsymbol{P}}_7^{{\rm{out}}}$、$\mathit{\boldsymbol{P}}_6^{{\rm{out}}}$、$\mathit{\boldsymbol{P}}_5^{{\rm{out}}}$、$\mathit{\boldsymbol{P}}_4^{{\rm{out}}}$、$\mathit{\boldsymbol{P}}_3^{{\rm{out}}}$)的基础上对5个输出特征层逐一重新缩放尺度，并自适应地学习不同尺度上的特征融合权重，提出多通路自适应加权特征融合方法(MAWFF)，MAWFF由自顶向下特征提取块(top-down feature extraction block，T-DBlock)、自底向上特征提取块(bottom-up feature extraction block，B-UBlock)和自适应空间特征融合块(adaptively spatial feature fusion，ASFF)3个部分组成。

自顶向下的特征提取块是任务驱动型特征提取块，用于获取语义信息，结构如图 7所示。

图 7 自顶向下特征提取块

Fig. 7 Top-down feature extraction block

自底向上的特征提取块是数据驱动型特征提取块，用于将空间的细节信息从低层网络传递到高层网络，结构如图 8所示。

图 8 自底向上特征提取块

Fig. 8 Bottom-up feature extraction block

自适应空间特征融合块过滤空间冲突信息，以抑制不同尺度特征图之间的不一致性，提高特征的尺度不变性，并进一步解决因简单添加特征产生分类错误而导致的错误识别问题，结构如图 9所示。

图 9 自适应空间特征融合

Fig. 9 Adaptively spatial feature fusion

图 9中，$\alpha, \beta, \gamma, \delta, \eta $是网络通过反向传播自动生成的。

第$i$层自顶向下的特征提取公式为

$ {\mathit{\boldsymbol{X}}_{\rm{i}}} = \mathit{Conv}\left({\frac{{w_i^1 \times {\mathit{\boldsymbol{Y}}_i} + w_i^2 \times \mathit{\boldsymbol{X}}_{i + 1}^{\rm{U}}}}{{w_i^1 + w_i^2 + \varepsilon }}} \right) $

(1)

第$i$层自底向上的特征提取公式为

$ {\mathit{\boldsymbol{Z}}_i} = \mathit{Conv}\left({\frac{{{w^\prime }{i^1} \times {\mathit{\boldsymbol{Y}}_i} + {w^\prime }{i^2} \times {\mathit{\boldsymbol{X}}_i} + {w^\prime }{i^3} \times \mathit{\boldsymbol{Z}}_{i - 1}^{\rm{U}}}}{{{w^\prime }{i^1} + {w^\prime }{i^2} + {w^\prime }{i^3}}}} \right) $

(2)

式中，${\mathit{\boldsymbol{X}}_i} = \mathit{\boldsymbol{P}}_i^{{\rm{td}}}, \mathit{\boldsymbol{X}}_i^{\rm{U}} = Up\left({\mathit{\boldsymbol{P}}_i^{{\rm{td}}}} \right), {\mathit{\boldsymbol{Y}}_i} = \mathit{\boldsymbol{P}}_i^{{\rm{in}}}, {\mathit{\boldsymbol{Z}}_i} = \mathit{\boldsymbol{P}}_i^{{\rm{out }}}$，$\mathit{\boldsymbol{Z}}_i^{\rm{U}} = {U_p}\left({\mathit{\boldsymbol{P}}_i^{{\rm{out }}}} \right)$，$Up$为上采样函数，$\mathit{\boldsymbol{P}}_i^{{\rm{td}}}$是自顶向下结构的第$i$个中间层输出特征，$\mathit{\boldsymbol{P}}_i^{{\rm{in }}}$是自顶向下结构的第$i$层输入特征，$\mathit{\boldsymbol{P}}_i^{{\rm{out }}}$是自底向上结构的中间层输出特征，$\varepsilon $是一个正小数，用于避免数值不稳定。

自适应空间特征融合块位于自顶向下特征提取和自底向上特征提取块之后，用于融合特征层${\mathit{\boldsymbol{P}}_3}$到${\mathit{\boldsymbol{P}}_7}$的深层特征和浅层特征。自适应空间特征融合块自适应地学习不同尺度上的特征融合权重，其特征融合公式为

$ \begin{array}{c} {\mathit{\boldsymbol{K}}_i} = \alpha \times {\mathit{\boldsymbol{V}}_j} + \beta \times {\mathit{\boldsymbol{V}}_{j + 1}} + \gamma \times {\mathit{\boldsymbol{V}}_{j + 2}} + \\ \delta \times {\mathit{\boldsymbol{V}}_{j + 3}} + \eta \times {\mathit{\boldsymbol{V}}_{j + 4}} \end{array} $

(3)

式中，$j = 3, i \in [3, 4, 5, 6, 7], \alpha = \mathit{\boldsymbol{W}}[:, 0:1, :, :]$，$\beta = \mathit{\boldsymbol{W}}[:, 1:2, :, :], \gamma = \mathit{\boldsymbol{W}}[:, 2:3, :, :]$，$\delta {\rm{ = }}\mathit{\boldsymbol{W}}[:, 3:4, :, ::], \eta = \mathit{\boldsymbol{W}}[:, 4:5, :, ::], {\mathit{\boldsymbol{V}}_j} = \mathit{\boldsymbol{P}}_j^{{\rm{out' }}}$，$\mathit{\boldsymbol{W}}$为归一化后的标准化权重，用于确定所关注语义信息所属的特征层，其值由$\mathit{\boldsymbol{P}}_j^{{\rm{out' }}}$各层先经点卷积，所得的中间特征层在第1维上拼接，再将拼接后的特征层经输出通道为5的点卷积和归一化指数函数。$\mathit{\boldsymbol{P}}_j^{{\rm{out' }}}$是由$\mathit{\boldsymbol{P}}_i^{{\rm{out' }}}$上采样或下采样得到的一组具有相同维度的特征矩阵，若待转换的特征层$j$小于当前特征层$i$，则对$\mathit{\boldsymbol{P}}_i^{{\rm{out}}}$进行最近邻插值；若待转换的特征层$j$大于当前特征层$i$，则对$\mathit{\boldsymbol{P}}_i^{{\rm{out}}}$进行最大池化；若待转换的特征层$j$和当前特征层$i$一致，则保留当前$\mathit{\boldsymbol{P}}_i^{{\rm{out }}}$特征层。

MAEfficientDet-D0和MAEfficientDet-D1在多尺度块之后加入MAWFF，利用自底向上特征提取块将病灶的细节信息从底层特征矩阵传递到了高层特征矩阵，弥补了高级语义特征的空间信息不足，提高了肿瘤病灶边界检测的准确性；利用自顶向下特征提取块加强了网络对模糊病灶的类别检测精度；自适应空间特征融合块有效地融合两条路径的细节特征，突出重要病灶并抑制背景噪声。

3 实验设置

3.1 肝脏肿瘤检测数据集

使用肝脏肿瘤分割挑战数据集(liver tumor segmentation，LiTS)(Bilic等，2019)和3D-IRCADb数据集(3D image reconstruction for comparison of algorithm database，3D-IRCADb)(Ircad France，2020)开展实验。

LiTS数据集由训练集和测试集组成。训练集包括在6个临床站点收集的131个对比增强的3D腹部计算机断层扫描(computed tomography，CT)图像，测试集包括70幅CT图像。LiTS的肿瘤大小、位置、深度和肝脏周围其他器官的紧密边界存在很大差异。本文针对每个患者的CT图像自适应选择最佳窗位、窗宽，再将CT扫描图像转换为CT图像切片，切片厚度为0.45~6.0 mm，平面分辨率为0.6 mm，切片尺寸固定为512 × 512像素，每次扫描切片数量为40~1 300幅，并对所有图像进行筛查，去除低质量或不可读图像。

3D-IRCADb数据集由3DIRCADb-01和3DIRCADb- 02组成。3DIRCADb-01包含10名男性和10名女性的静脉期数据，其中15个患者有肝脏肿瘤。3DIR CADb-02数据集包含两组3D CT扫描数据。

实验以17 ∶ 3的比例将带有标签的CT图像划分为训练集和测试集。

3.2 数据处理与检测标签生成

LiTS和3D-IRCADB的分割标签的灰度级直方图具有明显的双峰特性，如图 10所示。因此，用双峰算法进行数据预处理。首先，使用全局阈值245过滤图像。然后，使用高斯滤波平滑和Sobel算子得到梯度图。最后，将得到的图像进行拓扑结构分析、边界跟踪、提取边界轮廓，得到检测标签。

图 10 肝脏肿瘤分割标签灰度直方图和肝脏肿瘤

Fig. 10 Dataset segmentation label grayscale histogram and liver tumor

((a)dataset segmentation label grayscale histogram; (b)liver tumor)

3.3 实验环境

实验采用搭载Intel i7处理器的Windows10 64位操作系统，内存为32 GB，英伟达2080 GPU。使用Adam优化器进行优化，不同网络模型在同一数据集上使用相同参数训练，达到固定周期时停止训练，最后选择损失达到稳定时的权重对模型架构进行测试评估。

3.4 训练参数设置

在参数设置上，为使模型参数较快更新并收敛于全局最优点，采用阶梯下降的学习率衰减方法，即当训练损失在3次迭代后仍未下降时，将其调整为原来的1/2，采用1E-3的初始学习率；Adam优化器每次随机选择一个样本进行训练和梯度更新，每次更新后的权重衰减值(wight decay)设为5E-4，第1次估计的指数衰减率${\beta _1}$为0.9，第2次估计的指数衰减率${\beta _2}$为0.999，epsilon为1E-8，防止在计算过程中被0划分；为防止网络过拟合，采用dropout减弱特征之间的依赖性，在EfficientDet网络和本文网络中均采用0~0.2逐渐递增的随机丢弃率；采用分块式微调策略(fine-tuning)冻结骨干网络，解冻训练周期为100；利用K均值聚类算法生成先验框，并采用遗传算法在K均值聚类的结果上进行随机改变，得到适用于肝脏肿瘤分割挑战数据集的先验框尺寸。

3.5 先验框的设置

使用K-means算法对数据集的真实框进行聚类，获得新的先验框。为减少聚类偏差，使用遗传算法对K-means聚类算法的结果进行随机改变，并将效果变好的结果赋值给先验框。最终生成的先验框尺寸如表 1所示。表中特征图${\mathit{\boldsymbol{P}}_3} - {\mathit{\boldsymbol{P}}_7}$对应的是高效倒置瓶颈大结构块③—⑦的输出特征层。

表 1 K-means算法生成的先验框
Table 1 The anchor generated by the K-means algorithm

下载CSV

特征图	感受野	先验框
${\mathit{\boldsymbol{P}}_7}$	大	(105, 105)	(126，84)	(84, 126)	(120, 120)	(144，96)	(96, 144)	(135, 135)	(163, 108)	(108, 163)
${\mathit{\boldsymbol{P}}_6}$	偏大	(75，75)	(94，60)	(60，94)	(85，85)	(102，68)	(68, 102)	(95，95)	(114，76)	(76, 114)
${\mathit{\boldsymbol{P}}_5}$	中	(45，45)	(54，36)	(36，54)	(55，55)	(66，44)	(44，66)	(65，65)	(78，52)	(52，78)
${\mathit{\boldsymbol{P}}_4}$	较小	(30，30)	(36，24)	(24，36)	(35，35)	(42，28)	(28，42)	(40，40)	(48，32)	(32，48)
${\mathit{\boldsymbol{P}}_3}$	小	(3，3)	(5，5)	(7，7)	(9，9)	(13，13)	(15，15)	(18，18)	(22，22)	(26，26)

3.6 评价指标

为了客观全面地评价网络性能，方便与其他算法进行比较，选用精确率(precision，P)、召回率(recall，R)、F1分数(F1 score)、AP(average precision)和mAP(mean average precision)作为评价指标。

4 实验分析和讨论

4.1 消融实验与分析

为了评估模型每个模块和组件的有效性，在肝脏肿瘤分割调整数据集上进行消融实验。本文模型是在EfficientDet的基础性加入高效倒置瓶颈块、多尺度块和多通路自适应加权特征融合块实现的。因此，首先考察在EfficientDet的两个子模型上分别增加高效倒置瓶颈块、多尺度块、多通路自适应加权特征融合块的消融实验。

4.1.1 高效倒置瓶颈块的有效性

实验使用高效倒置瓶颈块代替EfficientDet-D0和EfficientDet-D1模型的移动倒置瓶颈块，得到EIR_ EfficientDet-D0和EIR_EfficientDet-D1模型，实验结果如表 2和表 3的模型2所示。

表 2 MAEfficientDet-D0消融实验结果分析
Table 2 Analysis of MAEfficientDet-D0 ablation experiment results

下载CSV

	检测模型	召回率	精确率	mAP	AP	F1	计算量/G	参数量/M	运行总时间/s
1	EfficientDet-D0	0.795 24	0.794 29	0.811 0	0.760 1	0.794 76	2.290	3.828	16 989
2	EIR_EfficientDet-D0	0.828 57	0.827 59	0.854 6	0.796 5	0.828 08	2.306	3.191	16 186
3	M_EfficientDet-D0	0.830 95	0.829 96	0.849 8	0.801 0	0.830 45	2.535	4.409	17 782
4	EfficientDet-D0(MAWFF)	0.832 14	0.831 15	0.852 8	0.799 3	0.831 64	2.578	4.397	17 981
5	MAEfficientDet-D0	0.834 52	0.853 84	0.863 0	0.820 6	0.844 07	2.831	4.342	18 968
注：加粗字体表示各列最优结果。

表 3 MAEfficientDet-D1消融实验结果分析
Table 3 Analysis of MAEfficientDet-D1 ablation experiment results

下载CSV

	检测模型	召回率	精确率	mAP	AP	F1	计算量/G	参数量/M	运行总时间/s
1	EfficientDet-D1	0.823 81	0.829 96	0.821 9	0.787 0	0.826 87	5.582	6.555	35 384
2	EIR_EfficientDet-D1	0.833 33	0.832 34	0.855 6	0.819 3	0.832 83	5.610	5.432	33 787
3	M_EfficientDet-D1	0.829 76	0.828 78	0.854 1	0.822 4	0.829 27	5.959	7.136	38 429
4	EfficientDet-D1(MAWFF)	0.832 14	0.831 15	0.858 6	0.817 8	0.831 64	6.407	7.622	38 589
5	MAEfficientDet-D1	0.852 38	0.885 04	0.873 9	0.850 9	0.868 40	6.811	7.081	40 383
注：加粗字体表示各列最优结果。

由表 2模型1、2对比可得，加入高效倒置瓶颈块后，EfficientDet-D0的精确率提高了4.19 %，参数量下降了16.64 %，运行总时间减少了4.73 %，mAP值由0.811 0提高至0.854 6。

由表 3模型1、2对比可得，加入高效倒置瓶颈块后，EfficientDet-D1的精确率提高了0.29 %，参数量下降了17.13 %，运行总时间减少了4.51 %，mAP值由0.821 9提高至0.855 6。

由此可见，高效倒置瓶颈块能够提升模型对肝脏疾病的检测能力，并具有更高的效率和更少的参数。

4.1.2 多尺度块的有效性

实验在EfficientDet-D0和EfficientDet-D1模型上添加多尺度块，得到M_EfficientDet-D0和M_EfficientDet-D1模型，实验结果如表 2和表 3中的模型3所示。

由表 2中模型1、3对比可得，EfficientDet-D0加入多尺度块后的精确率提高了4.49 %，mAP值由0.811 0提高至0.849 8，AP值由0.760 1提高至0.801 0，参数量增加了16.64 %，运行总时间增加了4.67 %。

由表 3中模型1、3对比可得，EfficientDet-D1加入多尺度块后的精确率提高了0.29 %，mAP值由0.821 9提高至0.855 6，AP值由0.787 0提高至0.822 4，参数量增加了15.18 %，运行总时间增加了8.61 %。

由此可见，多尺度块能够有效提升网络特征提取和识别能力，对小目标识别检测有较好提升效果。

4.1.3 多通路自适应加权特征融合块的有效性

实验在EfficientDet-D0和EfficientDet-D1模型上添加多通路自适应加权特征融合块，得到EfficientDet-D0(MAWFF)和EfficientDet-D1(MAWFF)模型，实验结果如表 2和表 3中的模型4所示。

由表 2中模型1、4对比可得，EfficientDet-D0加入多通路自适应加权特征融合块后的精确率提高了4.64 %，mAP值由0.811 0提高至0.852 8，参数量增加了14.86 %，运行总时间增加了5.84 %。

由表 3中模型1、4对比可得，EfficientDet-D1加入多通路自适应加权特征融合块后的精确率提高了0.28 %，mAP值由0.821 9提高至0.858 6，参数量增加了16.28 %，运行总时间增加了9.10 %。

由此可见，多通路自适应加权特征融合块在提高少量网络复杂性的同时，可以有效提高网络对模糊图像的类别检测精度。

上述3个实验验证了高效倒置瓶颈块、多尺度块和多通路自适应加权特征融合块3个模块的有效性，其中，多通路自适应加权特征融合模块的性能提升尤为突出，原因在于该模块融合了含有上下文信息的深层特征和含有细节信息的浅层特征，提高了模型对病灶特征的表达能力。

4.2 损失函数对检测性能的影响

本实验考察不同损失函数对分类结果的影响，分类任务常用的损失函数有交叉熵损失、焦点损失、合页损失、指数损失和softmax损失等。交叉熵损失函数利用梯度下降方法找到最优解，而焦点损失对交叉熵损失进行改进，解决了单阶段目标检测中正负样本比例严重失衡的问题。因此，本文方法选取焦点损失作为分类任务的损失函数。边界框回归损失都采用smooth L1 loss，分类损失和边界框回归损失按照1 ∶ 1等比例混合。表 4为EfficientDet模型在肝脏肿瘤分割调整数据集上不同分类损失下的实验结果。

表 4 EfficientDet模型在两种分类损失函数下的实验结果
Table 4 Experimental results of EfficientDet model under two classification loss functions

下载CSV

	模型	召回率	精确率	mAP	F1
1	EfficientDet-D0(cross entropy loss+smooth L1 loss)	0.786 90	0.754 57	0.807 6	0.770 40
2	EfficientDet-D0(focal loss+smooth L1 loss)	0.795 24	0.762 56	0.810 8	0.778 56
3	EfficientDet-D1(cross entropy loss+smooth L1 loss)	0.801 19	0.800 24	0.822 9	0.800 71
4	EfficientDet-D1(focal loss+smooth L1 loss)	0.803 57	0.826 47	0.828 5	0.814 86
5	MAEfficientDet-D0(cross entropy loss+smooth L1 loss)	0.817 86	0.857 68	0.854 7	0.837 30
6	MAEfficientDet-D0(focal loss+smooth L1 loss)	0.828 57	0.871 09	0.863 0	0.849 30
7	MAEfficientDet-D1(cross entropy loss+smooth L1 loss)	0.851 19	0.850 18	0.869 8	0.850 68
8	MAEfficientDet-D1(focal loss+smooth L1 loss)	0.846 43	0.887 64	0.873 9	0.866 55
注：加粗字体表示各列最优结果。

使用焦点损失替换交叉熵损失后，表 4中模型1、2对比可得，EfficientDet-D0的精确率提高了1.06 %，mAP值由0.807 6提高至0.810 8。表 4中模型3、4对比可得，EfficientDet-D1的精确率提高了3.28 %，mAP值由0.822 9提高至0.828 5。表 4中模型5、6对比可得，MAEfficientDet-D0的精确率提高了1.56 %，mAP值由0.854 7提高至0.863 0。表 4中模型7、8对比可得，MAEfficientDet-D1的精确率提高了4.41 %，mAP值由0.869 8提高至0.873 9。

图 11描绘了基于EfficientDet的不同模型(对应表 4中模型1—8)在种交叉熵损失函数和焦点损失下的雷达图。由图可知，采用焦点损失优化模型的mAP值均优于交叉熵损失函数优化的模型。本文基于EfficientDet-D1改进的MAEfficientDet-D1网络模型，采用焦点损失和Smooth L1损失作为总损失，在精确率、mAP值和F1分数3项检测指标上获得了最高数据。较表 4中模型4在精确率、mAP值和F1分数上分别提高7.4 %、5.48 %和6.34 %。较表 4中模型7在精确率、mAP值和F1分数上分别提高了4.41 %、0.47 %和1.87 %。采用交叉熵损失和smooth L1损失作为总损失的EfficientDet-D0网络模型，在召回率、精确率、mAP值和F1分数3个检测指标获得最低数据。较表 4中模型2分别降低了1.06 %、1.06 %、0.4 %和1.06 %。

图 11 基于EfficientDet不同模型在两种分类损失函数下的雷达图

Fig. 11 Radar charts of different models based on EfficientDet under two classification loss functions

图 12描绘了4种算法在肝脏肿瘤分割挑战数据集上进行肿瘤检测的PR曲线。由图可知，使用二分类焦点损失函数的EfficientDet-D0、EfficientDet-D0、EfficientDet-D1、MAEfficientDet-D0和MAEfficientDet-D1模型的召回率、精确率、mAP和F1都有较大提升，尤其是代表检测性能的mAP值。使用二分类焦点损失函数的模型更加关注困难样本和正样本，减少样本不均衡，检测性能明显优于交叉熵损失函数，精确率也更高。MAEfficientDet-D0和MAEfficientDet-D1模型检测性能整体上均优于其他模型，说明该模型能较好地识别形态各异的肝脏肿瘤病灶区域，对难于识别的样本也能进行更精准的检测。

图 12 EfficientDet模型在两种损失函数下的PR曲线

Fig. 12 PR curves of EfficientDet model under two loss functions

4.3 不同模型的检测性能对比

为验证模型的检测性能，将EfficientDet-D0、EfficientDet-D1、MAEfficientDet-D0和MAEfficientDet-D1模型与其他6种SOAT算法(SSD512(single shot multibox detector)(Liu等，2016)、YOLOv3(you only look once)(Redmon和Farhadi，2018)、YOLOv4(Bochkovskiy等，2020)、YOLOv5、Faster-RCNN(faster region convolutional neural network)(Ren等，2015)和CenterNet(Zhou等，2019))在LiTS和3D-IRCADb数据集上的性能进行对比，探究不同算法在不同样本空间上的检测精度和检测效率。LiTS和3D-IRCADb数据中像素面积小于32×32的病灶目标为小目标，实验时均匀地从每个病例中随机挑选100幅包含肝脏肿瘤病灶小目标的图像，用于验证不同模型体积偏小病灶的检测能力，结果如表 5和表 6所示，雷达图如图 13所示。

表 5 不同模型在LiTS数据集上检测的结果
Table 5 Detection results of different models on the LiTS dataset

下载CSV

检测模型	召回率	精确率	mAP	AP	F1	计算量/G	参数量/M	运行总时间/s
SSD512(VGG)	0.754 76	0.767 55	0.777 9	0.722 8	0.751 89	87.625	23.745	80 323
YOLOv3(Darknet53)	0.798 30	0.792 44	0.806 5	0.750 6	0.794 39	49.624	61.524	49 763
YOLOv4(CSPDarknet)	0.839 29	0.846 88	0.838 8	0.786 4	0.843 07	45.260	63.938	44 381
YOLOv5	0.846 43	0.850 89	0.853 5	0.810 1	0.848 65	65.310	56.431	13 901
Faster-RCNN(Res50)	0.722 62	0.721 76	0.723 7	0.670 6	0.722 19	137.146	28.275	157 129
Faster-RCNN(mobilenet_v2)	0.649 50	0.686 83	0.682 8	0.631 8	0.667 64	69.864	82.348	118 079
Faster-RCNN(Res50+FPN)	0.838 61	0.819 36	0.830 7	0.782 0	0.828 87	134.244	41.347	73 267
CenterNet	0.816 67	0.806 11	0.805 1	0.749 7	0.811 36	34.968	32.664	22 384
EfficientDet-D0	0.795 24	0.794 29	0.811 0	0.760 1	0.794 76	2.290	3.828	16 989
EfficientDet-D1	0.823 81	0.829 96	0.821 9	0.787 0	0.826 87	5.582	6.555	35 384
MAEfficientDet-D0	0.854 76	0.870 30	0.863 0	0.820 6	0.862 46	2.831	4.342	18 968
MAEfficientDet-D1	0.852 38	0.885 04	0.873 9	0.850 9	0.868 40	6.811	7.081	40 383
注：加粗字体表示各列最优结果。

表 6 不同模型在3D-IRCADb数据集上检测的结果
Table 6 Detection results of different models on the 3D-IRCADb dataset

下载CSV

检测模型	召回率	精确率	mAP	AP	F1	运行总时间/s
SSD512(VGG)	0.744 03	0.720 31	0.758 4	0.690 50	0.731 97	14 057
YOLOv3(Darknet53)	0.765 73	0.767 74	0.780 8	0.723 74	0.766 73	9 061
YOLOv4(CSPDarknet)	0.820 32	0.839 06	0.837 3	0.784 91	0.829 58	8 036
YOLOv5	0.836 36	0.844 61	0.845 5	0.794 03	0.840 46	2 546
Faster-RCNN(Res50)	0.705 88	0.718 92	0.714 9	0.660 73	0.712 34	28 049
Faster-RCNN(mobilenet_v2)	0.646 84	0.679 45	0.671 6	0.617 42	0.662 74	21 589
Faster-RCNN(Res50+FPN)	0.816 04	0.825 74	0.825 4	0.771 59	0.820 86	13 289
CenterNet	0.761 36	0.774 75	0.788 1	0.730 67	0.767 99	4 123
EfficientDet-D0	0.796 79	0.785 25	0.806 5	0.754 63	0.790 97	3 158
EfficientDet-D1	0.801 06	0.816 87	0.817 1	0.765 23	0.808 89	6 287
MAEfficientDet-D0	0.840 64	0.862 37	0.856 2	0.810 46	0.851 36	3 436
MAEfficientDet-D1	0.848 12	0.867 92	0.864 6	0.837 12	0.857 90	7 293
注：加粗字体表示各列最优结果。

图 13 不同模型在不同数据集上的雷达图

Fig. 13 Radar plots of different models on different dataset

((a)LiTS; (b)3D-IRCADb)

可以看出，采用MAEfficientDet-D0和MAEfficientDet-D1检测网络模型时，召回率、精确率、mAP、AP和F1等5项检测指标均高于其他方法。在LiTS数据集上，MAEfficientDet-D0较EfficientDet-D0分别提高7.48 %、9.57 %、6.42 %、7.96 %和8.52 %。MAEfficientDet-D1较EfficientDet-D1分别提高3.47 %、6.64 %、6.33 %、8.12 %和5.02 %。在3D-IRCADb数据集上，MAEfficientDet-D0较EfficientDet-D0分别提高5.51 %、9.82 %、6.16 %、7.39 %和7.63 %。MAEfficientDet-D1较EfficientDet-D1分别提高5.87 %、6.24 %、5.81 %、9.39 %和6.05 %。

虽然MAEfficientDet-D0和MAEfficientDet-D1模型参数量是EfficientDet-D0和EfficientDet-D1的1.1~1.3倍，计算量和运行总时间不占优势，但实验结果表明，改进后的模型能够提取更多的有效特征，识别率较高，具有较好的鲁棒性和泛化能力，并且较大程度提升了小目标病灶检测能力。原因在于使用了多尺度块，使更多小目标肿瘤能够检测出来。其中，网络较深的MAEfficientDet-D1通过基于启发式的复合缩放，在增加网络深度、宽度和输入图像分辨率的情况下，仅增加少量参数就优化了网络的准确率和效率，使MAEfficientDet-D1的检测效果优于MAEfficientDet-D0。

MAEfficientDet-D0和MAEfficientDet-D1与双阶段检测网络Faster-RCNN(Res50)、Faster-RCNN(mobilenet_v2)和Faster-RCNN(Res50 + FPN)相比，在更少参数量、计算量和运行总时间下，能更精准地提取图像中具有区分度的特征，具有更高的模型效率。MAEfficientDet-D0和MAEfficientDet-D1与经典单阶段检测网络SSD512(VGG)相比，相同点是三者都结合来自不同分辨率的多个特征图进行预测，不同之处在于单级多框检测器SSD直接使用特征图进行类别和位置预测，而MAEfficientDet-D0和MAEfficientDet-D1使用多通路自适应加权特征融合块融合低层信息和高层语义，提升了检测性能。MAEfficientDet-D0、MAEfficientDet-D1的骨干网络和SSD相比，SSD借鉴VGG网络，层层堆叠卷积层和池化层，而MAEfficientDet-D0和MAEfficientDet-D1骨干网络引入高效倒置瓶颈块，使用跳跃连接缓解深度增加带来的梯度消失问题，使网络更易于优化。MAEfficientDet-D0和MAEfficientDet-D1各项检测评价指标较使用特征金字塔结构的YOLOv4(CSPDarknet)和YOLOv3(Darknet53)均有提升，进一步论证了多通路自适应加权特征融合能在一定程度上过滤冲突信息，抑制不同尺度特征图之间的不一致性，提高特征的尺度不变性，更好地识别肝脏肿瘤的病变区域，提升了模型检测性能。MAEfficientDet-D0和MAEfficientDet-D1与无锚框检测网络CenterNet相比，不同点是CenterNet构建模型时采用关键点估计来找到中心点，将目标用一个中心点表示(anchor free)，而MAEfficientDet-D0和MAEfficientDet-D1使用基于先验框的检测算法，结合K-means聚类，并利用Genetic algorithm遗传算法对聚类结果上进行mutation变异，计算出适用于肝脏肿瘤检测数据集的锚框尺寸，取得了比anchor free技术更好的准确性和效率。MAEfficientDet-D0在参数量、计算量和运行总时间上均远小于CenterNet模型。

图 14为12种网络的PR曲线，横坐标是召回率(查全率)，纵坐标是精确率(查准率)，由图可见，性能最好的3个模型依次是MAEfficientDet-D1、MAEfficientDet-D0和YOLOv5。3个模型的mAP值均大于0.85。Faster-RCNN(mobilenet_v2)的检测效果最差，mAP为0.682 78。另外，本文算法的目标检测性能明显优于其他模型，MAEfficientDet-D1具有更好的性能，能较好地学习和识别在空间尺度上差异较大的病变特征。MAEfficientDet-D1模型同时考虑骨干网络的分辨率、深度、宽度，进行混合缩放，在召回率、精确率、mAP、参数量和计算量方面均优于MAEfficientDet-D0模型。MAEfficientDet-D0和MAEfficientDet-D1模型增加了多尺度模块，扩展了MAWFF的有效感受野，聚集强相关性特征，并保持网络结构的稀疏性。另外，多尺度模块的残差连接缓解了梯度弥散和梯度下降问题。MAEfficientDet-D0和MAEfficientDet-D1添加多通路自适应加权特征融合块，进一步融合高级语义特征和底层病灶的细节特征，突出重要的肿瘤病灶并抑制背景噪声。MAEfficientDet-D0和MAEfficientDet-D1模型的检测性能明显优于EfficientDet-D0和EfficientDet-D1模型，进一步提高了肝脏图像中疾病检测的准确性。

图 14 不同算法在肝脏肿瘤数据集上的PR曲线

Fig. 14 PR curves for different algorithms on the LiTS dataset

4.4 病灶可视化

图 15显示了不同模型对肝脏肿瘤CT图像的检测结果图。如图所示，MAEfficientDet-D1的检测结果比EfficientDet-D1的置信度高，说明本文模型能更好地关注肝脏病变区域，可以有效检测病变位置和病变类型。进一步证明其在进行检测分析和病变类型识别时所依据的特征信息更加准确、有效。另外，病灶区域的可视化展示能够帮助医生在临床中进行快速精确诊断病情。

图 15 肝脏肿瘤CT图像的检测结果

Fig. 15 Detection results of CT images of liver tumors

((a)original image; (b)EfficientDet-D1 detection result; (c)MAEfficientDet-D1 detection result)

不同模型对肝脏小目标肿瘤CT图像的检测结果如图 16所示。可以看出，本文模型对于小目标肿瘤同样有较好的识别效果，其结果优于现阶段其他主流检测模型。

图 16 肝脏小目标肿瘤CT图像的检测结果

Fig. 16 Detection results of CT images of small target tumors in the liver

((a)MAEfficientDet-D1;(b)MAEfficientDet-D0;(c)YOLOv5;(d)Faster-RCNN(Res50+FPN))

5 结论

本文针对EfficientDet网络在肝脏肿瘤检测中效果不佳及小病灶无法精确识别问题，提出MAEfficientDet-D0和MAEfficientDet-D1网络。研究工作的主要内容包括：1)通过自适应融合各层特征图，解决了特征融合中图像空间信息冲突和特征金字塔中的不一致性问题；2)使用高效倒置瓶颈块降低模型复杂性，同时提升模型的有效性，解决EfficientDet模型的骨干特征提取网络参数效率低的问题，减少网络运行时间；3)使用多尺度块提升有效感受野，对病灶区域特征进一步关注，解决部分体积偏小的肝脏肿瘤病灶难以检测问题；4)使用先验框聚类和数据增强方法，从模型和数据两方面加强模型对肝脏肿瘤数据集的检测能力和泛化能力，解决肝脏肿瘤的形状大小不一及位置各异的问题。

然而，本文算法也存在不足：1)相比于当前检测速度最快的单阶段检测网络，存在提升空间；2)在更深的网络(例如EfficientDet-D7)上，本文算法可能比较难收敛。

在今后的研究中，一方面，针对肝脏肿瘤检测任务，将提升网络模型检测速度作为研究方向，进一步优化高效倒置瓶颈块结构的设计；另一方面，针对更深的网络，通过调参和优化提高算法普适性。

参考文献

Bilic P, Christ P F, Vorontsov E, Chlebus G, Chen H, Dou Q, Fu C W, Han X, Heng P A, Hesser J, Kadoury S, Konopczynski T, Le M, Li C M, Li X M, Lipkovà J, Lowengrub J, Meine H, Moltz J H, Pal C, Piraud M, Qi X J, Qi J, Rempfler M, Roth K, Schenk A, Sekuboyina A, Vorontsov E, Zhou P, Hülsemeyer C, Beetz M, Ettlinger F, Gruen F, Kaissis G, Loh fer F, Braren R, Holch J, Hofmann F, Sommer W, Heinemann V, Jacobs C, Mamani G E H, van Ginneken B, Chartrand G, Tang A, Drozdzal M, Ben-Cohen A, Klang E, Amitai M M, Konen E, Greenspan H, Moreau J, Hostettler A, Soler L, Vivanti R, Szeskin A, Lev-Cohain N, Sosna J, Joskowicz L and Menze B H. 2019. The liver tumor segmentation Benchmark (LiTS)[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/1901.04056.pdf

Bochkovskiy A, Wang C Y and Liao H Y M. 2020. Yolov4: optimal speed and accuracy of object detection[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/2004.10934.pdf

Che H, Brown L G, Foran D J, Nosher J L, Hacihaliloglu I. 2021. Liver disease classification from ultrasound using multi-scale CNN. International Journal of Computer Assisted Radiology and Surgery, 16(9): 1537-1548 [DOI:10.1007/s11548-021-02414-0]

Guo X Y, Wang F S, Teodoro G, Farris A B and Kong J. 2019. Liver steatosis segmentation with deep learning methods//The 16th IEEE International Symposium on Biomedical Imaging (ISBI 2019). Venice, Italy: IEEE: 24-27[DOI: 10.1109/ISBI.2019.8759600]

He K M, Gkioxari G, Dollár P and Girshick R. 2017. Mask R-CNN//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 2980-2988[DOI: 10.1109/ICCV.2017.322]

Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, Andreetto M and Adam H. 2017. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/1704.04861.pdf

Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]

Ircad France. 2020. 3Dircadb[EB/OL]. [2022-04-27]. https://www.ircad.fr/research/data-sets/liver-segmentation-3d-ircadb-01

Kesav N, Jibukumar M G. 2022. Efficient and low complex architecture for detection and classification of brain tumor using RCNN with two channel CNN. Journal of King Saud University-Computer and Information Sciences, 34(8): 6229-6242 [DOI:10.1016/j.jksuci.2021.05.008]

Lee S G, Bae J S, Kim H, Kim J H and Yoon S. 2018. Liver lesion detection from weakly-labeled multi-phase CT volumes with a grouped single shot MultiBox detector//Proceedings of the 21st International Conference on Medical Image Computing and Computer Assisted Intervention. Granada, Spain: Springer: 693-701[DOI: 10.1007/978-3-030-00934-2_77]

Lin T Y, Dollar P, Girshick R, He K M, Hariharan B and Belongie S. 2017a. Feature pyramid networks for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 936-944[DOI: 10.1109/cvpr.2017.106]

Lin T Y, Goyal P, Girshick R, He K M and Dollár P. 2017b. Focal loss for dense object detection//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2999-3007[DOI: 10.1109/ICCV.2017.324]

Liu L, Ouyang W L, Wang X G, Fieguth P, Chen J, Liu X W, Pietikäinen M. 2020. Deep learning for generic object detection: a survey. International Journal of Computer Vision, 128(2): 261-318 [DOI:10.1007/s11263-019-01247-4]

Liu S T, Huang D and Wang Y H. 2019. Learning spatial fusion for single-shot object detection[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/1911.09516.pdf

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]

Ma J C, Song Y, Tian X, Hua Y T, Zhang R G, Wu J L. 2020. Survey on deep learning for pulmonary medical imaging. Frontiers of Medicine, 14(4): 450-469 [DOI:10.1007/s11684-019-0726-4]

Redmon J and Farhadi A. 2018. YOLOv3: an incremental improvement[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/1804.02767.pdf

Ren S Q, He K M, Girshick R and Sun J. 2015. Faster R-CNN: towards real-time object detection with region proposal networks//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 91-99

Szegedy C, Vanhoucke V, Ioffe S, Shlens J and Wojna Z. 2016. Rethinking the inception architecture for computer vision//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2818-2826[DOI: 10.1109/CVPR.2016.308]

Tan M X, Pang R M and Le Q V. 2020. EfficientDet: scalable and efficient object detection//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 10778-10787[DOI: 10.1109/CVPR42600.2020.01079]

Tao Q Y, Ge Z Y, Cai J F, Yin J X and See S. 2019. Improving deep lesion detection using 3D contextual and spatial attention//Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen, China: Springer: 185-193[DOI: 10.1007/978-3-030-32226-7_21]

Xie X X, Cheng G, Yao Y Q, Yao X W, Han J W. 2022. Dynamic feature fusion for object detection in remote sensing images. Chinese Journal of Computers, 45(4): 735-747 (谢星星, 程塨, 姚艳清, 姚西文, 韩军伟. 2022. 动态特征融合的遥感图像目标检测. 计算机学报, 45(4): 735-747) [DOI:10.11897/SP.J.1016.2022.00735]

Yu W Q, Yu J, Bai M Y, Xiao C B. 2021. Video object detection using fusion of SSD and spatiotemporal features. Journal of Image and Graphics, 26(3): 542-555 (尉婉青, 禹晶, 柏鳗晏, 肖创柏. 2021. SSD与时空特征融合的视频目标检测. 中国图象图形学报, 26(3): 542-555) [DOI:10.11834/jig.200020]

Zhang Z L, Li Y F, Wu W, Chen H J, Cheng L, Wang S. 2021. Tumor detection using deep learning method in automated breast ultrasound. Biomedical Signal Processing and Control, 68: #102677 [DOI:10.1016/j.bspc.2021.102677]

Zhou X Y, Wang D Q and Krähenbühl P. 2019. Objects as points[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/1904.07850.pdf

Zoph B and Le Q V. 2017. Neural architecture search with reinforcement learning[EB/OL]. [2022-04-27]. https://arxiv.org/pdf/1611.01578.pdf