发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200783
2022 | Volume 27 | Number 3

磁共振图像

心脏动态MRI图像分割的时空多尺度网络

徐佳陈, 肖志勇

江南大学人工智能与计算机学院，无锡 214122

收稿日期: 2020-12-21; 修回日期: 2021-04-22; 预印本日期: 2021-04-29

基金项目: 江苏省自然科学基金优秀青年项目(BK20190079)

作者简介: 徐佳陈，1995年生，男，硕士研究生，主要研究方向为医学影像分析。E-mail：xujosh@foxmail.com
肖志勇，通信作者，男，副教授，主要研究方向为人工智能、医学影像分析、图像处理。E-mail：zhiyong.xiao@jiangnan.edu.cn
*通信作者: 肖志勇 zhiyong.xiao@jiangnan.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)03-0862-11

摘要

目的心脏磁共振成像(magnetic resonance imaging, MRI)的自动分割技术有利于在临床诊断中评估心脏的功能参数。然而由于心脏磁共振成像技术产生的图像边界不清晰、各向分辨率异性等特性，现有的大多数方法依旧存在类内不确定、类间不清晰问题。针对这一问题，提出了一种利用时间信息进行特征增强，并利用空间信息进行特征矫正的多输入、多分支和多任务的分割网络(spatio-temporal UNet，ST UNet)。方法为充分获取动态心脏MRI图像的时间信息，提出了全新的时间增强编码模块，将需要进行分割的目标帧和一段包含了目标帧的连续时间片段作为关键序列一同输入网络。关键序列用于获取更丰富的时间特征，目标帧提供更精准的边缘特征。为了聚集更多有益的特征，更好地融合时域特征和边缘特征，采用可变形全局连接代替传统的长连接，为网络的解码部分提供更广泛的多维特征信息。在训练过程中额外学习空间方向场特征，并使用该特征对原有的分割结果进行矫正。结果在ACDC(Automated Cardiac Diagnosis Challenge)心脏分割挑战中，以${\rm{Dice}}$系数和${\rm{HD}}$(Hausdorff distance)距离为评价指标，该方法在左心室、右心室和左心肌分割的平均${\rm{Dice}}$系数分别为95%、91.5%和91%，${\rm{HD}}$距离的平均值分别为6.77、11.39和8.54。结论实验表明，提出的新型网络能够充分地利用心脏MRI图像的时空信息，有效地提升目标器官的分割效果，更有助于医生对于心脏诊断。

关键词

医学影像; 心脏磁共振成像(CMRI); 特征增强; 空间方向场; U型网络(UNet)

A spatio-temporal multi-scale network for cardiac dynamic MRI image segmentation

Xu Jiachen, Xiao Zhiyong

School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China

Supported by: Natural Science Foundation of Jiangsu Province for Excellent Young Scholars(BK20190079)

Abstract

Objective The segmentation of cardiac dynamic magnetic resonance imaging (MRI) is essential to evaluate cardiac functional parameters in clinical diagnosis. Based on the segmentation results, the qualified analysis can be obtained the myocardial mass and thickness, ejection fraction, ventricular volume and other diagnostic indicators effectively. Currently, the method of heart segmentation is still limited to manual segmentation. This method is time-consuming and human behavior-oriented. Therefore, the issue of automatic and accurate cardiac-MRI (CMRI) segmentation has been focused on. However, due to the non-uniform magnetic field intensity, artifacts resulted blurred boundaries in the process of imaging. Organs of different subjects vary greatly, especially the variable shape and size of the right ventricle, which tends to produce volume effect. In addition, dynamic magnetic resonance imaging is featured based on a small scale of short axis sections with thick slice, which results in low short axis resolution and sparse information of the image. As the existing data sets only including ground truth of dynamic MRI images at two sites in the end of systole and end of diastole, the existing networks usually only take the images at these two sites as segmentation objects, which ignores the information of dynamic MRI images timescale. Hence, automatic segmentation of dynamic cardiac MRI images is challenged of the issues of intra-class uncertainty and inter-class imbalance. This illustration demonstrates a spatio-temporal multi-scale UNet that makes use of time information to conduct feature enhancement and spatial information to get feature correction. Method First, a new time-enhanced coding path is developed in order to fully obtain the time information of dynamic CMRI images, which consists of two branches are those of the target frame branch and the key sequence branch. The target frame is the image to be segmented, and the key sequence is the consistent time series containing the target frame. The key sequence is used to obtain richer time features, while the target frame provides more accurate edge features. Due to the beating frequency of the heart, the boundary information of the target organ would be in conflict with that of the time scaled images in the key sequence, and the edge information extracted from the target frame could make up for this problem. It is worth noting that the key sequence and target frame are cut or filled into 256×256 pixels due to the different sizes of images in the data set. Simultaneously, this analysis also makes the same data enhancement for the target frame and the key sequence and random affine changing and random rotation in order to extend the amount of data in the training set and improve the generalization ability and robustness of the model. Meanwhile, in order to aggregate more beneficial features and better integrate edge information and time features, this research illustrated a deformable global connection instead of the traditional long connection to provide more extensive multi-dimensional feature information for the decoding part of the network. Compared with the original network which only transfers the results of the encoding layer to the decoding layer, the features of the deformable global connection are the weighted sum of the global features. The deformable global connection is composed of the context modeling part, the feature transformation part and the deformable convolutional layer part. The part of modeling algorithm obtains the attention weight of the feature vector in the $x-y$ plane, which represents the global context feature. The feature transformation captures the dependencies between channels to reduce the optimization difficulty via layer normalization. The deformable convolutional layer captures the geometry of the heart. In the process of decoding, the decoding layer can perform targeted aggregation to improve the compact and semantic consistency within the class based on the obtained weights. At the end, the spatial directional field features are learned and the original segmentation results are calibrated by these features. The spatial direction field, generated by ground truth, provides each pixel with a unique path from the boundary to the central region. The orientation relationship is revealed amongst the pixels on the target organ. The feature of central region is used to correct the segmentation map based on the requirement of spatial direction field. Result The online test results of the Automated Cardiac Diagnosis Challenge(ACDC) cardiac segmentation challenge illustrated that the average dice for the segmentation of left ventricle, right ventricle and left ventricle in this research analyses were 95%, 91.5% and 91% each, which is 2%, 1.5% and 2.5% higher than the initial network analysis. The average Hausdorff distance of the segmentation results is 6.77, 11.39 and 8.54, respectively, which is 2.22, 2.07 and 3.64 lower than the initial network. Conclusion This demonstrated experiments show that the proposed network can improve the segmentation effect of target organs effectively based on the spatio-temporal information of cardiac MRI images.

Key words

medical image; cardiac magnetic resonance imaging(CMRI); feature enhancement; spatial directional field; UNet

0 引言

心脏动态磁共振成像技术在临床诊断中具有重要的意义。根据其分割结果，医生可以有效地获取心肌质量和厚度、射血分数以及心室体积等诊断指标。然而准确地对其进行分割是一项具有挑战性的任务，因为在成像的过程中由于不均匀的磁场强度，容易产生伪影，造成边界模糊。不同受试者的器官差异很大，尤其是右心室的形状大小多变，容易产生体积效应。此外动态磁共振成像技术本身就具有短轴切片数量少，切片厚度过厚等特点，导致图像的短轴分辨率过低、信息量稀疏等问题。现阶段的心脏分割方法依旧以手动分割方式为主。但这种手动分割的方法耗时费力且对医生的专业素质要求严格。因此，如何自动对心脏磁共振图像(cardiac magnetic resonance imaging，CMRI)进行精确的分割已经成为一个重要的医学图像问题。

深度学习在医学图像分割领域大放异彩。与此同时，提出了许多基于深度学习的心脏分割算法。其中Chang等人(2018)提出了利用YOLO(you only look once (Redmon等，2016))网络提取感兴趣区域，再输入到U型神经网络的方法，从而减少无关信息对分割效果的影响。Zotti等人(2019)将心脏结构的先验信息嵌入网络，并为心脏分割提出了新的损失函数。Liu等人(2020)提出了将残差模块(He等，2016)与双向长短记忆模块相结合的方法以减少不符合物理特征的分割异常点的出现。Hasan和Linte(2020)提出群卷积与权重剪枝技术相融合的U型神经网络，增加网络深度的同时减少了参数量。高强等人(2020)提出了一种基于组归一化与最近邻插值的分割算法，能快速准确地提取特征信息。刘畅等人(2021)为了在分割心肌内膜与外模时保证其空间位置关系，提出了先用胶囊网络提取出相对位置信息和大小等信息，再输入到全连接网络进行预测的方法。然而现存的方法通常存在以下几个问题：1)针对动态心脏MRI图像本身短轴($z$轴)切片厚度过厚、信息稀疏的特点，现有方法为避免3D卷积带来的边界效应(Baumgartner等，2018)往往会使用2维网络来进行分割，使用单帧的3维图像在z轴的切片作为网络的输入。这样会丢失图像在3维层面的上下文信息，产生目标器官之间的类内不确定、类间不清晰的问题。2)由于现有数据集仅有动态MRI图像在收缩期末期和舒张期末期两个时间点的标签值(ground truth)，现有网络通常也仅将这两个时间点的图像作为分割对象，这忽略了动态MRI图像在时间序列上的信息。3)由于心脏结构中细小器官的形状、大小多变的特性，现有方法往往会产生一些不符合目标器官相对物理特性的异常点(左心肌包含了右心室的情况)。

为解决以上3个问题，提出了一种新的多输入、多分支和多任务的伪3D分割网络ST UNet(spatio-temporal UNet)。该网络的主要创新点如下：1)为了充分利用心脏MRI影像的时间信息解决目标器官的类内不确定性问题，以连续时间内的多帧输入代替传统的单帧输入，让网络学习更为丰富的时域特征。2)利用目标帧学习可变形偏移量，并将其融合到时域特征，使其具有更为精准的边缘信息。3)为了减小细小器官的分割错误，更好地融合时域特征与边缘信息，提出可变全局注意力连接来代替传统的长连接，为网络提供更加广泛的全局上下文信息。4)针对由2维卷积造成的上下文信息丢失所引起的目标器官边界模糊、类间不清晰的问题，提出根据方向场特征的学习来进行特征向量的矫正。

1 本文方法

1.1 网络结构阐述

鉴于心脏动态MRI图像的切片过厚、层间信息稀疏的特点，提出了基于U型神经网络的伪3D分割网络(ST UNet)的结构如图 1(a)所示。该网络的基本骨架来源于Ronneberger等人(2015)提出的UNet结构。该结构由编码层、解码层与跳跃连接组成。其中编码层又称为下采样层，其作用为提取高级语义特征，并利用最大池化层减小特征图尺寸来扩大卷积的感受野。解码层又称为上采样路径，其作用是将高级语义特征图逐步还原成原始图片的大小，实现端到端的分割效果。跳跃连接则是将编码层学习到的高级特征图扩充到解码路径，从而避免特征提取过程中信息丢失的问题，使得解码层还原出来的结果更为精准。UNet解码层的还原结果可表示为

$ \boldsymbol{x}^{i}=c\left(\left[\boldsymbol{\alpha}^{i}, u p\left(\boldsymbol{x}^{i+1}\right)\right]\right) $

(1)

图 1 网络结构图

Fig. 1 Network structure diagram

((a)structure diagram of deformable global attention connection; (b)overall structure of the algorithm)

式中，${\mathit{\pmb{x}}}$表示解码层的还原结果，${\mathit{\pmb{α}}}$表示编码层的高级语义特征，$i$表示当前所在的层数，[·]表示通道连接操作，$up$(·)表示上采样操作，$c$(·)表示解码操作。

ST UNet保留了UNet中编码块、解码块与跳跃连接层的基本结构框架。但为充分利用心脏动态MRI图像的时空信息，ST UNet对这3个结构做了不同改进，形成了一种多输入、多路径和多任务的新型分割网络。首先在编码阶段，ST UNet提出了多路径、多输入的时间信息聚合编码块。将目标帧和关键序列分别输入到不同的路径。规范化卷积对关键序列提取丰富的时域特征，可变形卷积(Dai等，2017)提取目标帧中更为精准的边缘信息。其次将特征通过可变形全局注意力连接扩充到解码路径。最后在网络解码过程中，规定ST UNet在预测原始分割图的同时还需额外预测分割图所对应的空间方向场，再利用预测到的空间方向场对原始的分割图进行特征矫正，得到改进后的分割结果。

1.2 时间增强编码块与可变形全局连接

现有的大多数方法都忽略了心脏动态MRI图像的时间信息，仅以收缩期末期和舒张期末期的图像作为单独的输入，从而导致分割性能下降。因此ST UNet选择将需要分割的图像作为目标帧，以包含目标帧的连续时间序列一同作为网络的输入，该连续序列称为关键序列。

心脏动态MRI图像的维度表示为[$x$, $y$, $z$, $t$]，其中$x$-$y$为短轴平面，$z$为短轴，$t$为时间维度。考虑到MRI心脏图像在$z$轴上存在较大的层间间隙，选择在时间维度$t$上连续的$x$-$y$平面的图像组成关键序列。鉴于数据中心脏MRI舒张期末期的时间维度$t$均为0，选择从目标帧开始的后$r$帧组成关键序列。即假设${\mathit{\pmb{c}}}$$_{t_0}$∈ ${\bf{R}}$$^{H×W}$表示在$t_\text{0}$时刻的目标帧，则关键序列为{ ${\boldsymbol{c}}$$_{t_0}$, …, ${\mathit{\pmb{c}}}$$_{t_\text{0}\text{+}r\text{}}$}。其中$H$，$W$分别代表了特征向量的高和宽。

关键序列的编码块由两个3×3的卷积核组成，并在每个卷积核后面添加批量归一化(batch-normalization)和${\rm{ReLU}}$激活函数。时间信息增强后的特征可以表示为

$ F_{\mathrm{Key}}\left(p_{0}\right)=\sum\limits_{t=t_{0}}^{t_{0}+r}\sum\limits_{p_{n} \in {\bf{R}}} w\left(p_{n}\right) \times C_{t}\left(p_{0}+p_{n}\right) $

(2)

式中, ${\mathit{\pmb{F}}}$$_\text{key}$(·)表示增强后的特征向量，${p_{0}}$表示特征向量中的任意位置，$p_{n}$∈ ${\bf{R}}$ 表示卷积核中的任意位置，$w$ ($p_{n}$)表示卷积核在位置$p_{m}$的权重值，而$C_{t}$($p_\text{0}$+$p_{n}$)表示图像${\mathit{\pmb{C}}}$$_{t}$在($p_\text{0}$+$p_{n}$)位置的值。

此外，由于心脏随着时间变化的跳动，目标器官的边缘信息也会随着时间的变化产生变化，从而造成关键序列中不同时间点的边界信息冲突，因此在对关键序列的卷积过程中可能会产生边缘语义信息的冲突问题。为解决此问题，本文在编码过程中增加了一条针对目标帧${\mathit{\pmb{C}}}$$_{t_0}$的可变形编码路径，利用可变形卷积学习偏移量$δ$来增强卷积对于目标器官形状的适应能力，更精准地提取目标器官的信息。

规范卷积中卷积核对于输入的特征图的采样位置都是固定的，如3×3大小的卷积核的采样位置固定为${\boldsymbol{R}}$={(-1, -1), (-1, 0), …, (0, 1), (1, 1)}，其输出的特征图可以直接表示为

$ F\left(p_{0}\right)=\sum\limits_{p_{n} \in {\bf{R}}} w\left(p_{n}\right) \times x\left(p_{0}+p_{n}\right) $

(3)

式中，$x$ ($p_\text{0}$+$p_{n}$)表示图像${\mathit{\pmb{x}}}$在($p_\text{0}$+$p_{n}$)位置的值。

固定的采样方式限制了卷积核对不同位置、不同尺寸或变形物体的特征提取能力, 可变形卷积通过对卷积核中每一个采样点增加一个偏移变量$δ$，改变卷积核采样点的位置。

由图 2可以看出，相较于常规的卷积，可变形卷积更加适应几何形变，其原理是让网络在训练过程中额外学习每一个卷积核的位置偏移矩阵${\mathit{\pmb{δ}}}$，使得卷积的采样点发生偏移，实现在当前位置附近的随意采样，提高网络的灵活性。可变形卷积中输出的特征图表示为

$ F_{\mathrm{tar}}\left(p_{0}\right)=\sum\limits_{p_{n} \in {\bf{R}}} w\left(p_{n}\right) \cdot x\left(p_{0}+p_{n}+\Delta p_{n}\right) $

(4)

图 2 可变形卷积与规范卷积

Fig. 2 Deformable convolution and standard convolution

((a)standard convolution; (b)deformable convolution)

式中，Δ$p_{n}$∈ ${\mathit{\pmb{δ}}}$表示在$p_{n}$位置的权重的位置偏移量。

再将由关键序列生成的特征与目标帧生成的特征进行融合，生成当前层编码块的特征图，最后将融合后的特征图作为下一层关键序列编码块的输入，该特征图表示为

$ F\left(p_{0}\right)=F_{\text {key }}\left(p_{0}\right)+F_{\text {tar }}\left(p_{0}\right) $

(5)

融合后的特征图不仅包含了心脏动态MRI图像中丰富的时间信息，也保留了目标器官在$t_\text{0}$时刻(收缩期末期ed或舒张期末期es)的精准边缘信息。

考虑到目标器官之间的相对位置固定，而实验中会产生一些不符合该相对位置的异常点，因此本文受GC block(global context block)(Cao等，2019)的启发设计了可变形全局注意力连接，为解码层提供一个全局的注意力矩阵，让网络在解码还原的过程中获取图像全局上下文信息，从而使得还原的结果更为准确。

可变形全局注意力连接的结构如图 1(b)所示。该结构主要分为上下文建模部分、特征转化部分以及可变形卷积层部分。

上下文建模部分利用1×1的卷积和sigmoid激活函数获取特征向量在$x$-$y$平面的注意力权值，然后将该权值与图像相乘得到全局的上下文特征。特征转化部分则通过两个1×1的卷积${\mathit{\pmb{w}}}$$_{v\text{1}}$与${\mathit{\pmb{w}}}$$_{v\text{2}}$捕获图像通道间的依赖，并利用层归一化来降低优化难度。该过程可以表示为

$ \alpha_{j}=\frac{\exp \left(\boldsymbol{w}_{k} \boldsymbol{x}_{j}\right)}{\sum\limits_{m=1}^{N_{p}} \exp \left(\boldsymbol{w}_{k} \boldsymbol{x}_{m}\right)} $

(6)

$ \boldsymbol{z}_{i}=\boldsymbol{x}_{i}+\boldsymbol{w}_{v 2} {ReLU}\left(L N\left(\boldsymbol{w}_{v 1} \sum\limits_{j=1}^{N_{p}} \alpha_{j} x_{j}\right)\right) $

(7)

式中，$N_{p}$为图像的位置数量，$i$∈[1, $N_{p}$]，${\mathit{\pmb{x}}}$$_{i}$表示第$i$个位置的输入，${\mathit{\pmb{z}}}$$_{i}$是对应的输出。$α$$_{j}$是采用了嵌入式高斯表达式后的注意力权值，$LN$表示层归一化操作。

最后利用可变形卷积层捕获心脏的几何信息，将其与$z_{i}$以及原始特征进行融合，并将融合后的结果传给解码层，进行解码还原。

与原始网络仅仅将编码层的结果传给解码层相比，可变形全局连接后的特征是全局特征的加权和。在解码还原的过程中解码层可以根据权值进行有选择的聚合，提高类内紧凑型和语义一致性。

1.3 空间方向场

受Cheng等人(2020)的启发，为了进一步增强网络预测的结果的类间差异性与类内相似性，提出在预测原始分割图的同时预测对应的空间方向场。

空间方向场是由真实标签图所生成，其生成规则为对每一个前景像素点$p$，找到目标器官边界最近的一点$b$。然后对向量${\mathit{\pmb{bp}}}$以$b$到$p$的距离为| ${\mathit{\pmb{bp}}}$|进行归一化，最终像素点$p$的方向场可以表示为

$ \boldsymbol{D F}(p)= \begin{cases}\boldsymbol{b p} /|\boldsymbol{b p}| & p \in \text { 目标器官 } \\ (0,0) & p \notin \text { 目标器官 }\end{cases} $

(8)

由式(8)可以看出，空间方向场为每一个像素提供了从边界指向中心区域的唯一路径，揭示了目标器官上像素与像素的方向关系。

用一个简单的方向场模块来学习空间方向场。该模块由一个1×1的卷积层组成，模块的输入为UNet最后一个解码层还原出来的64通道的特征，输出为双通道的方向场特征。其中一个通道反映像素点$x$轴之间的方向关系，另一个通道反映$y$轴之间的方向关系。

图 3 真实标签图与其对应的空间方向场

Fig. 3 Ground truth and spatial directional field

((a)ground truth; (b)spatial directional field)

根据空间方向场的指导，本文利用中心区域的特征对原始分割图进行矫正。如图 4所示，最终特征图${\mathit{\pmb{F}}}$$_\text{final}$是由原始特征图${\mathit{\pmb{F}}}$$_\text{0}$和预测的方向场结合得到的，矫正方式为根据方向场提供的位置信息对原始特征图进行双线性插值。换句话说，让原始特征图${\mathit{\pmb{F}}}$$_\text{0}$上的像素点$p_\text{0}$根据学习到的方向场进行修改, 其整个优化过程为

$ \forall p \in \boldsymbol{\varOmega}, F(p)=F\left(p_{x}+D F(p)_{x}, p_{y}+D F(p)_{y}\right) $

(9)

图 4 特征矫正过程图

Fig. 4 The process of feature correction

式中，${\mathit{\pmb{Ω}}}$表示所有的前景像素点集，$p_{x}$表示像素点$p$ 的$x$轴坐标，$p_{y}$表示像素点$p$ 的$y$轴坐标，$F$ ($p$)表示经过修正后像素点$p$ 的值。由式(9)可以看出，像素点$p$ 的矫正后的特征值是根据方向场位置偏移后的像素值。

1.4 损失函数

本文的损失函数涉及分割图的损失函数$L_\text{seg}$以及空间方向场的损失函数$L_\text{DF}$。

分割图的损失函数为交叉熵损失函数与${\rm{Dice}}$损失函数的联合函数。其中交叉熵是将预测结果与真实标签图的每一个像素进行对比，然后对所有的对比结果求平均值。而${\rm{Dice}}$损失函数是评价预测图与真实标签值的重叠程度，重叠程度越高，分割效果越好。联合损失函数可以表示为

$ L_{\mathrm{seg}}=0.5 \times L_{\text {cross }}+L_{\mathrm{dice}} $

(10)

$ L_{\text {cross }}=-\sum\limits_{i=1}^{N}\left(y^{i} \log m^{i}+\left(1-y^{i}\right) \log \left(1-\log m^{i}\right)\right) $

(11)

$ L_{\mathrm{dice}}=\sum\limits_{i=1}^{N} 1-\frac{2 \times y^{i} \times m^{i}}{y^{i}+m^{i}} $

(12)

式中，$L_\text{cross}$表示交叉熵损失函数，$L_\text{dice}$表示${\rm{Dice}}$损失函数。$N$表示样品的总数，$y$$^{i}$表示第$i$个样本的预测结果，$m$$^{i}$表示第$i$个样本的真实标签值。

对于空间方向场的学习，以${\rm{L2}}$范式距离和角度之间的距离作为方向场的损失函数，即

$ \begin{aligned} L_{\mathrm{DF}}=& \sum\limits_{p \in \boldsymbol{\varOmega}} w(p)\left(\|\boldsymbol{D F}(p)-\widehat{\boldsymbol{D F}}(p)\|_{2}+\right.\\ &\left.\|\cos \langle\boldsymbol{D F}(p), \widehat{\boldsymbol{D F}}(p)\rangle\|^{2}\right) \end{aligned} $

(13)

式中，${\mathit{\pmb{DF}}}$和$ \widehat{{\boldsymbol{DF}}} $分别表示网络预测的方向场与真实标签的方向场。‖·‖$_\text{2}$表示${\rm{L2}}$范式距离。${\mathit{\pmb{Ω}}}$表示所有的前景像素点集，$w$ (·)表示像素点$p$的权重值，$w$($p$)计算式为

$ w(p)= \begin{cases}\frac{\sum\limits_{i=1}^{N}\left|\boldsymbol{C}_{i}\right|}{N \cdot\left|\boldsymbol{C}_{i}\right|} & p \in \boldsymbol{C}_{i} \\ 1 & p \notin \boldsymbol{C}_{i}\end{cases} $

(14)

式中，| ${\mathit{\pmb{C}}}$$_{i}$ |表示当前标签的所有像素的个数，$N$表示所有标签的个数。

2 实验结果与讨论

2.1 实验数据与预处理

使用ACDC(Automated Cardiac Diagnosis Challenge)(Bernard等，2018)自动心脏分割挑战数据集，该数据集是法国Dijon大学医院根据当地委员会制定的规定进行采集的。采集设备为两台磁场强度不同的MRI扫描仪：1.5 T磁场与3.0 T磁场。该数据集包含150个志愿者的心脏核磁共振图像，150名志愿者又分为5个亚组，分别为：1)健康的志愿者; 2)既往有心肌梗塞的志愿者; 3)扩张型心肌病的志愿者; 4)肥厚型心肌病的志愿者; 5)右心室异常的志愿者。每个志愿者的数据包含心脏整个动态电影MRI图像，以及图像中舒张期末期以及收缩期末期的真实标签值。该数据集的真实标签值是由两名资深医生手动绘制的。动态MRI图像的空间分辨率为1.37~1.68 mm$^\text{2}$/像素之间，并且动态图像由28~40幅图像组成，完全或部分覆盖了心跳周期。该数据集将100名志愿者划分为训练集，50名志愿者划分为测试集，训练集与测试集各亚组的分布比例相同并且并未公布测试集的真实标签值。本文所有实验结果都来自于ACDC的官方在线测试平台(https://acdc.creatis.insa-lyon.fr/)。

对ACDC数据集进行如下预处理：1)本文中关键序列参数$r$取值为1，因此从短轴动态心脏MRI视频中获取收缩期末期$t_\text{es}$与舒张期末期$t_\text{ed}$以及其各自后1帧的时间点$t_\text{ed+1}$与$t_\text{es+1}$时间点的3维图像。2)将3维图像沿$z$轴进行2维切片，单独将$t_\text{ed}$或$t_\text{es}$时间点所得的切片作为目标帧，再将目标帧对应的$t_\text{ed+1}$或$t_\text{es+1}$时间点所得的切片与目标帧组成关键序列。3)为增加训练集的数据量，提升模型的泛化能力与鲁棒性，本文同时对目标帧与关键序列做相同的数据增强，数据增强的方式有随机仿射变化与随机旋转。4)由于数据集中图像的尺寸各不相同，将所有的切片都剪切或者填补成256×256像素。5)对图像进行归一化操作。

2.2 实验环境与参数设置

实验硬件环境为Intel Core i7处理器与NVIDIA GTX1080ti显卡。编码语言为python，深度学习框架选用的是pytorch 1.4.0版本。权重的初始化方式为pytorch的默认初始化，优化器选用了Adam优化器。学习率$α$初始化为0.001，权重衰减率为1E-5。网络的通道数从上到下分别为64，128，256，512，1 024。

2.3 评判指标

本文选用ACDC在线测试平台给出的两种评判标准来定量评估ST UNet的性能。

这两个评判标准分别为${\rm{Dice}}$相似性系数(${\rm{Dice}}$ similarity coefficient, ${\rm{DSC}}$)与豪斯多夫距离(Hausdorff distance, ${\rm{HD}}$)，其中${\rm{Dice}}$相似性系数${\rm{DSC}}$表示预测结果与真实标签图的重叠程度，其值在[0, 1]之间。而${\rm{HD}}$系数解释了预测结果与真实标签图的最大不匹配程度。${\rm{DSC}}$的数学表达式为

$ D S C=\frac{2|\boldsymbol{Y} \cap \boldsymbol{P}|}{|\boldsymbol{Y}|+|\boldsymbol{P}|} $

(15)

${\rm{HD}}$的数学表达式为

$ \begin{gathered} d_{p y} =\max \limits_{p \in \boldsymbol{P}} \min \limits_{y \in \boldsymbol{Y}}(p, y) \\ d_{y p} =\max \limits_{y \in \boldsymbol{Y}} \min \limits_{p \in \boldsymbol{P}}(y, p) \end{gathered} $

(16)

$ H D =\max \left\{d_{p y}, d_{y p}\right\} $

(17)

式中，${\mathit{\pmb{P}}}$与${\mathit{\pmb{Y}}}$分别表示预测结果与真实标签图，$p$、$y$为预测结果与真实标签图上的点。

2.4 消融实验

为探究本文算法的可行性，做了4组消融实验来说明空间方向场、时间增强编码块和可变形全局连接对于实验结果的影响，实验结果如表 1和表 2所示，LV表示左心室，RV表示右心室，MYO表示左心肌。图 5为ST UNet模型在测试集上的${\rm{DSC}}$箱型图。图 6是4种方法的分割效果对比图，分别选取了收缩期末期与舒张期末期4个不同患者进行对比。在分割图中，红色、蓝色和绿色分别表示右心室、左心肌和左心肌。

表 1 消融实验${\rm{DSC}}$的对比结果
Table 1 ${\rm{DSC}}$ contrast results of ablation experiment

下载CSV

模型	LV ${\rm{DSC}}$		RV ${\rm{DSC}}$		MYO ${\rm{DSC}}$
模型	舒张期末期	收缩期末期	舒张期末期	收缩期末期	舒张期末期	收缩期末期
UNet	0.96	0.90	0.93	0.87	0.88	0.89
UNet+空间方向场	0.96	0.92	0.94	0.88	0.90	0.91
UNet+时间增强+空间方向场	0.97	0.92	0.95	0.89	0.90	0.91
ST UNet	0.97	0.93	0.94	0.89	0.90	0.92
注：加粗字体表示每列最优结果。

表 2 消融实验${\rm{HD}}$的对比结果
Table 2 ${\rm{HD}}$ contrast results of ablation experiment

下载CSV

模型	LV ${\rm{HD}}$		RV ${\rm{HD}}$		MYO ${\rm{HD}}$
模型	舒张期末期	收缩期末期	舒张期末期	收缩期末期	舒张期末期	收缩期末期
UNet	6.93	11.04	12.19	14.73	11.06	13.29
UNet+空间方向场	8.43	10.09	11.36	13.74	9.94	11.01
UNet+时间增强+空间方向场	6.99	8.65	10.83	13.25	8.52	8.03
ST UNet	5.52	8.02	10.50	12.29	8.24	8.84
注：加粗字体表示每列最优结果。

图 5 ST UNet测试集${\rm{DSC}}$箱型图

Fig. 5 Test set ${\rm{DSC}}$ box diagram of ST UNet

图 6 不同模型的分割结果

Fig. 6 Segmentation results of different models

((a)ground truth; (b)ST UNet; (c)UNet + time branch + spatial directional field; (d)UNet + spatial directional field; (e)UNet)

造成类内不确定、类间不清晰的主要原因是心脏动态MRI本身短轴切片数量少，分辨率过低，上下文信息量稀疏。稀疏的信息量造成以往的网络难以适应目标器官复杂的形状和成像时不同的磁场强度。而相邻时间的切片之间的形变较小，尤其是背景与目标器官中心位置的信息并未因心脏跳动产生较大的变化，该信息依旧有效，可用于分割网络。时间增强编码块中的关键序列编码路径正是利用同一切片在相邻时间点的时间信息来弥补稀疏的3维上下文信息，使得网络可以学习到的信息量倍增，增强了网络的适应能力，以此来解决类内不确定的问题。

然而相邻时间切片之间，目标器官的边界信息由于心脏跳动发生了变化，不同时间点的边界信息是相互冲突的。针对这一问题，时间增强编码块中的目标帧编码路径利用可变形卷积提取出目标器官在ed时刻或es时刻精准的边界信息，并通过可变形全局连接将精确的边缘信息与丰富的时间信息融合后扩散到解码路径，使得网络解码还原过程中可以根据权值进行有效的聚合，还原出更为精准的边缘信息，从而解决目标器官与目标器官之间、目标器官与背景之间的类间不清晰的问题。

对比表 1和表 2中ST UNet的实验结果和没有添加时间增强编码块与可变形全局连接结构的实验结果可以看出，添加后的实验结果中3个目标器官的${\rm{DICE}}$值和${\rm{HD}}$距离都有了明显的改善。结合图 6的分割结果图，可以发现，ST UNet的分割结果更加接近真实标签，心肌不连贯、心室误分割等情况也都得到了改善。这充分体现了提出的利用时间信息来弥补稀疏的3维上下文信息的特征增强方式是可行的。

同时从表 1，表 2与图 6可以看出原始UNet分割容易出现边界模糊、将无关背景误分割成目标器官以及相邻器官分割错误等问题。通过加入额外的空间方向场训练与矫正后，边界模糊的现象有所改善，3个目标器官的分割精度也有所提升，但是依旧有边缘不平滑以及误分割的现象。在此基础上再添加多输入的时间分支，其分割精度有了进一步的提升，这样更加证明了利用关键序列来进行特征增强能提高网络学习特征的能力，改善网络的分割效果。虽然此时的分割效果相较于前两个模型，边界平滑，没有明显的误分割现象，但是由于关键序列中不同时间点的图像的目标器官的边缘冲突问题，此时的分割结果的边缘出现了欠分割的情况。而加入全局注意力连接后的模型，利用目标帧的全局信息弥补了关键序列边缘冲突的问题，从而使得分割结果达到了更好的效果，更加接近真实标签。

2.5 与其他算法的对比

不同算法对比结果如表 3和表 4所示。其中Liu等人(2020)是利用残差网络与双向记忆网络来提取相邻切片的3维空间特征。Painchaud等人(2019)是在对抗性编码器(aVAE)中添加了一个潜在的心脏形态。Sun等人(2020)使用二次形流来捕获心脏的形态特征。Simantiris和Tziritas(2020)提出了新扩展卷积网络和自定义的损失函数。

表 3 不同算法的${\rm{DSC}}$比对结果
Table 3 ${\rm{DSC}}$ comparison results of different algorithms

下载CSV

模型	LV ${\rm{DSC}}$			RV ${\rm{DSC}}$			MYO ${\rm{DSC}}$
模型	舒张期末期	收缩期末期	平均	舒张期末期	收缩期末期	平均	舒张期末期	收缩期末期	平均
Liu等人(2020)	0.95	0.87	0.920	0.92	0.86	0.890	0.86	0.87	0.870
Painchaud等人(2019)	0.96	0.91	0.935	0.93	0.88	0.910	0.88	0.90	0.890
Sun等人(2020)	-	-	0.938	-	-	0.914	-	-	0.887
Simantiris和Tziritas(2020)	0.96	0.93	0.945	0.94	0.89	0.915	0.89	0.90	0.895
ST UNet	0.97	0.93	0.950	0.94	0.89	0.915	0.90	0.92	0.910
注：“-”表示论文中作者并未给出相应数值, 加粗字体表示每列最优结果。

表 4 不同算法的${\rm{HD}}$对比结果
Table 4 ${\rm{HD}}$ comparison results of different algorithms

下载CSV

模型	LV ${\rm{HD}}$			RV ${\rm{HD}}$			MYO ${\rm{HD}}$
模型	舒张期末期	收缩期末期	平均	舒张期末期	收缩期末期	平均	舒张期末期	收缩期末期	平均
Liu等人(2020)	11.91	15.78	13.85	17.90	24.72	21.30	19.18	20.69	19.93
Painchaud等人(2019)	6.15	8.29	7.22	13.72	13.32	13.52	8.65	9.60	8.83
Sun等人(2020)	-	-	-	-	-	-	-	-	-
Simantiris和Tziritas(2020)	6.40	7.60	7.00	13.30	14.40	13.85	8.30	9.60	8.95
ST UNet	5.52	8.02	6.77	10.50	12.29	11.39	8.24	8.84	8.54
注：“-”表示论文中作者并未给出相应数值，加粗字体表示每列最优结果。

由表 3和表 4可以看出，本文算法的${\rm{DSC}}$与${\rm{HD}}$值都要优于其他方法，这是因为这些算法都仅仅以收缩期末期与舒张期末期的图像作为网络的训练对象，忽视了心脏视频在时间序列上的信息。而HD值的降低也从侧面表示利用空间方向场来修正边界的可行性。因此提出利用心脏动态MRI图像的时间信息来进行特征增强，再利用空间方向场提取出的空间信息来进行特征矫正的方法是可行的。截止2020年12月7日，与ACDC排行榜上的算法对比，ST UNet的3个目标器官的平均${\rm{DSC}}$与平均${\rm{HD}}$值分别达到了92.5 % 与8.90 mm的成绩，仅次于第1名。

3 结论

针对心脏磁共振图像自动分割的类内不确定、类间模糊等问题，本文提出了利用时间信息来进行特征增强，再利用空间信息来进行特征矫正的ST UNet。ST UNet的主要特点如下：1)相较于现有算法，本文将需要分割的3维图像作为目标帧，将包含目标帧的连续时间序列作为关键序列一起输入网络。2)利用关键序列学习丰富的类内特征，再利用可变形路径学习目标帧上更为精准的边缘信息，通过编码路径与可变形全局注意力连接将两者充分融合。3)网络额外学习空间方向场信息，并利用学习到的空间方向场对原始的预测结果进行矫正。实验结果表明，相较于其他算法，ST UNet能够得到更为精准的分割结果，各器官的分割精度均取得了提升。

尽管本文方法取得了一定进展，但依旧存在如下问题：收缩期末期的分割效果普遍差于舒张期末期的分割效果，原因是在收缩期末期，目标器官排血后体积变小，尤其是心尖与心室基层的形变较大，从而导致目标器官与背景的标签不平衡。后续工作将针对这一问题展开。

参考文献

Baumgartner C F, Koch L M, Pollefeys M and Konukoglu E. 2018. An exploration of 2D and 3D deep learning techniques for cardiac MR image segmentation//Proceedings of the 8th International Workshop on Statistical Atlases and Computational Models of the Heart. Quebec City, Canada: Springer: 111-119[DOI: 10.1007/978-3-319-75541-0_12]

Bernard O, Lalande A, Zotti C, Cervenansky F, Yang X, Heng P A, Cetin I, Lekadir K, Camara O, Gonzalez Ballester M A, Sanroma G, Napel S, Petersen S, Tziritas G, Grinias E, Khened M, Kollerathu V A, Krishnamurthi G, Rohe M M, Pennec X, Sermesant M, Isensee F, Jager P, Maier-Hein K H, Full P M, Wolf I, Engelhardt S, Baumgartner C F, Koch L M, Wolterink J M, Isgum I, Jang Y, Hong Y O N M, Patravali J, Jain S, Humbert O, Jodoin P M. 2018. Deep learning techniques for automatic MRI cardiac multi-structures segmentation and diagnosis: is the problem solved?. IEEE Transactions on Medical Imaging, 37(11): 2514-2525 [DOI:10.1109/TMI.2018.2837502]

Cao Y, Xu J R, Lin S, Wei F Y and Hu H. 2019. GCNet: non-local networks meet squeeze-excitation networks and beyond//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshops. Seoul, Korea(South): IEEE: 1971-1980[DOI: 10.1109/ICCVW.2019.00246]

Chang Y K, Song B Y, Jung C and Huang L Y. 2018. Automatic segmentation and cardiopathy classification in cardiac MRI images based on deep neural networks//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, Canada: IEEE: 1020-1024[DOI: 10.1109/ICASSP.2018.8461261]

Cheng F, Chen C, Wang Y K, Shi H, Cao Y K, Tu D D, Zhang C Z and Xu Y C. 2020. Learning directional feature maps for cardiac MRI segmentation//Proceedings of the 23rd International Conference on Medical Image Computing and Computer Assisted Intervention. Lima, Peru: Springer: 108-117[DOI: 10.1007/978-3-030-59719-1_11]

Dai J F, Qi H Z, Xiong Y W, Li Y, Zhang G D, Hu H and Wei Y C. 2017. Deformable convolutional networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 764-773[DOI: 10.1109/ICCV.2017.89]

Gao Q, Gao J Y, Zhao D. 2020. GNNIUGnet: Precise Segmentation Neural Network of Left Ventricular Contours for MRI Images Based on Group Normalization and Nearest Interpolation. Computer Science, 47(08): 213-220 (高强, 高敬阳, 赵地. 2020. GNNI U-net: 基于组归一化与最近邻插值的MRI左心室轮廓精准分割网络. 计算机科学, 47(08): 213-220) [DOI:10.11896/jsjkx.190600026]

Hasan S M K and Linte C A. 2020. CondenseUNet: a memory-efficient condensely-connected architecture for bi-ventricular blood pool and myocardium segmentation//Proceedings of SPIE 11315, Medical Imaging 2020: Image-Guided Procedures, Robotic Interventions, and Modeling. Houston, USA: SPIE: 113151 J[DOI: 10.1117/12.2550640]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

Liu C, Lin N, Cao Y J, Yang C. 2021. Seg-CapNet: neural network model for the cardiac MRI segmentation. Journal of Image and Graphics, 26(02): 0452-0463 (刘畅, 林楠, 曹仰杰, 杨聪. 2021. Seg-CapNet : 心脏MRI图像分割神经网络模型. 中国图象图形学报, 26(02): 0452-0463) [DOI:10.11834/jig.190626]

Liu T, Tian Y, Zhao S F, Huang X Y, Wang Q J. 2020. Residual Convolutional neural network for cardiac image segmentation and heart disease diagnosis. IEEE Access, 8: 82153-82161 [DOI:10.1109/ACCESS.2020.2991424]

Painchaud N, Skandarani Y, Judge T, Bernard O, Lalande A and Jodoin P M. 2019. Cardiac MRI segmentation with strong anatomical guarantees//Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen: Springer: 632-640[DOI: 10.1007/978-3-030-32245-8_70]

Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 779-788[DOI: 10.1109/CVPR.2016.91]

Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]

Simantiris G, Tziritas G. 2020. Cardiac MRI segmentation with a dilated CNN incorporating domain-specific constraints. IEEE Journal of Selected Topics in Signal Processing, 14(6): 1235-1243 [DOI:10.1109/JSTSP.2020.3013351]

Sun J, Darbeha F, Zaidi M and Wang B. 2020. SAUNet: shape attentive U-Net for interpretable medical image segmentation//Proceedings of the 23rd International Conference on Medical Image Computing and Computer Assisted Intervention. Lima, Peru: Springer: 797-806

Zotti C, Luo Z M, Lalande A, Jodoin P M. 2019. Convolutional neural network with shape prior applied to cardiac MRI segmentation. IEEE Journal of Biomedical and Health Informatics, 23(3): 1119-1128 [DOI:10.1109/JBHI.2018.2865450]