论文引用格式:Wen K, Jin X, An H, He J and Wang J. 2023. CentroidNet: a light-weight, fast nuclei centroid detection model for breast Ki67 scoring. Journal of Image and Graphics, 28(04):1119-1133(引用格式:文可, 金旭, 安虹, 何杰, 王珏. 2023. CentroidNet:轻量快速的乳腺癌Ki67细胞核中心点检测模型. 中国图象图形学报, 28(04):1119-1133)[0 引 言对乳腺癌患者来说,科学的预后分析能够减少不必要的药物暴露(往往有较大的毒副作用)和医疗费用支出,进而提高患者的生活质量。在乳腺癌的预后分析中,Ki67分数反映了恶性细胞的增殖率,是一项不可忽视的指标(Dowsett等,2011;Yerushalmi等,2010)。Ki67评分的重要环节是识别阴性与阳性的癌细胞核。该环节受到3方面现实因素的制约。1)病理医生需要观察大量的、密集的细胞核,难免产生疲劳和误差;2)我国病理领域严重缺乏人力资源(卞修武和平轶芳,2019);3)病理医生之间、一位病理医生的不同时期不可避免地具有主观差异(Elmore等,2015)。利用计算机视觉算法来分析Ki67图像,能够使细胞核识别环节变得自动化,将病理医生从繁重的切片阅读工作中解放出来。近年来,卷积神经网络(convoutional neural networks, CNN)极大推动了计算机视觉的发展(LeCun等,2015)。这一趋势激励了不少研究者用CNN解决病理相关的视觉识别问题,并普遍取得了超越手工设计(hand-crafted)方法的识别质量(Srinidhi等,2021)。CNN具有强大的拟合与表征能力,使得其能够直接地从原始图像提取特征并做出决策,从而减少或消除手工设计的方法。然而,CNN在分担病理医生的工作之前,又带来新的工作,即标注训练图像。这无疑会降低病理医生参与开发CNN的积极性。为了将CNN用于乳腺癌Ki67细胞核检测,本文首先需要考虑采用什么样的标注格式。在标注每一个阴性与阳性癌细胞核的前提下,标注的格式可以是细胞核的掩膜(轮廓)、边界框或中心点。显然,中心点标注所需的工作量是最少的。在乳腺癌Ki67细胞核计数这个特定的任务中,细胞核的尺寸与形状只是病理医生判别细胞核类型的隐变量,并不需要记录在案。考虑到CNN具有强大的学习能力,本文认为,即使只标注中心点、不标注隐变量,CNN也能够学习到细胞核的其他特征。事实上,不少研究者已经打通了利用细胞核中心点标注来训练CNN的技术路线。例如,Qu 等人(2020)利用K-means和Voronoi算法将中心点标注加工成细胞核热力图标签与边缘热力图标签,训练的热力图模型用于MoNuSeg数据集(Kumar等,2017)上的细胞核分割任务,达到了媲美全监督方法的分割质量。Tian等人(2020)在Qu等人(2020)方法的基础上引入Sobel热力图标签和由粗到精的自激励学习机制,进一步缩小了与全监督分割模型的质量差距。Lin等人(2022)在Qu等人(2020)方法的基础上引入自监督预训练机制,代理任务为从苏木精通道重建苏木精—伊红图像。但以上方法在后处理与CNN结构方面尚有不足之处。后处理是这些方法必备的步骤,目的是从预测热力图提取中心点坐标。而后处理引入较多的超参数,降低了模型的易用性。CNN结构通常采用U-Net或特征金字塔(feature pyramid network,FPN)风格的旁路连接与多级2×上采样,本文发现这样的CNN结构反而降低了模型在乳腺癌Ki67图像上的质量和效率。为此,本文提出CentroidNet中心点检测模型。该模型具有一个全卷积网络(fully convolutional network,FCN)结构的中心点检测器以及配套的训练与推理流程。检测器以其感受野中心点在输入图像上的停留位置为锚点。当检测器滑动到锚点上时,预测出最靠近锚点的一个细胞核中心点。为了在推理阶段简化后处理环节,CentroidNet在训练时必须采用一对一标签匹配策略(后文简称一对一策略)。近年来,一些目标框检测模型采用一对一策略(Wang等,2021;Carion等,2020;Stewart等,2016)。这些模型所采用的一对一策略都是基于线性分配的(后文简称线性分配策略)。线性分配策略大体分为两步。1) 构造质量矩阵Q。该矩阵第i行第j列元素Qi,j是第i个答案框与第j个候选框的匹配质量,具体为Qi,j=1 j∈Ωi×pj,i1-α×IoUb¯i,bj (1)式中,函数1prop返回命题prop的真值;命题j∈Ωi表示候选框j在答案框i附近,详见Wang等人(2021)关于空间先验的讨论;pj,i是候选框j在答案框i的类别上的概率;IoUb¯i,bj是答案框b¯i与候选框bj的交并比(intersection over union,IoU);α∈0, 1是超参数。2) 求解最优匹配π^。具体为π^=arg maxπ∈Π∑iQi,π(i) (2)式中,Π是一个集合,枚举了答案框的n排列的所有情况,这里n为候选框个数。通常采用匈牙利算法求解式(2)。线性分配策略使这些模型在推理阶段只需对分类概率进行基于阈值的筛选,几乎消除了后处理步骤,从而提高了易用性。然而本文在实践中发现线性分配策略存在标签抖动问题,即候选点所匹配的答案点索引随候选点本身的变化而变化,从而干扰损失函数的收敛。考虑到锚点是固定的,能够与答案点构建稳定的匹配关系,本文提出最近锚点策略以规避这个问题。锚点间距对模型质量和效率有着重要的影响。本文建议锚点间距应尽可能接近训练集的常数D1%,该常数是训练集的答案点与其他答案点(不区分类别)的最短距离的第一百分位数。本文通过实验揭示出这样的锚点间距能够在前景标签占比、坐标回归难度与效率三者之间取得良好的平衡。在检测器的结构方面,本文不使用上采样层与旁路连接,在质量方面反而超越了大部分使用二者的模型,并媲美最佳质量;在效率方面远远超越使用二者的模型。综上,本文的贡献如下:1)提出最近锚点策略用于训练阶段,从而简化推理阶段的后处理环节,进而提高中心点检测的易用性;并规避现有一对一策略的标签抖动问题。2)建议锚点间距接近训练集常数D1%,以平衡前景标签占比、坐标回归难度与效率。3)不使用多级上采样与旁路连接,反而提高了中心点检测的质量和效率。1 本文方法1.1 CentroidNet整体的实施流程1.1.1 推理的整体流程CentroidNet推理的整体流程如图1所示,实际的锚点间距比图中小。其中,圆点为锚点,圆圈为阴性预测点,加号为阳性预测点。首先在训练图像上放置锚点阵列V(0),阵列元素形如v(0)=y(0), x(0)。然后利用FCN检测器自身的滑动性质访问所有锚点,得到候选点阵列V,阵列元素形如v=p0, p1, ⋯, pK, y, x,其中,p0, ⋯, pK-1为前景概率,pK为背景概率。锚点与候选点是一一对应的。最后,对候选点阵列V进行筛选,得到预测点集合V^,集合元素形如v^=(k^, y, x)。10.11834/jig.211207.F001图1CentroidNet推理的整体流程Fig.1The overall process of CentroidNet during inference对每个候选点v,是否通过筛选的步骤如下:1) 找到候选点的预测概率最大的类别编号k^,即k^=arg maxi pi;2) 若k^≠K,即候选点不是背景,则进入步骤3);3) 若pk^≥0.9,则候选点通过筛选。1.1.2 训练的整体流程图2以计算图的形式给出了训练的关键流程,即单幅图像的损失函数L(V, T¯)的计算方式。本文从3个视角解读图2。图2中,计算图的节点代表运算,边代表数据。图中实线数据是可导的,虚线数据是不可导的。图中所有大写粗斜体符号都是由相应的小写普通斜体符号组成的阵列,例如P0是p0组成的阵列。10.11834/jig.211207.F002图2CentroidNet单幅训练图像的损失函数计算图Fig.2The compute diagram of the loss function of one single training image1)获取训练标签T¯。点集A是病理学家标注的答案点集合,集合元素形如a=(kh,yh,xh)。A的长度是可变的,不能对齐到检测器的输出,因此需要最近锚点策略将A转化为标签阵列T¯,元素为t¯=(k¯,y¯,x¯)。2)获取候选点阵列V。利用检测器从输入图像I得到候选点阵列V。注意候选点与标签是一一对应的。3)定义图像损失函数L(V, T¯)。图像损失函数L(V, T¯)是候选点损失函数l(v,t¯)的和,具体为L(V, T¯)=∑(v,t¯)l(v, t¯) (3)候选点损失函数分为分类与回归两部分,并具有一个自适应的权重。具体为l(v, t¯)=wk¯×(-logpk¯+SL1(y-y¯)+SL1(x-x¯))(4)式中,分类部分采用交叉熵(负对数似然)函数,用于衡量检测器的分类误差;回归部分采用Smooth L1函数(Girshick,2015),用于衡量检测器的坐标回归误差。具体为SL1(x)=0.5x2x 1x- 0.5x ≥1 (5)同时,考虑到前景标签的数量普遍少于背景标签,本文引入批次内的类别权重机制,目的是增强前景的梯度。类别权重机制反映于式(4)中的权重系数wk¯。对于K类中心点检测任务,本文需要计算K+1个这样的系数,具体为wk=1+∑i=0Kni1+nk , k∈0,1,⋯,K (6)式中,nk是第k类标签的数目,计数范围是与当前图像同一批次的所有训练标签。有了图像损失函数,本文将批次损失函数LB定义为批次内所有图像的L的算术平均。之后,采用批量随机梯度优化器(简称优化器)对LB进行迭代优化,从而更新检测器的参数。这样的优化器有随机梯度下降法(stochastic gradient descent,SGD)、Loshchilov和Hutter(2019)方法等。优化器在每一轮迭代中,从训练集随机而不重复地抽取一批训练图像IB及对应的答案点AB。当所有训练图像都被访问时,优化器完成一轮迭代。每一轮迭代之后,在验证集上评估模型的质量,并保留该轮训练后的检测器参数Θn,n为该迭代的索引。迭代足够的轮数之后,选择验证集上质量最高的一轮参数Θ^作为检测器的参数,在测试集上评估质量与效率。1.1.3 CentroidNet检测器检测器是CentroidNet的重要组成部分,结构如图3所示。其中,ConvKK代表核大小为K的卷积层;MaxPool为最大池化层;星号“*”代表步长为2;逗号后如果跟一个数字则代表输出通道数,如果跟两个数字则依次代表中间通道数和输出通道数;“(3)”代表连续3个相同配置的模块。除最后一层卷积层外,检测器中的所有卷积层都依次跟随批量归一化层和ReLU(rectified linear units)激活层。检测器是FCN结构的,因此检测器在输入图像上从固定的起点按照固定的步长自动地进行横向和纵向的滑动。这使得检测器感受野的中心点停留在输入图像的固定位置,本文以这些位置为锚点。10.11834/jig.211207.F003图3CentroidNet检测器的结构Fig.3The structure of the detector of CentroidNet检测器在每一次停留时,读取输入图像上以锚点为中心点、边长为感受野大小的一块正方形区域,本文称这一块区域为感受野的内容。之后,对每一块感受野内容,检测器计算出对应锚点的logit与偏移量,共K+3个元素,依次为u0,u1,⋯,uK,Δy,Δx。接下来,利用softmax函数将logit转化为概率,并对锚点坐标进行修正,从而得到候选点v=(p0,p1,⋯,pK,y,x)。使用的softmax函数和修正锚点坐标的具体计算为pk=exp (uk)∑j=0Kexp (uj) (7)y=y(0)+Δy, x=x(0)+Δx (8)随着检测器的滑动,所有锚点都被访问,从而得到候选点阵列V。RGBB(residual grouped bottleneck block)模块是检测器反复使用的基本组件,结构如图4所示。其中,C1和C2分别为中间通道数和输出通道数,Group是分组卷积的分组数,Res为残差连接。若张量a和b的通道数相同,则直接进行逐元素相加;否则先利用一个可学习的1 × 1卷积层将b的通道数调整到与a相同,再进行逐元素相加。RGBB模块的步长为中间3 × 3卷积层的步长。顾名思义,RGBB模块采用了残差连接、分组卷积、瓶颈结构这3个设计要素。其中,残差连接降低深网络的优化难度,避免网络的质量随层数增加而退化(He等,2016);瓶颈结构与分组卷积结合起来,使模型学到更高质量的表征并数倍减少参数量和运算量(Xie等,2017)。实际上,RGBB模块是ResNeXt网络(Xie等,2017)反复使用的基本组件。考虑到乳腺癌Ki67细胞核类别数远少于ImageNet数据集的1 000类、COCO 2017(common objects in context)数据集的80类,为了在可接受的时间内训练模型,本文所用的RGBB模块的数量仅不到ResNeXt的一半。10.11834/jig.211207.F004图4RGBB模块的结构Fig.4The structure of RGBB1.2 最近锚点策略本文首先讨论什么样的点适合作为锚点。锚 (anchor)是坐标回归的基准位置,是目标检测领域的重要概念。受到FCN目标框检测模型FCOS(fully convolutional one-stage)(Tian等,2019)的启发,本文以FCN感受野的中心点在输入图像上停留的位置为锚点。实际上,这些停留位置为(y,x)=(rS,cS),其中,r,c为检测器的输出特征图的行列索引,同时也是锚点阵列的行列索引,S为检测器的步长。图5形象地展示了锚点在输入图像上的位置。这些锚点组成了锚点阵列V(0),行数为H=H0 /S,列数为W=W0 /S,表示向上取整。10.11834/jig.211207.F005图5锚点(感受野中心点)出现的位置(紫色圆点)Fig.5Positions where anchor points (or the center point of receptive field) appears (shown as magenta bullets)有了锚点的定义,本文能够给出最近锚点策略的定义。该策略首先对每一个答案点,找到与其最近的唯一锚点,令该锚点的标签为答案点;之后对未匹配到答案点的锚点,设置其分类标签为背景、回归标签为锚点自身的坐标。图6展示了最近锚点策略的实施方式。10.11834/jig.211207.F006图6最近锚点策略的实施方式示意图Fig.6The schematic figure of nearest anchor strategy然而,这样的定义未能覆盖两种偶然的歧义情况。情况1如图7(a)所示,当答案点恰好落在相邻锚点的垂直平分线上时,答案点与这两个相邻锚点的距离是相等的。对于这种情况,本文将答案点匹配到靠下、靠右的锚点。情况2 如图7(b)所示,当锚点是多个答案点的最近锚点时,首先取与锚点最近的答案点;如果仍然有多个答案点,再取靠上、靠左的答案点。10.11834/jig.211207.F007图7最近锚点匹配的两种歧义情况及处理方式Fig.7Two ambiguity cases of nearest anchor strategy and its settlement ((a) one annotated point matching many anchor points;(b) one anchor point matching many annotated points)按照以上描述,本文仍然不能精确地实施最近锚点策略。为此本文采用更加形式化的语言来定义最近锚点策略。给定一幅训练图像的答案点集A和锚点阵列V(0),最近锚点策略的实施步骤如下:1) 对A中的每一个答案点a=(kh,yh,xh),计算与之匹配的锚点行号r与列号c,具体为r=roundyhS+0.5c=roundxhS+0.5 (9)式中,round(x)为对实数x进行四舍五入取整。设锚点vr,c(0)的标签为t¯r,c,则t¯r,c=a。2) 对V(0)中未匹配到答案点的每个锚点,设其行号为i、列号为j,则其标签t¯i,j为t¯i,j=(K, yi,j(0), xi,j(0)) (10)3)对V(0)中匹配到多个答案点的每个锚点,设其行号为i、列号为j,匹配到的答案点序列为A?。对A?进行排序,排序键(key)依次为答案点到锚点的欧氏距离、答案点的纵坐标、答案点的横坐标,排序规则为排序键的升序字典序。记a^为排序后的第1个答案点,则t¯i,j=a^。最近锚点策略保证了任意锚点或候选点的标签是恒定的,从而规避了预测感知型标签匹配策略带来的标签抖动的问题。而对于最近锚点策略的歧义情况,首先歧义是小概率事件;其次本文已经对歧义情况给出了一致的处理方式,并且可以相信CNN的表征能力足以学会这一处理方式。因此本文可以忽略歧义对检测质量的负面影响。最近锚点匹配策略会将FCN检测器训练成滑动的单目标检测器。通过将答案点匹配到最近的锚点,单目标检测器尝试学习感受野中央的S×S正方形区域内存在哪一类目标的中心点、与中央的偏移量是多少。这为本文接下来调整锚点间距提供了有用的视角。1.3 调整锚点间距的策略1.3.1 锚点间距过大或过小带来的影响锚点间距(即检测器的步长)是CentroidNet的一项重要的超参数。本文分别列出扩大或缩小步长所带来的事实,并分析这些事实对质量和效率构成何种影响。扩大步长带来的事实如下:事实1) 前景标签的数目是恒定的,而锚点总数变少,从而提高前景标签占比;事实2) 对于目标数较多的图像,锚点数可能少于目标数;事实3) 答案点在锚点周围的分布区域变大。对于事实1),在前景标签未达100%时,提高前景标签占比显然是有益的。事实2)是事实1)的极端情况,若的确发生,则必然对质量有害。对于事实3),本文将通过迷你实验1)来揭示其提高了坐标回归问题的难度,因而是有害的。缩小步长带来的事实如下:事实4) 答案点在锚点周围的分布区域变小;事实5) 锚点总数变多,提高了背景标签占比;事实6) 感受野变小,使上下文信息变少;事实7) 中间特征的宽度与高度增加。根据迷你实验1,事实4)能够降低正样本坐标回归的难度,因而对质量有益。事实5)和事实6)都有可能对质量有害,然而本文通过迷你实验2)得到一个出乎意料的结论,当物体大小远低于感受野大小时,感受野大小对检测质量几乎没有影响,这与主流的扩大感受野从而提高检测质量的观点是相悖的;反而是事实5)显著地危害检测质量。事实7)一定会提高模型的计算量和内存足迹,是对效率有害的因素。以上分析只是表明了存在一个步长使检测质量最大化,并不能精确地给出如何计算这样的步长。在有限的研究条件下,本文通过实验3归纳出BCData数据集(Huang等,2020)上的最佳步长为训练集的常数D1%,并且由于BCData图像的获取条件符合临床场景的要求与习惯,本文推荐将常数D1%用于大多数乳腺癌Ki67图像以及其他类似的图像。接下来,本文通过两个迷你实验,模拟检测器在单个锚点处的“微观”环境与行为,从而对事实3)、事实5)和事实6)给出更有说服力的解释。1.3.2 迷你实验的数据与方法在接下来的两个迷你实验中,本文构造迷你FCN检测器,令检测器停留在输入图像的中央处,以模拟CentroidNet检测器停留在某个锚点处的环境与行为。检测器识别图像中央的一个正方形区域内的目标类别与中心点坐标。本文使用方块检测(square detection,SD)数据集来训练迷你FCN检测器。SD数据集由程序生成、白色背景、宽高为91像素的RGB图像组成。计算机程序(以下简称为生成器)在每幅图像上随机地放置两个宽高为5像素的彩色方块,记为方块#1和方块#2。方块的颜色和分类如表1所示。方块具有13种颜色。前12种颜色被划分为4类(编号为0到3)。最后一种是白色,被划为第5类(编号为4),视为背景类。方块#1被填充为白色的概率为PB,除此之外被填充为任意其他颜色的概率是相等的。方块#2永远不会被填充为白色,被填充为任意其他颜色的概率是相等的。生成器将图像的训练标签设为方块#1的类别编号及中心点坐标;当方块#1为白色时,坐标标签为图像的中央坐标(45,45)。10.11834/jig.211207.T001表1SD数据集的类别与颜色Table 1Classes and colors of SD dataset类别编号颜色代码0#FF0000,#00FF00,#0000FF1#00FFFF,#FF00FF,#FFFF002#800000,#008000,#0000803#008080,#800080,#8080004#FFFFFF在使用最近锚点策略的前提下,一个答案点的坐标服从均匀分布,分布空间是一个正方形区域,边长为锚点间距S,中心为匹配到的锚点。本文称该区域为锚点的负责区域。方块#1的目的就是模拟答案点在锚点的负责区域内的分布方式。同时,答案点与其他答案点的最短距离在大部分情况下大于锚点间距S且远小于检测器的感受野大小。因此负责区域内出现两个答案点的概率较低,而在感受野内、负责区域外存在其他干扰目标的概率很高。因此本文引入方块#2,用于模拟感受野内、负责区域外的干扰目标。两个方块的位置分布如图8所示。方块#1的中心点随机地出现在以图像中央为中心、边长为W像素的正方形区域内部(含边沿)。实际上,方块#1的中心点坐标服从该正方形区域上的整数均匀分布。方块#2的中心点出现在以图像中央为中心、边长为W+2像素的正方形区域外部。实际上,方块#2的中心点坐标服从其允许区域上的整数均匀分布。此外,若两个方块发生重叠,则重叠部分为方块#1的对应部分。10.11834/jig.211207.F008图8方块#1与#2出现的区域示意图Fig.8Regions where square #1 and #2 present迷你实验的具体步骤如下:首先,对每一对超参数组合(W,PB),训练20个检测器副本,每个副本训练2 000批次;之后,在200批次图像(12 800幅)上,评估每个副本的综合F1分数;最后,统计出每一对超参数组合(W,PB)的综合F1分数的均值和方差。由于方块目标过小,本文需对本文正式实验中所陈述的TP计数规则做出必要的修改。原规则针对乳腺癌Ki67图像制订了10像素的容许半径;本文针对SD数据集将容许半径改为2像素。1.3.3 迷你实验1:模拟大步长并探究其危害本文猜想检测器的质量随着锚点负责区域变大而下降。为了验证这一猜想,本文模拟检测器在一个锚点处的环境与行为。为此,本文利用SD数据集训练如图9所示的单目标检测器,其中Pool是最大池化层。该检测器的感受野宽高恰好等于SD图像的宽高,感受野的中心恰好是SD图像的中心。SD数据集在本实验中的配置为W∈19,27,35,43,51, PB=0.2 (11)10.11834/jig.211207.F009图9迷你检测器结构图Fig.9The structure of mini detector表2给出了负责区域为不同尺寸时,迷你检测器的综合F1分数。可以看出,综合F1分数随方块#1分布区域扩大而下降,这说明标签坐标的分布区域越大,坐标回归问题难度越高。本文对此给出进一步的解释。考虑到标签坐标是整数,可以将坐标回归问题看成K分类问题,类别数K=(W+1)2,分类标签为整数对(y¯,x¯)。在这种视角下,分类问题的难度必然与K正相关。10.11834/jig.211207.T002表2迷你实验1的结果Table 2The result of mini-experiment 1类别数F1均值标准差110.9940.001210.9660.010310.8750.022410.7100.034510.4130.142注:加粗字体表示最优结果。综上,迷你实验1的结论为扩大步长对质量的不利影响在于提高坐标的回归难度。1.3.4 迷你实验2:模拟小步长并探究其危害本文猜想缩短步长降低质量的主要原因是背景标签变多,而不是感受野变小,并通过本节迷你实验来验证该猜想。SD数据集在本实验中的配置为W=27PB∈0.25/1.25, 1/2, 4/5, 16/17=0.2, 0.5, 0.8, 0.9412 (12)式中,PB的变化规律是为了模拟CentroidNet的背景标签数量随步长减半而增加到原来的3~4倍的规律。本文通过控制图9中Pool 33层出现与否、出现的位置来改变感受野大小,共有27,47,67,91这4种感受野大小。调整Pool 33层的数量和位置会使检测器输出的特征图宽高不再是1,本文只取特征图中央的向量为检测器的输出。表3给出了不同感受野大小和背景概率PB下,迷你检测器的综合F1分数。表中,小写字母a,b,c,d依次指代图9从输入端到输出端的4个Pool 33层。aad代表保留a和d两层,并紧跟a层再加一层Pool 33。对于不同的背景概率,越高的F1代表检测问题越简单;对于相同的背景概率,越高的F1代表模型的质量越高。10.11834/jig.211207.T003表3迷你实验2的结果Table 3The result of mini-experiment 2感受野大小PB综合F1分数Pool 33保留情况平均值标准差270.2000.9850.005cd470.2000.9910.005bcd670.2000.9880.003aad910.2000.9190.017abcd910.5000.9050.013abcd910.8000.8070.049abcd910.9410.6300.048abcd注:加粗字体表示最优结果。从表3可以看出,提高背景标签的比例会严重损害模型的质量。当感受野大小为91时,随着背景概率的升高,综合F1分数从0.919降低至0.630。同时,缩小感受野反而提高了质量。当感受野大小从91降至67时,综合F1分数从0.919升至0.988。继续缩小感受野,综合F1分数也能维持在0.988附近。对此,本文的解释是缩小感受野使干扰目标(方块#2)出现的概率降低了。为了验证这一猜想,本文进行了补充实验。利用W=27, PB=0.2且没有方块#2的SD数据集,分别测试感受野为27,47,67,91的模型。补充实验中,所有感受野的综合F1分数不小于0.998,方差不大于0.002。补充实验的结果既体现出干扰目标会降低检测质量,也体现出质量与感受野大小的关系较本文预想的复杂。根据既有认知,缩小感受野会减少上下文信息,对模型质量不利。然而缩小感受野也会减少干扰目标的数目,对模型质量有利。本文尚未找到合适的切入点来继续挖掘感受野方面的问题,因此不作更深的探讨。综上,迷你实验2的结论为缩短步长危害检测质量的主要原因是提高背景标签的比例,而不是缩小感受野。2 实验结果与分析为了验证CentroidNet模型的有效性,本文首先验证最近锚点策略的有效性,然后搜索最佳的锚点间距,最后从质量与效率两方面对比该模型与主流的或最先进的模型。2.1 实验条件2.1.1 数据集实验选用BCData数据集(Huang等,2020)来验证CentroidNet的有效性。BCData数据集是目前为止规模最大的乳腺癌Ki67免疫组化图像数据集,其图像和标注采集自深圳市第二人民医院和中国科学院大学深圳医院的乳腺癌Ki67切片,尺寸为640 × 640像素。本文在安徽省立医院病理科专家的指导与监督下,利用Adobe Photoshop软件和pytoshop库校准了中心点位置。BCData的划分如表4所示。10.11834/jig.211207.T004表4BCData的划分情况Table 4The divisions of BCData数据集划分图像数目阴性核数目阳性核数目训练集80369 29751 124验证集13314 10307 701测试集40242 45028 241为了归纳出可操作性更强的调整锚点间距的方法,本文还测量了BCData训练集每个答案点与其他答案点的最小欧氏距离,记为随机变量d。d的分布情况如表5所示。10.11834/jig.211207.T005表5BCData训练集内各答案点与其他答案点的最短距离的分布情况Table 5The distribution of the minimum distance from each annotated point to other annotated points in the training set of BCData百分位距离d0(最小值)3.5115.3519.02024.050(中位数)30.68039.49551.99970.2100228.3为了避免过拟合,本文对BCData的训练集进行在线随机裁剪、旋转与翻转扩增。裁剪的具体方式为对图像的每一边裁掉n像素,n服从0~8的整数均匀分布。旋转的具体方式为对图像顺时针旋转n°,n服从{ 0, 90, 180, 270 }上的整数均匀分布。翻转的具体方式为随机地进行恒等变换、水平翻转或竖直翻转,各种变换的概率都是1/3。本文的扩增方案将覆盖基线方法原文中的扩增方案。2.1.2 实验环境硬件环境:本文的所有训练和推理都是在一台x86_64架构的计算机上开展的。该计算机具有双路Intel Xeon E5-2643 v4中央处理器;具有128 GB主存;具有若干相同型号GPU深度学习加速器,型号为NVIDIA TITAN V,显存为12 GB。软件环境:本文在Python 3.8上,采用深度学习框架PyTorch(版本号1.10.1)搭建CNN,并结合numpy,scikit-image(skimage),scikit-learn(sklearn)等工具搭建整个训练和推理流程。本文采用Adam(Kingma和Ba,2017)作为所有模型的优化器,初始学习率为1/512,批次大小为8幅图像。CNN参数的初始化策略为xavier_uniform。一些基线模型在后处理环节需要连通域分析或K-means聚类。为了更公平地展现基线模型的效率,本文采用连通域分析库cc_torch,该库实现了一种前沿的连通域分析算法(Allegretti等,2020);本文采用pykeops.torch库中的K-means算法。以上两个算法库都是基于PyTorch开发的,支持GPU加速。2.1.3 实验方法本文采用留出法为每个模型F(I; Θ, H)挑选代表参数Θ^。其中,Θ由优化器更新,通常称为参数;H是人为设定的参数,通常称为超参数。评估一个模型的具体流程分为3步,具体如下:1) 训练出模型F的5个副本,每个副本训练1 500轮。收集这5个副本的最优参数Θ1, ⋯, Θ5,其中Θi是使第i个副本在验证集上取得最高的综合F1分数的参数。2) 在上述5组最优参数中,记综合F1最高的参数为Θ^,即为代表参数。3)在测试集上以推理模式运行模型F(I; Θ^,H),记录该模型的质量与效率指标。2.1.4 质量评价指标采用查准率(precision,Pr)、查全率(recall,Re)以及F1分数作为模型质量的评价指标。对于有K个前景类的中心点检测任务,本文能够计算出3K+3个质量指标,分别是任意第k类的Prk,Rek,F1k,以及综合所有类的Pr,Re, F1。计算这些指标之前,首先需要对任意第k类的TPk,GPk,PPk进行计数。这些符号分别代表第k类预测正确的预测点数目、答案点数目、预测为第k类的预测点数目。本文参考了Huang等人(2020)提出的计数算法。若预测点落在以同类答案点为中心、半径10像素的圆形区域内,则该预测点视为一个正确的预测点。然而这个判断标准不够严谨,最大的问题在于可能有多个同类预测点落在同类答案点的圆形区域内;其次没有明确地说明单幅图像的指标以何种方式归约到整个数据集的指标。为此,本文开发了一种更加严谨的、可以使用GPU加速的评价算法。更加严谨的要点在于,当多个同类预测点靠近同类的某个答案点时,只有一个预测点计入所在类的TP。更快的要点在于,预测点到答案点的距离是欧氏距离与分类距离的和;若预测点与答案点同类,则分类距离为0;否则分类距离为图像的对角线长度。对一幅训练图像,计数算法的步骤如下:1)将预测点集V^转换为独热码矩阵B和坐标矩阵C。矩阵B的第i行第 j列元素等于1,当且仅当第i个预测点属于第j类;其余元素为0。矩阵C的第i行是第i个预测点的纵坐标与横坐标。2)类似于步骤1),将答案点集A转化为答案独热码矩阵B¯和答案坐标矩阵C¯。3)对任意前景k,令TPk=0,令GPk为矩阵B¯的第k列元素之和,令PPk为矩阵B的第k列元素之和。4)求C与C¯的欧氏距离矩阵E。矩阵E的第i行第j列元素是第i个预测点与第j个答案点的欧氏距离。5)求分类错误矩阵X。X=1-BB¯T。1为与BB¯T具有相同行数和列数的全1矩阵。6)求综合距离矩阵D。D=E+λX。标量λ是图像的对角线长度。7)从答案点集A筛选被命中的答案点集A^。设V˜为访问过的预测点集,V˜初始化为空集。对每个答案点实施如下步骤:设答案点编号为j,则找到矩阵D的第j列的最小元素dmin及其行号imin;若存在多个最小元素,取行号最小的元素;若dmin≤10,则进入步骤8);若集合V˜不存在元素imin,则向V˜添加imin,同时向A^添加j。8)遍历A^中每个答案点的类别编号k,令TPk←TPk+1。有了计数算法,本文可以定义评价算法。评价算法分为两步。首先通过上述计数算法得到任意第k前景类的TPk,GPk,PPk,然后计算各类的质量指标。具体为Prk=TPkPPk Rek=TPkGPkF1k=2⋅TPkGPk+PPk (13)综合所有类的指标为term=1K∑k=0Ktermk, term∈{Pr, Re, F1} (14)为了方便对比模型的质量,本文主要以综合F1分数为最优先的指标。2.1.5 效率评价指标效率评价指标反映在推理时间以及显存足迹两方面。推理时间是模型得到预测点的结束时刻与图像加载到显存的结束时刻的时间差,单位为ms/幅。显存足迹是模型得到预测点时的显存占用量与图像加载到显存时的显存占用量之差,单位为MB/幅。2.2 实验1:验证最近锚点策略的有效性最近锚点策略是一种一对一标签匹配策略,是CentroidNet模型在训练阶段的重要环节。为了验证这一环节的有效性,本文将其与其他一对一标签匹配策略进行对比。目前并没有很多一对一标签匹配策略,主要有Wang等人(2021)和Stewart等人(2016)提出的线性分配策略,Wang等人(2021)提出的贪心策略,以及本文曾经尝试过的最近候选点策略。在展示实验结果之前,本文首先说明实现基线方法的要点。1) 线性分配。为了将该策略迁移到中心点检测任务,需要对质量矩阵的生成方式做出必要的改动。质量矩阵第r行第c列元素计算为Qr,c=1[dr,c≤d0]⋅pc,r(1-α)⋅exp(-dr,c2α) (15)式中,dr,c是第r个答案点与第c个候选点的欧氏距离;d0是距离阈值超参数,这里取d0=10;pc,r是第c个候选点在第r个答案点的类别上的预测概率;α是用于调整分类与回归的权重的超参数,这里遵照Wang等人(2021)的做法,取α=0.8。2) 贪心。贪心使用与线性分配策略相同的质量矩阵,通过求解最优化问题,作为式(2)的快速近似解法。具体为π^(i)=arg maxj Qi,j (16)3) 最近候选点。最近候选点与最近锚点策略采用相同的匹配规则、消歧义规则,但锚点替换为候选点。表6展示了4种一对一标签匹配策略在BCData上的质量。可以看到,与3种基线策略相比,最近锚点策略体现出明显更高的质量,综合F1分数分别比线性分配、贪心和最近候选点策略高出0.066 8,0.076 0,0.089 8。这是因为3种基线方法的匹配关系随候选点坐标和分类概率的变化而变化。这种不稳定的匹配关系无疑会提高分类与回归问题的难度,从而降低模型的质量。10.11834/jig.211207.T006表64种一对一标签匹配策略在BCData上的质量Table 6The quality metrics of four one-to-one label assignment strategies over BCData策略F1F10F11最近锚点0.879 10.869 80.888 4线性分配0.812 30.806 20.825 3贪心0.803 10.793 60.812 6最近候选点0.789 30.780 10.798 5注:加粗字体表示各列最优结果。2.3 实验2:搜索最佳的锚点间距锚点间距是CentroidNet的重要超参数。根据迷你实验的结果,锚点间距对质量有着复杂、微妙的影响。然而本文仍然不能精准地找到最优锚点间距。因此本文在BCData上搜索最优锚点间距,并归纳出可操作的结论。在本实验中,令图3中第0,1,5,9,11模块中的前1~5个的步长为2,其余所有模块的步长为1,从而使锚点间距为2,4,8,16,32。表7展示了不同锚点间距的质量和效率。不难发现,锚点间距为16时的质量最高,并具有可以接受的效率。这说明锚点间距为16时,模型在前景标签比例、坐标回归难度与效率之间取得平衡。当锚点间距高于16时,坐标回归难度过大,且标签匹配遗漏答案点的概率升高,两个因素都降低质量;当锚点间距低于16时,前景标签占比过低使质量下降,且隐变量特征图的宽高增加使效率下降。10.11834/jig.211207.T007表7不同的锚点间距在BCData上的质量和效率Table 7The quality and efficiency scores of different anchor spacings (strides) over BCData锚点间距F1推理时间/(ms/幅)020.156 2237.13040.422 0059.36080.824 8019.94160.879 1012.96320.828 0010.01注:加粗字体表示各列最优结果。考虑到锚点间距16与训练集常数D1% =15.3极为接近,本文推测D1%是一个合适的锚点间距,并推荐用于未知数据集。假设数据集的细胞核不重叠;那么当D1%较小时,说明细胞核尺寸较小,进而说明目标的信息量较少。此时除了缩小锚点间距至接近D1%,本文还建议减少检测器层数以适应更少的信息量。类似地,当D1%较大时,本文建议扩大锚点间距至接近D1%,同时增加层数。2.4 实验3:与主流或最新模型进行对比为了验证CentroidNet模型整体的有效性,与其他主流或较新的模型进行对比。参与对比的基线模型包括Lin等人(2022)、LIRNet(local integral regression network)(Zhou等,2021)、Tian等人(2020)、Ribera等人(2019)、FCOS(fully convolutional one stage)(Tian等,2019)和RetinaNet(Lin等,2017)。实现这些基线模型时,本文模型与对比模型的不同之处在于,Lin等人(2022)模型中自监督学习的代理任务为将H通道重建为H-D(Hematoxylin- DAB)染色图像;Ribera等人(2019)模型中广义均值的参数为α=-7, ε=0.25,以提高数值稳定性。Lin等人(2022)和Tian等人(2020)模型的细胞核中心点是预测的连通域的中心点。LIRNet和Ribera等人(2019)模型是密度估计模型,为了从预测热力图得到细胞核中心点,本文需对热力图的各通道进行K-means聚类;K-means的样本向量是前景像素的横纵坐标,聚类中心数是模型预测的目标数(四舍五入取整)。FCOS和RetinaNet模型是采用一对多标签匹配的目标框检测模型,FPN只有/4、/8、/16这3个级别,(/n表示输出特征图的长宽,是输入图像的1/n)输出层只有FPN的/4级别;本文将答案点看成边长为20像素、以答案点为中心的正方形框。所有基线模型的概率阈值都是0.9。为了尽可能公平地对比,所有基线模型的编码器或骨干网络采用本文图3所示的FCN(不含输出层)。为了配合这样的编码器,U-Net解码器从/2转为/1的模块与编码器之间没有旁路连接。表8展示了CentroidNet与6种基线模型的质量和效率。本文对此做出以下4点提炼与分析。1)在质量方面,CentroidNet的F1分数排第2名,但仅比第1名模型(Zhou等,2021)低0.001 2。本文与第1名模型都具有精简的检测器结构。第1名模型的检测器虽然采用了U-Net风格,解码器部分却只有两个上采样层。这说明精简的检测器在小规模数据集上反而具有更高的质量。2)在效率方面,CentroidNet的推理时间最短、内存足迹最少,与第2名模型(Zhou等,2021)相比具有显著优势,推理时间减少81.32 ms/幅,约为第2名模型的1/7;显存足迹减少47.4 MB/幅,约为第2名模型的2/3。能够取得这样的效率,一是因为Centroid-Net检测器与Zhou等人(2021)模型的检测器相比,输出宽高更小;二是CentroidNet检测器没有上采样和旁路连接。3)阳性核的F1分数普遍高于阴性核。说明阳性核的识别难度低于阴性核。本文对此的解释是,阳性核在图像上往往是一整块深棕色的连通域,内部纹理已无法辨认。4)在解码器结构方面,FPN比U-Net效率更高,具有更短的推理时间和更小的显存足迹。这是因为FPN的旁路连接为相加,与U-Net的拼接相比,减少了解码器的通道数。10.11834/jig.211207.T008表8CentroidNet与基线模型在BCData上的质量和效率Table 8The quality and efficiency scores of CentroidNet and baseline models模型F1F10F11推理时间/(ms/幅)显存足迹/(MB/幅)CentroidNet(本文)0.879 10.869 80.888 412.96138.8Lin等人(2022)0.871 00.859 50.882 4135.70458.6LIRNet(Zhou等,2021)0.880 30.868 20.892 394.28186.2Tian等人(2020)0.863 50.851 80.875 2136.43458.6Ribera等人(2019)0.814 40.811 70.817 2132.91458.6FCOS(Tian等,2019)0.868 60.857 80.879 3124.46255.0RetinaNet(Lin等,2017)0.850 60.835 40.865 8124.39255.0注:加粗字体表示各列最优结果。最后,本文在图10中给出CentroidNet的检测样例。其中,紫色圆圈是答案点,紫色加号是预测点,红色箭头指向错误的预测,红色叉号是错误的答案,红圈是遗漏的答案。上、下两行分别代表阴性核和阳性核;左、右两列分别来自测试集图像#151和#161。可以看出,CentroidNet大体上能够准确而全面地检测乳腺癌Ki67图像中的细胞核。然而CentroidNet在处理一些难样本时有可能出错。例如,重叠的两个细胞核可能被识别为一个大细胞核,褪色(受限于制片和保存工艺)的阴性细胞核可能识别不到。此外,少数错误标注的细胞核也会影响模型的质量。这些错误标注主要集中在弱阳性细胞核。这一类细胞核同时具有棕、蓝两种颜色,在乳腺癌Ki67计数协议中视为阳性,但受限于人类的视觉疲劳,在标注时有少量被标为阴性。10.11834/jig.211207.F010图10CentroidNet中心点检测样例Fig.10Two samples of CentroidNet detection3 结论针对乳腺癌Ki67细胞核检测带来的繁重工作及具有较大主观差异的问题,本文提出 CentroidNet全卷积中心点检测模型。为了减少超参数并提高推理效率,本文将细胞核检测建模为分类—回归问题,在训练模型时采用一对一标签匹配策略。现有一对一标签匹配策略具有标签抖动问题,对此本文提出最近锚点匹配策略,规避了该问题。锚点间距是CentroidNet的重要超参数。为了在前景标签占比、坐标回归难度与效率之间取得良好的平衡,本文建议将锚点间距设为训练集答案点间最短距离的第一百分位数D1%。考虑到乳腺癌Ki67图像具有较少的目标类别,本文激进地削减了FCN解码器(头部)的层数与旁路连接,不仅取得了与当前最高质量相媲美的性能,而且在效率上远超当前最高水平。综上,CentroidNet 在BCData上体现出高质量和高效率。受限于难以获取病理图像训练集的现状,本文旨在论证CentroidNet用于乳腺癌Ki67细胞核检测的可行性,从而提高病理医生在同类图像上制作标注的积极性。