论文引用格式:Pan J S, Lin L, Wu J W, Liu Y X, Chen X H, Lin Q Y, Huang J Y and Tang X Y. 2024. pFedWSD: unified weakly supervised personalized federated image segmentation via similarity-aware distillation. Journal of Image and Graphics, 29(03):0620-0636(引用格式:潘建珊, 林立, 吴洁伟, 刘翼翔, 陈孝华, 林其友, 黄建业, 唐晓颖. 2024. 相似度感知蒸馏的统一弱监督个性化联邦图像分割. 中国图象图形学报, 29(03):0620-0636)[0 引 言近年来,机器学习尤其是深度学习模型在多个计算机视觉和医学影像分析任务中取得了先进性能并因此在许多相关领域得到广泛应用(周传鑫 等,2021)。然而作为一种数据驱动的方法,深度学习模型的性能在很大程度上取决于可用数据的数量及标注的质量。受限于患者数量和标注成本,单个医疗机构往往面临着数据量不足的问题,因而联合多家医院的数据进行协作训练对于获取一个性能强大的智能分析模型意义重大,特别是对于医学影像分割任务而言。然而,随着隐私和安全意识的增强,许多政府和组织通过不同的法规或指南规定了对于个人或患者数据及影像的保护,限制了数据的共享(Voigt和von dem Bussche,2017)。在这种情况下,联邦学习(federated learning,FL)应运而生并受到研究者的广泛关注,因其允许不同中心在无需共享或集中数据的情况下联合训练性能强大的全局模型(Yang等,2019)。在常见的联邦学习范式中,每个本地客户端(如医疗站点)使用本地的训练数据训练模型,并将各个本地/局部模型参数汇聚到中心服务器进行某种方式的聚合并向各个站点广播更新后的参数来实现协调。举例说明,最常用的平均式联邦学习(federated averaging,FedAvg)依据各站点样本数量对各局部模型参数进行加权平均,在服务器端获得单个全局模型(McMahan等,2017)。尽管联邦学习已经在医学图像分割领域取得了一定的进展,但现有工作仍大多属于传统的中心化联邦范式,也即通过图像风格迁移(Liu等,2021)、图像模拟(Li等,2020a)或调整聚合权重(Li等,2019)等手段来提升单个全局模型在每个站点的鲁棒性和泛化性。然而由于各站点之间数据存在着不可避免的分布差异,使用单一全局模型以适应联邦中的所有站点是极具挑战的,尤其是在医学影像场景中,如图1(a)所示。医生的拍摄经验、成像设备的型号、成像参数及患者的群体差异等都是导致客户端图像存在领域偏移的重要因素。10.11834/jig.230295送排稿.F001图1本文使用的数据及标注的样例Fig.1Representative examples of data and labels utilized ((a) the two datasets constructed and used in this paper, with domain gaps across sites;(b) examples of original images with various sparse labels and full masks)在这种背景下,研究者提出个性化联邦学习,它为提升联邦中每个客户端模型的性能提供了一个有潜力的解决思路(Sun等,2023)。目前已经提出的个性化联邦方法主要分为两大类,第1类延续了中心化联邦获取中心模型的思路,并在各个站点进行局部微调以获取更适合自身分布的个性化模型,如Wang等人(2019)提出的FT(FedAVG with fine-tuning),这类方法易受限于深度学习模型的固有弱点:灾难性遗忘,即遗忘在第1阶段学到的公共知识而在局部数据上过拟合。另一类更先进的解决方案通过将模型划分为全局共享部分和个性化部分,将模型的共享部分汇聚到中心服务器进行聚合,个性化部分则保留本地训练所得参数,从而实现模型性能的提升,例如,Li等人(2021)将批标准化(batch normalization,BN)层作为模型个性化部分,而Collins等人(2021)则将个性化层设置在模型的预测头部分。这些方法仅关注各站点自身的信息而忽略了站点间的相似性,不可避免地丢失了其他站点的有用知识,从而弱化了模型的表征能力。另一方面,上述方法仍需要额外的中央服务器以聚合共享部分的参数,探索一种无需中央服务器的联邦方法对降低计算消耗、提升方法实用性起到重要意义。此外,由于个性化联邦学习发展时间尚短,多数方法仅在简单的分类任务上进行设计及验证,而在相对复杂的分割任务上鲜有研究。深度学习方法在医学影像分割任务上受到极大关注并取得重大成功,特别是在Ronneberger等人(2015)提出U-Net之后。此后大多数的分割方法主要关注于提出精心设计的更为强大的网络架构(Lin等,2021),或者各种融合医学、拓扑、体积等先验的损失函数(Lin等,2020)以提升分割性能。然而数据可用性和标注质量是全监督分割范式的主要限制,这对于需要专家知识和临床经验进行标注的医学影像而言尤甚。弱监督学习提供了一种数据高效的解决方案(田萱 等,2019),通过使用稀疏粒度(如点、涂鸦、边界框、多边形块等)的标注进行模型的监督,已经有部分工作分别基于上述各种稀疏标签的弱监督训练方法进行研究,并取得了良好的性能(Obukhov等,2019;Liang等,2022)。在联邦中,一个更符合实际需求的设定是允许不同的中心站点使用异构形式的稀疏标签,如图1(b)所示,并以统一、兼容的方式进行训练,使各站点都能从联邦中获得性能收益。据调研,目前针对弱监督下的个性化联邦方法仍未有相关研究报道。针对上述现状,本文立足于医学影像分割这一任务,提出了一种统一的弱监督个性化联邦学习范式,称为pFedWSD(unified weakly suppervised personalized federated image segmentation via similarity-aware distillation)。所提出的pFedWSD通过循环知识蒸馏为每个中心训练个性化模型,主要包含两个阶段:不确定度感知的动态循环公共知识积累阶段和分布相似度感知的个性化阶段。在弱监督方面, 采用了部分交叉熵、门控条件随机场和树能量损失函数的综合优化目标,有效统一了各种不同稀疏标注的数据来进行训练,可以在线得到边缘更准确的伪标签,从而获得优异的分割性能,而无需额外的监督数据、交替的优化过程或耗时的后处理。本文的主要贡献归纳如下:1)据调研,这是第1个在各客户端采用异构标签设定下的弱监督医学图像分割个性化联邦学习方法;2)所提出的两阶段个性化联邦,通过不确定度感知的方式动态地排序每一轮训练中各客户端模型性能,并以循环知识蒸馏的形式积累公共知识,在第2阶段通过批标准化层的统计信息度量各站点之间的相似性并聚合得到各站点教师模型后进行知识蒸馏,可以有效地在无需中心站点的条件下进行所有中心的公共知识积累及自适应个性化,并且有效利用其他站点模型的有效信息;3)经过在眼底视杯(optic cup,OC)、视盘(optic disc,OD)和视网膜中心凹无血管区(foveal avascular zone,FAZ)分割任务上的定量和定性实验,所提方法相比其他联邦学习方法取得了更好的性能,所有中心都能从联邦中获益,并且取得了接近于使用全监督标签进行集中式训练的性能表现。1 本文方法1.1 问题表述在个性化联邦中,假设给定N个不同医疗站点/客户端C1,C2,⋯,CN,并且用D1,D2,⋯,DN表示每个站点的数据,划分为训练集Ditr和测试集Dite(验证集从训练集中按一定比例划分),则Di=xi,j,yi,jj=1ni=Ditr⋃Dite,其中(xi,j,yi,j)表示样本及对应的稀疏标签,且总样本量ni=nitr+nite。各个站点数据间存在一定的分布差异/领域偏移,即PDi≠PDj。在pFedWSD中将为每个站点训练一个个性化模型,表示为ϕii=1N,则总的目标为在数据无泄露前提下聚合所有中心数据的知识以获得在每个中心表现良好的个性化模型ϕi,表示为minϕkk=1N1N∑i=1N1nitr∑j=1nitrLϕixi,jtr, yi,jtr (1)式中,L为损失函数。1.2 个性化联邦流程受Chen等人(2023)所提出的MetaFed(federated learning among federations with cyclic knowledge distillation for personalized healthcare)的启发, pFedWSD同样采用循环知识蒸馏的基本框架,而无需额外的中心服务器,在不损害数据隐私和安全的前提下实现多中心通用知识的积累并保留个性化信息,其主要框架展示在图2(a)中。不失一般性,本文假设有5个中心参与联邦学习,整个训练过程主要包含两个阶段,不确定度感知的动态知识积累阶段(黄色箭头表示)和分布相似度感知的知识蒸馏个性化阶段(蓝色箭头表示)。10.11834/jig.230295送排稿.F002图2本文弱监督个性化联邦学习框架图Fig.2Overview of the proposed pFedWSD pipeline((a) the personalized FL framework; (b) the weakly-supervised learning approach)在通用知识积累阶段,所提出框架采用循环知识蒸馏的训练范式以完成模型对于公共知识的积累,即按一定的顺序将多个中心排序并将上一个中心作为下一个中心的教师模型。不同于MetaFed的固定顺序蒸馏,为了更有效地完成知识的蒸馏并加速训练,各中心的模型应按照当前训练轮次的性能进行排序,即性能最高的模型作为性能次优模型的教师,以此类推,并在每个联邦轮次中进行动态调整,以达到各中心均衡提升的目的。pFedWSD采用在各终端验证集上的分割性能(Dice系数)及模型不确定度进行模型性能排序,该综合评价指标既考虑了模型的绝对分割精度,又将鲁棒性/方差考虑在内,可以更全面地排序当前轮次各站点的模型性能。具体为Pfi=Dci+λu1Ui (2)式中,Dci和Ui分别表示第i个站点当前训练轮次的Dice系数和不确定度,λu为权衡参数。受贝叶斯网络中不确定度估计的启发,本文方法使用蒙特卡洛丢弃法来估计不确定度(Kendall和Gal,2017)。具体而言,在不同的加性高斯噪声和随机丢弃下,每幅验证图像通过模型随机地向前传递T次。对于输入样本的每个像素,可以获取一组softmax概率向量ptt=1T,选择预测的熵作为度量来近似不确定度,从而可以表述为μc=1T∑tptc (3)u=-∑cμclog μc (4)式中,ptc为第t次预测中第c类的概率。由此,每个样本的不确定度图UI为{u}∈RH×W。从而,每个中心模型的不确定度以每个站点的验证样本的平均不确定度来衡量。具体为Ui=∑1NvaUI/H×W×Nva (5)式中,Nva为验证样本的个数,H和W分别表示图像的高和宽。经过观察发现,不同站点模型的性能与样本的平均不确定度之间存在一定的负向关联。为了直观呈现这一观察结果,图3展示了不同模型对同一样本的预测结果,并提供了相应的不确定度图样例。10.11834/jig.230295送排稿.F003图3不同模型对同一样本的预测结果及不确定度图样例Fig.3Examples of segmentation predictions and uncertainty maps from different models for the same samples((a)original images; (b)predictions; (c)uncertainty maps; (d)ground truth)在确定循环蒸馏排序之后,本文框架使用KL(Kullback-Leibler)散度损失来拉近教师与学生模型预测级别之间的距离,实现公共知识的传递。具体为Ldist=KLϕix, ϕi-1x (6)式中,ϕi为当前站点(学生)模型,而ϕi-1为上一站点(教师)模型,x为当前站点的样本。因此,训练每个站点模型的总目标函数为Ltotali=1nitr∑x,y∈DitrLsegϕi;x, y+λdLdistϕi, ϕi-1;x (7)式中,λd为权衡知识蒸馏损失和当前数据监督损失之间的权重系数,Lseg为弱监督分割损失,其具体形式将在1.3节展开。需要注意的是,在第1阶段的每一轮训练中,对每个站点模型的验证性能与教师模型的验证性能进行对比,如教师模型在验证集上的Dice系数高于学生模型的Dice系数,则模型使用式(7)进行训练,否则仅利用本地数据进行训练,即式(7)中λd设置为0。在这个阶段中,为了保持各站点模型对其数据分布的个性化,本文方法沿用了FedBN(Li等,2021)保留每个客户端模型批标准化(BN)层的操作。经过一定的训练轮数,可以获得一个带有各站点公共知识的通用模型ϕ。在第2阶段,即分布相似度感知的个性化阶段,首先将ϕ分发给各站点,并结合各站点BN层初始化各站点模型。第2阶段仍然采用循环蒸馏的方式进行本地模型的迭代训练。为了更好地实现个性化,并从相似站点模型学习获取有用知识,第2阶段各站点的教师模型为每个训练轮次中各站点模型的相似度加权聚合。具体而言,每个客户端基于本地数据计算BN层的统计量并广播,而后各终端计算得到相似度权重矩阵M,以指导每轮训练中各客户端教师模型的加权聚合。在每轮训练中,各个客户端将模型进行广播,并使用M聚合知识蒸馏教师模型。在实际设置中,为了稳定和提升计算效率,仅使用第1阶段中获得的各站点BN层参数计算M,并在第2阶段的训练中固定M。M为一个N×N矩阵,矩阵元素mij∈0,1表示站点i与站点j之间的相似度,其值越大,相似度越高。需要注意的是,各站点教师模型的BN层使用本地上一轮更新模型的BN层参数,而其他层参数为ψit+1=∑j=1Nmijψit^ (8)式中,ψit^表示第t轮训练更新后的非BN层参数。对于相似度权重,需要首先获取模型BN层的统计量,使用μ表示均值,σ表示方差,则第i个客户端模型的统计量可以表示为μi,σi=μi,1,σi,1,μi,2,σi,2,⋯,μi,L,σi,L (9)式中,L代表网络的层数。受Lu等人(2022)的启发,使用推土机距离(Wasserstein distance,WD)的近似值来度量两个高斯分布之间的距离,具体为W22Nμi,l,σi,l,Nμj,l,σj,l= μi,l-μj,l2+ri,l-rj,l22 (10)假设每个通道都是相互独立的,则σj,l为对角矩阵,σj,l=diag(ri,l)。因此,两个客户端i,j之间的距离可以表示为di,j=∑l=1LW2Nμi,l, σi,l, Nμj,l, σj,l=∑l=1Lμi,l-μj,l2+ri,l-rj,l221/2 (11)di,j值越大代表分布差异越大,则相似度权重mij应越小。因此将m˜ij设置为di,j的倒数,即m˜ij=1/di,j,j≠i,将m˜ij进行归一化,可得m^i,j=m˜i,j∑j=1,j≠iNm˜i,j, j≠i (12)使用滑动平均方式更新ψt+1,并将mi,i设置为常数α,则mi,j=αi=j(1-α)×m^i, ji≠j (13)由此,可得到各个终端的教师模型的相似度聚合权重。在第2阶段,每个站点模型延续式(7)进行训练,教师模型将在当前中心的验证数据上得到的Dice系数作为性能指标,当其值低于本地模型的性能指标,则λd设置为0,反之,教师模型性能越高,则λd越大,式中λ0为超参数,Dcteva和Dcstva分别表示教师模型和学生模型在验证集上的Dice系数。经过若干轮次训练,直至各客户端模型收敛。λd=λ0×10min1,Dcteva-Dcstva×5-1 (14)1.3 弱监督训练范式图像的语义分割本质为像素级别的分类任务。最经典的弱监督分割方法将传统交叉熵损失函数修改为部分交叉熵函数(partial cross entropy,pCE)(Tang等,2018),也即仅在标注区域的像素点进行交叉熵损失计算。然而仅仅在稀疏标注区域上应用pCE通常无法在靠近语义边界的地方提供足够的监督信号,因而在没有监督的地方会导致差的预测结果。一种较为可行的思路是通过特定方式从已标注的监督区域向外扩展,形成未标注区域的伪标注,从而为模型训练提供更充足的监督信号(Obukhov等,2019;任冬伟 等,2022)。属于同一物体或对象的像素在不同的特征语义空间上应共享相似的模式,受树滤波器的启发(Song等,2019;Liang等,2022),本文根据其结构保持的特性来建立这种成对相似性,而成对相似性与模型预测则用于为未标记的像素生成软伪标签,通过不断在线训练与修正,实现模型预测与伪标注的逐渐改进。图2(b)中展示了pFedWSD中采用的弱监督训练范式,主要由一个对标注像素的分割分支和一个对未标注像素的辅助分支构成。分割分支将稀疏标注Y作为监督信号并沿用pCE损失进行监督,辅助分支则从原始图像I与分割模型中选定层的特征F得到一对亲和性矩阵Alo和Ahi,用于精细化网络预测P并生成软伪标注Y˜,生成的伪标注用于监督未标注的像素区域。此外,为了进一步修正模型对于目标边缘的预测精度,本框架采用了Obukhov等人(2019)提出的门控条件随机场损失(gated conditional random field loss,LgCRF)作为正则化项,用于抑制单纯使用树能量损失Ltree可能会出现的目标区域伪标注过度膨胀或坍缩的情况,总体目标函数可以表示为Lseg=LpCE+λtLtree+λgLgCRF (15)式中,λt和λg为平衡各弱监督分割损失函数的权重参数。以下给出树能量损失Ltree的具体计算过程,首先是树亲和度计算。一幅图像可以用无向图G=V,E来表示,V表示所有像素形成的顶点集,而相邻点之间的边组成边集E,在本文中采用四方位联通建图,即仅将每个顶点的上下左右相邻像素连接成边。给定相邻像素i和j,它们之间的低阶权重和高阶权重分别定义为ωi,jlo=ωj,ilo=I(i)-I(j)2 (16)ωi,jhi=ωj,ihi=F(i)-F(j)2 (17)式中,I(i)∈R3×h×w和F(i)∈R256×h×w分别为原始图像像素值和特征图值,h和w代表图像的高和宽。F(i)由分割网络选定层的特征经过1×1卷积改变通道数得到。得到权重之后,在保证图连通性前提下依次从E中删除权重最大的边以构建最小生成树(minimum spanning tree,MST)。使用Borůvka(Gallager等,1983)算法生成高阶和低阶MST,与Song等人(2019)方法相似,MST的两个顶点之间的距离可以通过它们相连边的权重求和来计算。顶点之间最短路径的距离,记为超边S,构成了MST的距离图,具体为Di,j*=Dj,i*=∑(k,m)∈Si,j*ωk,m* (18)式中,i,j,k和m为顶点索引,*∈lo,hi。为了捕捉顶点间的长程关系,将距离图投射到正亲和度矩阵,即Alo=exp-Dlo/σ (19)Ahi=exp-Dhi (20)式中,σ为用于调节强度信息的超参数。给定一幅图像,低阶亲和度矩阵是静态的而高阶亲和度矩阵是动态的,两个矩阵提取特征层面的成对关系,可以训练网络获取互补知识。由于低阶亲和矩阵Alo包含边界信息,而高阶亲和矩阵Ahi保持语义一致性,通过级联滤波器模块,将模型预测图精细化后的结果作为软伪标签Y˜Y˜=FFP, Alo, Ahi (21)式中,P为softmax层输出的概率值图。通过与低阶、高阶亲和度矩阵相乘并经过滤波器F,其运算式为FP, A*=1zi∑∀j∈ΩAi,j*Pj (22)式中,Ω为所有像素集合,而zi=∑jAi,j为归一化项。获得伪标注之后,树能量损失可以表示为Ltree=δ(P, Y˜) (23)式中,δ为标签分配函数,用于测量预测概率P和伪标签Y˜之间的距离,此处本文框架使用L1范数损失。因此,最终树能量损失可以表示为Ltree=-1ΩU∑∀i∈ΩUPi-Y˜i (24)式中,ΩU代表图像未标注区域像素,带标注区域通过监督信号由部分交叉熵损失进行优化,而无标注区域由树能量损失进行优化,从而使每个站点模型在弱监督设定下实现在线自训练。此外,值得注意的是,点、涂鸦和块标注均可以作为像素级别的稀疏类别监督信号,然而边界框作为描述目标边界的矩形框,需要经过一定的预处理转化才可作为类别监督信号。根据所分割目标的形状、尺寸等先验,可以将其转换为点、涂鸦、块或者三者的混合。以本文使用数据集为例,如图4所示,由于已知OD、OC为两种类椭圆结构,因而首先计算获得两种目标区域边界框的最大内接椭圆,而后对内椭圆中间挖去一个小圆区域并对两椭圆环形区域应用骨架化操作,从而获得两个目标区域的骨架/涂鸦稀疏标注,同时对OD边界框外的背景部分进行骨架化操作得到背景类的稀疏标注,从而将边界框标注转换为类涂鸦标注;对于FAZ,由于其形状较不规则,将边界框四边往外扩张若干像素(本文具体设置为10像素),扩张后的矩形框的外部像素设置为背景类,同时,将目标区域边界框的长与宽分别缩小为原本的1/3得到缩小框,将缩小框内的像素设置为目标类,由此可将边界框转换为块标注。对于其他复杂结构,同样可以根据形状、尺寸等先验,进行一定的预处理将框标注转换为稀疏像素标注。10.11834/jig.230295送排稿.F004图4对采用边界框标注的数据的标签预处理流程Fig.4Label preprocessing process for data annotated with bounding boxes2 实验结果与讨论2.1 实验数据集及预处理依据实验和验证需要,本文利用多个公开医学影像分割数据集,使用自动化方法生成其对应稀疏标注(同一站点使用同一种标注形式,包含点、涂鸦、边界框和块4种形式),构建两个分别用于眼底OD/OC分割及视网膜FAZ分割的多领域分布弱监督分割数据集。其中,眼底OD/OC分割数据集分别使用Drishti-GS(retinal image dataset for optic nerve head segmentatio)(Sivaswamy等,2014)、RIM-ONE-r(open retinal image database for optic nerve evaluation)(Fumero等,2011)、REFUGE-train(retinal fundus glaucoma challenge)、REFUGE-val(Orlando等,2020)及Gamma(Wu等,2023)数据集充当站点A—站点E的数据,各站点标注形式分别为涂鸦、涂鸦(另一种风格)、边界框、点、块,以下统称为Fed-ODOC数据集;对于FAZ分割任务,本文使用了FAZID(foveal avascular zone image database)(Agarwal等,2020)、OCTA500-3M、OCTA500-6M(Li等,2020b)、OCTA-25K-IQA-SEG(Wang等,2021)和ROSE(retinal OCT-angiography vessel segmentation dataset)(Ma等,2021)眼底相干光层析血管图像(optical coherence tomography angiography,OCTA)来充当各站点数据,其标注形式分别为涂鸦、点、块、边界框、涂鸦(另一种风格),以下称为Fed-FAZ数据集。各站点数据集均遵循原有数据集的训练集与测试集划分,并在训练集中按一定比例进行训练集和验证集的划分。各站点图像样例见图1(a),图中同时列出了训练及测试样本数。对于Fed-ODOC数据集,依据原始眼底照的掩码标注截取视杯视盘区域并统一调整大小为384 × 384像素;而Fed-FAZ数据集则维持原图像范围并统一调整大小为256 × 256像素。数据预处理包括将所有图像像素值归一化到0至1之间(数据精度使用float32),数据增强包括随机水平与垂直翻转图像,随机旋转一定角度(范围为-45°~45°)。接下来说明各稀疏标注形式的自动化生成方法。给定一个全监督掩膜标注,如图1(b)最后一列所示,可以通过形态学腐蚀变换对每一类区域进行处理得到块标注,通过scikit-image库中的骨架化操作得到涂鸦标注,通过对取得的骨架做局部形变变换并随机擦除得到另一种风格的涂鸦标注,通过计算目标区域掩膜的外接矩形得到边界框标注,通过计算目标区域的内接矩形四边中点作为目标类点标注,通过扩展边界框并取四边中点作为背景类点标注。2.2 实验环境与参数设置实验环境为一台装配8块NVIDIA GeForce RTX 3090显卡,系统为CentOS 7,CPU型号为Intel Xeon Gold 6242R的服务器。编程语言为Python,深度学习框架为PyTorch,本文框架在联邦学习框架Flower的基础上进行开发。在每个站点使用原版U-Net作为分割模型架构,网络的通道数从上到下分别为16、32、64、128和256,并且在树能量损失的计算中选用解码器第2层特征进行级联滤波。模型的初始化方式为随机初始化,优化器选用默认参数下的AdamW优化器,初始学习率为10-2,并随着迭代步数进行更新。lr=lr0×1-eNe0.9 (25)式中,lr表示当前学习率,lr0表示初始学习率,e为当前迭代步数,Ne为总迭代步数,其数值为3万。在超参数选择方面,根据内部探究性实验经验将λu(式(2)),λd(式(7)),α(式(13)),λ0(式(14))均设置为0.5,将式(15)中的λt和λg均设置为0.1。所设计的联邦方法中第1阶段的训练轮数为50,第2阶段轮数为1 000。所有对比方法均在相同的实验环境中部署并采用相同的学习率、优化器、优化策略及模型架构,以达到尽可能公平的对比。2.3 评判指标本文着眼于医学影像分割任务,因而选取了Dice相似性系数(Dice similarity coefficient,DSC)与95%豪斯多夫距离(Hausdorff distance,HD95),以及精确率(precision,Pre)、召回率(recall,Rec)作为主要的衡量指标,其中Dice系数表示预测结果与真实标签图的重叠程度,其值在[0,1]之间。而HD表明了预测结果与真实标签图的最大不匹配程度。Dice的数学表达式为Dice=2Y⋂PY+P (26)HD的数学表达式为dpy=maxp∈Pminy∈Y(p, y)dyp=maxy∈Yminp∈P(y, p) (27)HD=maxdpy, dyp (28)式中,P与Y分别表示预测结果与真实标签,p、y为预测结果与真实标签上的像素点,HD95与HD类似,是基于计算P与Y中边界点之间距离的第95百分位数,以此消除小异常值子集的影响。较大的 Dice系数和较小的 HD 95代表更好的分割结果。2.4 与其他联邦学习算法对比将本文方法与几个代表性联邦学习框架进行性能比较,包括常用的传统中心化联邦方法(如FedAvg与FedProx)以及较先进的个性化联邦方法(如FT、FedBN、FedAP(federated learning with adaptive batchnorm for personalized healthcare)、FedRep、FedALA(adaptive local aggregation for personalized federated learning)等)。在实现方面,由于这些方法最初是为图像分类任务设计,本文实验尽量保持它们原本的设计原则并使其适应弱监督图像分割任务。FedAvg依据各站点样本数量对各局部模型参数进行加权平均,在服务器端获得单个全局模型(McMahan等,2017);FedProx通过在每次迭代中强制执行模型参数之间的平衡,以确保各个站点训练的模型具有相似的参数值,从而减少数据偏差,是FedAvg的泛化形式(Li等,2020c)。个性化联邦方法中,FT为带有站点微调的FedAvg;FedBN和FedRep分别将所有的BN层和分割头(最后一个卷积层)作为模型的个性化部分;FedAP通过BN层统计各站点相似度并聚合,同时保留各站点BN层的个性化参数;MetaFed基于静态(固定顺序)环形知识蒸馏实现各站点的个性化;FedALA(adaptive local aggregation for personalized federated learning)(Zhang等,2023)通过可学习的自适应局部聚合(adaptive local aggregation,ALA)模块,针对每个客户端上的局部目标自适应地聚合全局模型和局部模型,在每次迭代中训练之前初始化局部模型。在对比联邦方法中,各站点均使用原始稀疏标注进行直接监督(边界框标注站点与本文方法同样经过预处理为可直接监督的稀疏标注形式),而未针对弱监督进行额外的范式设计。同时本文还与基线设定(弱监督下的本地训练)进行比较,在该设定下各站点使用各自的数据及对应的稀疏标注训练本地分割模型。类似地,本文进行了全监督下的本地训练、弱监督下的集中训练及全监督下的集中训练,其中,集中训练指不考虑数据的隐私性及安全性,将各站点数据集中于一台中心服务器上合并,而后进行直接训练。表1和表2显示了Fed-ODOC数据集的量化结果。首先,通过表1和表2的最后一列总计指标可以看到,相对于本地训练而言,所有联邦学习方法都可以有效提升各站点模型在各自测试数据中的整体性能。其中站点D通过加入联邦,性能获得了显著提升,其主要原因是站点D使用了点标注这一种监督信号最弱的标注形式,加入联邦使其可以从其他站点获取有效知识。站点F同样在加入联邦之后获得了较大的性能提升,其原因在于该站点数据/患者的分布差异较大,仅通过单一站点的数据难以训练一个强大、泛化性能强的深度分割模型。从方法类别上来看,个性化联邦方法由于可以个性化模型以应对各个站点分布各异的数据,因而性能总体优于传统的中心化联邦框架。值得注意的是,本文个性化联邦框架取得了最好的性能,每个站点均能在本文联邦框架中获益,大多数站点取得了所有联邦方法中最优或者次优的性能,并且是唯一在视杯视盘分割的综合性能中取得Dice系数高于90%的方法,显著优于集中式训练(弱监督)的性能,并取得与本地训练(全监督)、集中式训练(全监督)最接近的性能。这意味着,每个站点在保护隐私的前提下,通过多站点的数据合作可以训练得到一个性能强大的模型,并且各站点可以采用不同的稀疏标注方式,极大程度上节约了标注成本。10.11834/jig.230295送排稿.T001表1不同联邦学习算法及不同本地训练、集中训练设定下的算法在视杯视盘分割任务上的Dice系数对比Table 1Dice scores of OD/OC segmentation from different federated learning approaches, as well as under various localized and centralized training conditions /%方 法视杯分割视盘分割总计ABCDE平均值ABCDE平均值FedAvg(McMahan等,2017)92.5883.9094.6793.3688.9290.6883.1669.9185.3582.8086.7681.6086.14FedProx(Li等,2020c)95.1982.1495.0388.2891.0690.3482.1870.1484.6481.3387.1981.1085.72FT(Collins等,2022)95.9791.0994.8393.3490.1093.0685.0280.7682.5182.9586.8883.6288.34FedBN(Li等,2021)95.8892.6694.8095.0690.7293.8284.5482.0983.7986.4879.3883.2588.54FedAP(Lu等,2022)95.8192.2495.4595.1790.7393.8883.9779.8983.5586.7883.4783.5388.71FedRep(Collins等,2021)95.2888.1092.6892.3488.7591.4382.4776.2282.1483.0481.2981.0386.23MetaFed(Chen等,2023)95.8791.9789.7893.5186.4491.5183.6981.8684.7285.0482.2483.5187.51FedALA(Zhang等,2023)95.0287.8694.4292.0494.1592.7083.8576.2288.0086.0289.3584.6988.69本文95.8893.9694.5594.8393.8594.6186.3884.2186.2487.6485.8686.1590.38本地训练(弱监督)94.8390.6589.3176.3886.1187.4584.5079.3184.1177.0281.3881.2684.36集中式训练(弱监督)95.4591.4195.4591.9291.2193.0984.2578.9484.6385.6887.0884.1288.60本地训练(全监督)96.2896.2195.2195.5694.3395.5287.9481.7287.2288.6086.5386.4090.96集中式训练(全监督)96.9794.2896.0696.2095.5295.8187.4082.9088.3089.1789.2587.4091.61注:加粗字体表示各方法各列最优结果,下划线字体表示各方法各列次优结果。10.11834/jig.230295送排稿.T002表2不同联邦学习算法及不同本地训练、集中训练设定下的算法在视杯视盘分割任务上的豪斯多夫距离对比Table 2Hausdorff distances of OD/OC segmentation from different federated learning approaches, as well as under various localized and centralized training conditions方 法视杯分割视盘分割总计ABCDE平均值ABCDE平均值FedAvg(McMahan等,2017)13.1724.109.2820.8024.5918.3918.5623.9811.1922.4216.8018.5918.49FedProx(Li等,2020c)10.0722.268.5140.1220.3620.2619.9622.2411.6831.6014.5920.0220.14FT(Collins等,2022)8.3815.7210.6416.0220.3614.2214.1712.8213.3613.9116.1014.0714.15FedBN(Li等,2021)8.7818.0619.5410.7217.6814.9615.7012.0817.249.9611.9613.3914.17FedAP(Lu等,2022)9.1921.598.965.7716.8012.4615.6914.6812.667.0514.4912.9112.69FedRep(Collins等,2021)17.3921.5923.5654.1031.0029.5327.6118.9017.8950.6017.7126.5428.03MetaFed(Chen等,2023)18.4127.91114.2231.5319.2142.2618.9317.4521.638.4615.2216.3429.30FedALA(Zhang等,2023)17.5116.769.5746.0511.0220.1819.7614.108.8916.297.2413.2616.72本文8.279.299.046.2810.528.6813.0411.3110.407.0511.0510.579.63本地训练(弱监督)26.9144.0574.35151.7119.5363.3116.5135.9824.9319.2716.4522.6242.97集中式训练(弱监督)9.3212.257.2911.9714.5211.0715.5513.7910.739.8312.1512.4111.74本地训练(全监督)9.276.267.555.3811.077.9113.3412.629.186.3011.5110.599.25集中式训练(全监督)6.408.956.134.628.927.0012.3111.288.475.748.489.268.13注:加粗字体表示各方法各列最优结果,下划线字体表示各方法各列次优结果。在Fed-FAZ上的结果进一步验证了所提方法带来的提升,如表3所示,Fed-FAZ数据更具挑战性,存在部分站点数据较少的问题(如站点E)。此外,由于各站点存在不同的图像质量问题和分布差异,导致在集中训练以及部分联邦学习方法中只有小幅度提升甚至存在性能下降,各站点间存在负向干扰。相较于本地训练,并非所有的联邦方法都能为各站点带来性能提升,例如FedBN、FedAP与MetaFed。可以看出,简单地将部分参数个性化并不能为各站点模型带来显著的正向效果,模型的共享部分仍容易受到其他站点由于分布差异、质量差异等因素带来的负面干扰,同时静态的环形知识蒸馏也容易受到不相似站点模型充当教师模型所带来的无效知识影响。本文方法由于经过公共知识积累阶段以及相似度聚合知识蒸馏阶段,可以凝练积累各站点数据的相似且有效的知识,并在第2阶段为相似站点赋予更高权重,从而蒸馏得到有益知识,为差异站点赋予小权重从而减轻干扰。同样地,本文方法可以提供与本地训练(全监督)及集中式训练(全监督)相竞争的性能。10.11834/jig.230295送排稿.T003表3不同联邦学习算法及不同本地训练、集中训练设定下的算法在中心凹无血管区分割任务上的性能对比Table 3Performance comparison of different federated learning approaches, as well as under various localized and centralized training conditions on FAZ segmentation方 法Dice系数/%↑95%豪斯多夫距离(HD95)↓ABCDE平均值ABCDE平均值FedAvg(McMahan等,2017)76.5690.6577.6488.8586.5584.055.858.2822.7312.4521.5914.18FedProx(Li等,2020c)73.8789.7077.4489.1583.7882.797.388.6323.0712.1822.6214.78FT(Collins等,2022)83.1891.9678.5888.7588.1086.1110.118.8620.8411.5320.1714.30FedBN(Li等,2021)62.2890.1160.9387.8753.0570.8451.039.4260.1411.8420.3130.54FedAP(Lu等,2022)62.2387.8272.6790.3666.0075.8218.507.7114.518.3018.6013.52FedRep(Collins等,2021)78.5591.6979.2991.0486.8385.4816.079.1415.247.6419.9213.60MetaFed(Chen等,2023)70.9986.2274.1588.7774.6278.959.1810.3724.6113.9139.6119.54FedALA(Zhang等,2023)77.5790.4382.3391.9790.4886.569.477.008.917.346.807.90本文87.9397.2490.9794.2595.2293.125.434.468.065.634.205.56本地训练(弱监督)73.7491.9079.0385.7879.8982.0730.9442.4920.8110.8772.0835.44集中式训练(弱监督)74.9389.2476.6489.2586.5083.318.387.5410.468.878.288.70本地训练(全监督)90.8897.7589.2295.1495.1193.625.313.367.844.804.545.17集中式训练(全监督)90.9397.2391.4994.8895.3893.984.573.666.864.822.994.58注:加粗字体表示各方法各列最优结果,下划线字体表示各方法各列次优结果。图5展示了本文方法与其他联邦方法的分割结果可视化对比。其中,CT代表汇总集中数据训练,weak指数据使用稀疏标签,full指数据使用全监督标签,图中数值表示Dice系数(%)。得益于所提出的个性化方法及更优的弱监督损失,本文方法在目标区域的边缘精确度、拓扑结构保持以及离群值抑制等方面都取得了更好的性能表现。10.11834/jig.230295送排稿.F005图5分割结果对比Fig.5Visualization of representative segmentation results from pFedWSD and other federated learning approach ((a)original images;(b)FedAvg;(c)FT;(d)FedProx;(e)FedBN;(f)FedAP;(g)FedRep;(h)ours;(i)CT(weak);(j)CT(full);(k)ground truth)2.5 消融实验为了证明所提出的弱监督损失以及联邦范式的有效性,本文在Fed-ODOC数据集上进行了5项关键组件的消融实验,分别是弱监督损失中的树能量损失及门控条件随机场损失,即分别对两项弱监督损失、pFedWSD中的两个阶段、pFedWSD第2阶段中的相似度感知权重(替换为FedAvg中的样本权重系数)进行消融,结果如表4所示。可以看出,任何一个损失项的消除均导致一定程度的分割性能下降;导致模型在预测中边缘精确度下降或离散预测区域增加。随后进行pFedWSD框架的两个阶段——不确定度感知的动态循环公共知识积累阶段(无公共知识积累阶段)和分布相似度感知个性化阶段(无个性化阶段)的消融。可以看出,随着公共知识积累阶段的去除,各站点综合性能大幅下降,表明对各站点知识进行动态循环蒸馏可以使得各站点模型保留各中心训练数据所得到的有效知识,并摒弃冗余知识,对最终模型性能有着重要意义。个性化阶段的消除造成了较小程度的性能下降,表明即使仅使用公共知识积累阶段的模型,也可以取得较好的分割结果。即便如此,个性化阶段仍然为各站点模型的综合性能在Dice方面提升了约2.2%。此外,将个性化阶段的教师模型采用的相似度感知聚合权重消除,替换为FedAvg中基于样本占比的权重,各站点模型无法高效地从教师模型中学习相似站点的有效知识,并且容易受到不相似站点带来的负面影响,因此性能存在较大下降。10.11834/jig.230295送排稿.T004表4对本文框架pFedWSD重要组件的消融实验Table 4Ablation experiments on the key components of the pFedWSD framework方法Dice系数/%豪斯多夫距离召回率/%精确率/%无树能量损失88.4712.6789.8189.08无门控条件随机场损失88.4111.8490.5088.58无公共知识积累阶段85.4533.4288.3985.84无相似度感知87.6715.4989.7787.75无个性化阶段88.1911.4989.7389.26本文90.389.6391.2091.34注:加粗字体表示各列最优结果,下划线字体表示各列次优结果。本文还通过对各站点依次消融来分析在pFedWSD框架下各站点数据对整个联邦的贡献程度。同时,随着各站点的依次消融,可以分析各站点之间数据的相似程度及相互之间的影响。在pFedWSD框架下,无站点A、无站点B、无站点C、无站点D、无站点E与全站点设置下的各站点综合平均Dice系数依次为88.17%、88.63%、88.19%、87.98%、89.14%和90.38%,豪斯多夫距离依次为13.18、12.59、11.562、12.42、11.74和9.63。从图6的详细结果展示中可以看出,各站点均在全站点设定中取得最优性能,表明了尽管各中心存在数据分布差异,但所有站点均能从尽可能多的联邦站点中学习到更好的个性化模型。对于站点A而言,站点D退出时取得了最低的性能,表明两中心间数据相似度较高,能有效相互促进性能;同样地,对于站点D,站点A的退出导致了最大的性能下降。类似地,可以看出站点E与其他站点数据分布差距较大,随着站点E的退出,其余多数站点取得了在4个站点联邦条件下最优或次优的性能。实际中,站点E可能要提供更多的样本或更高质量的标注形式以提升该站点对联邦的贡献程度。与之相反,站点D的退出导致其余站点的综合性能较大跌幅,这可能是因为站点D贡献着所有中心中最大的样本量,其他的中心应允许其使用更为稀疏(宽松)、高效的标注方式。10.11834/jig.230295送排稿.F006图6在pFedWSD联邦框架中对各站点的消融实验Fig.6Ablation experiments on each site in the pFedWSD framework((a)site A;(b)site B;(c)site C;(d)site D;(e)site E)3 结 论针对医学影像全监督分割标签标注成本高、联邦学习中可能出现的数据分布差异以及标签异构等问题,本文提出了一种弱监督个性化联邦分割方法,通过循环知识蒸馏为每个中心训练个性化模型,主要包含两个阶段:不确定度感知的动态循环公共知识积累阶段和分布相似度感知的个性化阶段。通过在视网膜FAZ及眼底OD和OC两个分割任务上的大量定性和定量对比实验,所提出的pFedWSD在与其他中心式联邦学习和先进的个性化联邦学习方法的对比中取得了更优的性能,可以提取各站点的有效公共信息并进行自适应个性化,在各站点均是不同形式弱监督稀疏标签的设定下,取得了接近于使用全监督标签进行本地训练甚至集中训练的性能。但由于在两个阶段中均需要进行多个教师模型的计算与通讯,本文方法存在通讯和计算开销上的短板。如何降低上述开销以及引入例如提示学习等通用大模型训练范式,将数据分布与标注稀疏程度作为模型的额外条件输入,同时促进模型的泛化性能和针对具体数据分布的自适应个性化性能是今后的主要研究方向。