网刊加载中。。。

论文引用格式：Yang H， Gu C L， Hu H M， Zhang J， Li K and He L. 2023. Cephalometric landmark keypoints localization based on convolution-enhanced Transformer. Journal of Image and Graphics， 28（11）：3590-3601（引用格式:杨恒，顾晨亮，胡厚民，张劲，李康，何凌. 2023. 嵌入卷积增强型Transformer的头影解剖关键点检测. 中国图象图形学报， 28（11）：3590-3601）［0　引言头影测量分析广泛应用于正畸诊断、正颌矫治、整形手术规划以及治疗评估中。从侧位片标注牙齿、骨骼以及软组织结构的标志点是量化头影临床参数的一个重要前提，即位于侧位颅骨X射线图像上经过严格定义的解剖关键点通过相互关联，对特定距离和角度进行线性测量。然而，由于设备成像质量的限制以及解剖结构的个体差异，难以精确可靠地定位颅骨侧位图像上的标志点（任家豪等，2023）；此外，传统依赖于医生手动标注的方式不仅非常烦琐与耗时，而且主观性的差异导致不同经验的临床专家给出不一致的注释位置（敖悦源，2022）。因此，建立一个准确快速且稳健的头部关键点识别系统将有助于临床医生进行诊断治疗。2014—2015年，IEEE国际生物医学成像研讨会（International Symposium on Biomedical Imaging，ISBI）上，该研究受到大量关注，并收获了显著的成果。然而，即便是报告结果中的最佳精度，也仅有72.74%的关键点落在临床可接受的2 mm精度范围内（Wang等，2015），远未达到临床实践的既定目标。近年来，深度学习方法极大地推动了头影关键点检测的发展，与早期基于启发式特征（Grau等，2001）、模板匹配（Kaur和Singh，2015）和随机森林（Lindner和Cootes，2015）等传统图像处理方法相比，卷积神经网络（convolutional neural network，CNN）的应用使得学者能够更加准确和稳健地识别解剖点（Zhong等，2019）。基于CNN的模型能够更好地理解局部信息并获取不同层次的语义特征，因此在解剖关键点检测领域已成为主流方法。例如，Lee等人（2017）训练了38个独立的CNN网络来回归头影图像中19个解剖点的坐标变量，但这无疑增加了系统的复杂性和时间消耗。Payer等人（2019）提出了一种空间配置网络（spatial configuration net，SCN），其利用一个组件生成局部候选预测，另一个组件结合关键点的空间配置来获得细化坐标，最终获得了73.33%的2 mm内准确率。Chen等人（2019）构建了一个注意力特征金字塔融合模块（attentive feature pyramid fusion，AFPF），并将预训练的VGG-19（Visual Geometry Group）网络作为编码器，通过融合不同层次的特征以便在AFPF模块中获得高分辨率语义增强后的特征信息，最后将偏移图与热图组合，并进行逐像素投票来获得概率值最大的解剖点位置，在两个测试集中分别获得1.17 mm和1.48 mm的平均误差。Gilmour和Ray（2020）以从粗到细的方式在多尺度图像块中回归每个地标的相对位移，并获得了令人鼓舞的86.72%的2 mm内精度，但与解剖标志点相同的模型数量导致了极大的内存开销。Li等人（2020）提出了一种结合局部图像信息与全局形状特征的拓扑学深度图神经网络，从输入图像中直接回归标志点位置，尽管避免了热图检测产生的潜在错误，但仍受限于纹理细节丢失的问题。然而，现有方法存在一些局限性和弊端。首先，X射线图像的尺寸相对较大，直接在原始图像上进行计算是不切实际的。尽管已有一些两阶段框架（Zhong等，2019；Zeng等，2021；He等，2021）的方法，其中全局阶段生成候选区域，而细化阶段在裁剪的高分辨率补片中定位地标，但这无疑会增加过程的复杂性，因为每个关键点都需要再次进行训练。此外，解剖标志点的特殊性对研究人员提出了挑战，例如：尺寸通常较小，拥有特殊的空间位置信息，并且不同位置的结构特征可能共享相似的弧度、大小、密度以及周围组织信息，这些信息难以区分。基于 CNN 的模型通过应用下采样来提取深度特征以促进对全局信息的建模，但可能会遭受空间信息丢失的问题。因此，建立一个具有全局上下文建模和更好的局部空间特征表示的端到端模型来解决这些问题是本文的动机。通过建模序列的长期依赖性，Transformer能够捕获任意位置之间的相关性，并在各种自然语言处理任务中发挥重要的作用，其背后的核心思想是利用多头自注意力机制（multi-head self-attention， MHSA）对序列标记中的远程依赖关系进行建模，这可以解释为学习注意力权重分布并基于这些权重更新特征图。受此启发，越来越多基于Transformer的研究出现在医学图像分析以及关键点检测领域中。Dosovitskiy等人（2021）将输入图像进行分块，展平并组合成序列，在大规模数据预训练的条件下实现了出色的分类性能。TransUNet（Chen等，2021）提出，由于Transformer在提取细粒度特征方面的不足，可能导致定位能力受到限制，因此引入Transformer作为特征编码器并保留UNet的良好架构，在医学图像分割任务中取得了优秀的结果。TransFuse（Zhang等，2021）试图以并行方式组合CNN与Transformer，证实了Transformer的全局信息和 CNN 的低级特征细节有集成和融合的可能。此外，为了进一步实现高效的全局上下文建模，Swin Transformer（Liu等，2021）提出了移位窗口机制，其将自注意力限制在固定的大小中，极大地减少了冗余并增加了输入尺寸的灵活性。TransPose（Yang等，2021）试图通过Transformer中内置的注意力层揭示关键点之间的空间依赖关系，在人体姿态识别任务中实现了良好的性能。尽管CNN网络在解剖关键点检测领域实现了优秀的性能，但其在全局建模中的固有缺陷与归纳偏置仍未得到有效解决。鉴于此，受到现有方法的启发，本文提出一种基于Transformer的混合编码器—解码器框架，其中以ResNet（residual neural network）作为CNN骨干网络，利用Transformer增强特征的全局表达，以充分发挥各自的优势。本文的主要贡献如下：1）针对全局位置信息与局部像素变化是解剖关键点检测的首要需求，提出一种卷积增强型Transformer模块，在保留Transformer表征长距离依赖关系的同时，也增强了对局部细粒度信息的提取能力。2）对Transformer中多头自注意力计算进行改进，以增强其对关键点特殊位置的敏感性。3）提出一种指数加权SmoothL1损失函数，以在一定程度上缓解头影图像中其他相似部位对目标解剖点的干扰。通过强调目标像素范围的损失值，并减少远处信息对回归的影响，模型能提取到更有判别信息的细粒度特征，从而能更有针对性地进行特征学习。4）在公开的X射线头影测量数据集上，本文模型取得了最好的成绩，并展示了一定程度的临床应用价值。1　方法与细节所提出的CETransNet主要由ResNet编码主干网络、卷积增强型Transformer、解码器模块和跳跃连接4部分构成。1.1　模型概述由于CNN侧重于提取局部特征，而Transformer 具有捕获远距离关系的能力，因此本文利用ResNet作为主干网络并在每个下采样层级中嵌入Transformer，运用跳跃连接与上采样模块相结合，构建混合编码器—解码器架构，实现端到端的解剖点检测功能。如图1所示，编码器采用ResNet-101，并对输入的头影图像（分辨率大小为H× W× 3 ，H和W分别为图像对应的高度和宽度所占的像素尺寸）进行层级式特征编码，因而特征图由一系列残差块的输出组成，方便起见，统一表示为Cn（n = 1，2，3，4）。之后，将每一个层级输出特征Cn馈送至所提出的卷积增强型Transformer模块，其中线性嵌入层负责将Cn投影至K维向量，并在计算自注意力后获取关键点的全局依赖关系。此外，编码器和解码器的相应特征按照 UNet的方式进行连接。最后，由特征恢复层与预测层执行多解剖点位置预测。10.11834/jig.220933.F001图1CETransNet网络结构Fig.1The structure of CETransNet1.2　残差网络CNN主干网络作为特征提取的编码器，主要由池化层以及固定数量的残差模块构成。具体而言，对于所采用的ResNet-101，C1至C4分别包含3、4、23、3个残差块，如图2所示，其结构由3个级联的卷积层组成，每个卷积层均跟有一个批量归一化层（batch normalization，BN）和ReLU（rectified linear unit）激活函数，并通过残差连接将输入信息跳过卷积运算，于最后的ReLU操作前直接相加在模块中。此外，每组残差块的第1个3 × 3卷积层采用跨步卷积（步长设置为2），由此，图像特征图就能够逐层缩小尺寸。通过这种层级式结构，信息便以特征金字塔的形式进行编码。10.11834/jig.220933.F002图2残差块结构Fig.2The structure of residual block1.3　卷积增强型Transformer模块卷积增强型Transformer模块如图3所示，所提出的改进Transformer模块以层标准化操作开始，并经过实验发现（具体见3.2节），与直接创建图像的块状投影相比，顺序应用带有3 × 3小内核的连续卷积操作有助于更好地编码图像信息，因此层归一化之后会先进行级联的卷积运算。此外，由于标准Transformer采用线性方向进行特征投影，从而将图像展平至一维的补丁向量，但这也导致了一部分空间上下文信息的丢失。10.11834/jig.220933.F003图3卷积增强型Transformer模块Fig.3Convolution enhanced Transformer module鉴于此，本文构建了卷积投影层，采用3 × 3内核大小的深度可分离卷积（depthwise separable convolution，DSC）作为转换算子，并且每个卷积层后面都跟有一个组归一化激活函数（group normalization，GeLU），以降低计算成本并更好地利用图像上下文信息。随后，获得的特征映射p=Rh×w×c将被展平至hw×c，以作为计算自注意力的输入信息。值得注意的是，这里提取的图像补丁是重叠的，以最大程度地保留图像所具有的局部细节，并且卷积操作不会改变特征的整体输出大小。此外，由于采用了卷积操作，额外的位置编码将无需采用，这进一步降低了模型的计算开支。随后，与标准Transformer模型一样，对获取的补丁向量进行多头自注意力计算，但与之不同的是，这里对MHSA层进行了改进（具体见1.4节）。通常情况下，MHSA块之后是线性层，因而会失去一定的上下文信息，用卷积直接替换这些线性层是一种相对简单的方法，其可以缓解这个问题并提高性能。然而，医学图像需要细粒度的信息处理，考虑到这一点，本文将线性层替换成多分支卷积层，其中一个分支应用标准小核卷积，而其他分支则采用不同扩张率的膨胀卷积以重塑结构信息并增大感受野，因此可以获得更好的空间背景。随后，这些特征被融合并被馈送至多层感知机（multilayer perceptron，MLP），并采用残差连接以增加特征在整个层中的传播。最后的特征将被重塑维度与尺寸以适应模型传递所需的分辨率大小。1.4　改进多头自注意力为了在MHSA中更好地捕获局部和全局特征，本文提出改进的多头自注意力计算，首先采用全局平均池化操作，分别获得特征图在纵向和横向的统计向量，再利用矩阵相乘将多维度注意力特征进行融合。通过这种方式，Transformer在计算注意力的同时也会获得与位置相关的特征向量。因此，模型能够更好地编码来自解剖标志点的特殊位置信息。具体而言，自注意力的计算过程为FAQ, K, V=softmaxattQKTd+BV （1）式中，Q表示查询（query），K表示键（key），V表示值（value），B表示位置编码，d表示Q向量和K向量的维度大小，att()计算为att(x)=1w∑j=1wx⊗1h∑i=1hx （2）式中，⊗表示矩阵相乘，其左右分别代表水平方向和垂直方向上经过自适应平均池化操作后的空间特征统计向量。1.5　解码器及预测方法图像经过主干网络编码后，输出一系列层级多尺度特征，随后经过改进Transformer块来增强特征图的全局空间表示，而解码器将该系列特征重采样并学习其粗粒度语义信息。为了在解码器层中创建更好的上下文相关性，还使用了从编码器到解码器的跳跃连接，将来自编码器层与解码器层中相同分辨率的特征映射进行连接。解码器的形状与编码器是层级式对称的，与特征金字塔的语义信息相对应，以提供额外的监督信息，并提高模型的预测能力。随后，在经过最后一次上采样与跳跃连接后，得到与输入分辨率相同的输出特征，再由级联的卷积操作获得最终的预测热图。此外，在测试阶段，需要设计一种可靠的方法从预测的概率图中找到最可信的坐标值。为了计算关键点坐标，小于0.25倍最大概率值的像素位置被首先忽略，并只保留最大的连通分量以去除噪声等孤立区域，在一定程度上消除了干扰。最后，将那些大于最大值0.88倍的像素位置的平均值作为预测的关键点坐标。1.6　训练过程现有方法常应用热力图对目标关键点进行抽象化表示，如图4所示，其可由固定方差的高斯函数进行编码，热图中的像素标签可视做标志点在该位置的伪概率或置信度，范围为0～1，高响应则表示目标点的位置信息。具体为Hx, y=exp-x-x^2+y-y^22σ2 （3）式中，x^,y^代表关键点的真实位置，而σ是用于控制高斯分布大小的超参数。经过实验对比分析，σ取8.5时效果最好。10.11834/jig.220933.F004图4高斯热图示意图Fig.4Illustration of Gaussian heatmap （（a） original image；（b） ground truth with Gaussian heatmap；（c） prediction probability map）在过往的热图回归任务中，SmoothL1损失函数常用于训练网络模型，其定义为SLx,x^=1HWL∑i=1H∑j=1W∑l=1L12Δ2ΔββΔ-β2Δ≥β （4）式中，SL表示SmoothL1损失函数，Δ =xi,j,l-x^i,j,l，而xi,j,l和 x^i,j,l分别表示真实热图与预测热图中对应位置的像素强度，β是一个可定义的阈值，用于控制计算范围，本文将其设置为1.5。H和W表示高度和宽度，L表示关键点数量，图像的损失值是所有关键点的热图像素损失值的平均值，且所有像素在函数中具有相同的权重。基于热图回归方法的本质是预测以每个关键点为中心的非归一化高斯分布的概率特征图，关键点真实坐标附近像素的回归精度对于地标的准确定位尤为重要。然而，远离地标像素的预测精度往往因其损失值较小而难以被网络学习，并且由于图像的不同区域可能与目标范围共享相似的像素变化，例如目标关键点为门牙端点时，显然其他牙齿存在与其相似的结构信息，这可能导致检测歧义的发生。因此，损失函数应适应真实热图上像素的强度变化，基于此，本文提出一种指数加权SmoothL1（exponential weighted smoothl1 loss，EWSmoothL1）损失函数，用于热图回归任务，其定义为EWSLx, x^=SLx, x^αx （5）式中，EWSL表示EWSmoothL1损失函数，α是控制地标附近像素损失占比的超参数，x和x^分别表示对应位置真实概率与预测概率值。简言之，通过为每个像素加权其真实热图中相应概率值的指数函数，地标附近的损失权重占比得到扩大，在x = 1时，达到最大值。并且对于远离标志点的像素值，损失占比以指数下降到1，因此，网络能够更多地关注地标附近的损失值，而较少关注远离地标的像素误差。更具体地说，背景被视为无效像素，网络只对目标区域像素变化敏感，并且通过实验证明，其可以使模型提取更具判别性的特征，以缓解歧义所引起的误差。这里，α设置为30以获得最佳性能。2　实验设置2.1　数据集及实验设置本文采用ISBI 2015挑战赛头影数据集（Wang等，2015），共包含400幅头影侧位X光图像，按照挑战赛协议：150幅用做训练数据，100幅作为测试数据集1，150幅作为测试数据集2；两位经验丰富的临床医生标记了19个点，注释的平均值作为基本事实。此外，所有图像的大小均为1 935 × 2 400像素，像素间距为0.1 mm。实验在配备Tesla V100 SXM3-32 GB GPU 的服务器上进行，模型采用批处理大小为2的Adam优化器训练30个训练周期，初始学习率设置为 0.000 1，并每隔5个迭代次数缩小0.85倍。采用改进的指数加权Smooth L1 损失函数来训练网络，所有算法均由Python与Pytorch进行编写。图5提供了数据集的示例图像，以及一些随机选择的检测结果，其定位误差展示在左上角。10.11834/jig.220933.F005图5头影解剖点示意图以及定位结果样例Fig.5Sample image and some random localization results （（a） sample image with reference annotations；（b） example 1；（c） example 2；（d） example 3）2.2　数据预处理为了避免由于缺乏训练数据而导致的过拟合现象，需要对训练集采取一定的数据增强措施。首先将头影图像重新缩放至768 × 768像素，并且通过零填充操作使其保持原始比例相对应的固定纵横比；然后随机旋转-15°～15°，以及随机添加高斯噪声。此外，所有像素的强度值乘以0.75～1.25的随机因子，最后对每幅图像进行弹性变换。2.3　评价指标为了定量评估所提出算法的检测能力，采用平均径向定位误差（mean radial error，MRE）和正确检测率（successful detection rate，SDR）来量化定位性能。其中，MRE定义为真实位置与预测位置之间的平均欧氏距离，STD（standard deviation）表示MRE的相应标准差，而SDR是MRE小于给定阈值的预测关键点占总数的百分比。对于具有N幅图像和M个关键点的数据集，它们的定义分别为fMRE=1NM∑n=1N∑m=1Mxn,m-x^n,m2 （6）fSTD=1NM-1∑n=1N∑m=1Mx^n,m-MRE2 （7）fSDR=n,mxn,m-x^n,m2≤rNM×100%（8）式中，xn,m表示真实位置，x^n,m表示预测位置，r表示一定的误差范围，例如2 mm、2.5 mm、3 mm、4 mm。较小的MRE和STD代表着模型具有良好的定位性能，相反，SDR越大越好。3　结果分析3.1　主干网络的影响为了比较主干网络的深度对实验性能的影响，此处报告了在测试集1上CETransNet采用不同主干网络的实验结果。如表1所示，随着层数的增加，模型预测了更少的错误，相应的定位误差值也从最大的1.44 mm降低到1.09 mm。通过分析结果，不难得出这是由于网络深度的改变所带来的参数量增加，因而模型能够学习到更多的权重。然而，152层的主干网络未能获得更低的定位误差，尽管其在2 mm误差范围内精度值达到了87.25%，通过分析原因，其可能是因为网络过深而导致的过拟合现象，因而选择合适的主干网络深度是构建模型的关键所在。10.11834/jig.220933.T001表1不同深度的主干网络在头影数据集上的性能对比Table 1Performance comparison of backbone networks withdifferent depths on cephalometric X-ray dataset主干网络测试集1平均径向误差/mm不同误差范围内的准确率/%2 mm2.5 mm3 mm4 mmResNet-181.4479.9584.6189.8196.02ResNet-341.3781.0888.2091.2596.47ResNet-501.2883.2691.2293.3797.53ResNet-1011.0987.1993.0995.8998.67ResNet-1521.1187.2592.8996.0198.54注：加粗字体表示各列最优结果。综合来看，ResNet-101取得了最好的结果，因此本文在接下来的所有实验中均采用其作为编码网络。3.2　消融实验为了探讨所提出的卷积增强型Transformer模块和改进的指数加权损失函数的作用，在此进行了一组消融实验。为便于比较，采用带有ResNet-101编码器的UNet作为基线网络，并且使用头影数据测试集1上的结果进行消融研究的对比分析。当放大到整个医学图像时，各种相似的结构特征将不可避免地使网络误判。例如，在图6（a）中，目标关键点的类似结构存在于给定区域中，由于它们相类似的弧度大小以及周围组织信息，模型给了它们不应该有的置信度（如图6（b）所示），尽管目标位置达到了最高的预测值，但仍然会使得检测结果发生歧义。从图6（c）中的可视化结果可以明显看出，通过使用所提出的EWSmoothL1损失函数，模型能够有效建立识别关键点周边像素的能力，从而降低类似结构所引发的歧义。10.11834/jig.220933.F006图6使用EWSmoothL1前后的可视化结果Fig.6Visualization results before and after using EWSmoothL1 （（a） examples of ground truth；（b） results without using EWSmoothL1；（c） results after using EWSmoothL1）此外，如表2所示，通过在切割图像补块前采取连续卷积操作（表中“基线UNet+卷积投影层Transformer”），模型性能有所提升，对应的误差值也降低到了1.37 mm。而在每层CNN编码特征中聚合最终的卷积增强型Transformer（表中“基线UNet+增强型Transformer”），模型性能得到大幅提升，具体而言，通过与基线UNet相比较，该结构可使定位误差有效降低0.30 mm，并且4个误差范围的准确率也有所提升，分别提升了7.36%、8.91%、5.75%和4.4%。这证明了在局部信息中融合长期依赖性，即使是最基础的UNet结构网络，也能获得较好的特征表达。此外，当在监督学习过程中采用所提出的指数加权损失函数时（表中“基线UNet+增强型Transformer+EWSmoothL1”），误差值进一步减少，达到了1.09 mm的最佳性能；并且2 mm内精度提高了0.92%。这些结果表明，所提出的改进有助于持续提高地表定位的准确性，并且位置信息能够从这样的组合中有效地获取。10.11834/jig.220933.T002表2本文模块的消融实验Table 2Ablation experiments for the proposed modules模型测试集1平均径向误差±标准差/mm不同误差范围内的准确率/%2 mm2.5 mm3 mm4 mm基线UNet1.42 ± 1.2878.9183.6789.5593.98基线UNet+卷积投影层Transformer1.37 ± 1.2680.0586.7791.3194.19基线UNet+增强型Transformer1.12 ± 0.9586.2792.5895.398.38基线UNet+增强型Transformer + EWSmoothL11.09 ± 0.9287.1993.0995.8998.67注：加粗字体表示各列最优结果。3.3　实验结果对比为了验证本文方法的有效性，本文对比了使用同样数据集的先进方法，并从定位误差与准确率两个评价指标进行定量比较与分析。表3列出了在测试集1和测试集2中所有方法的数值结果，这些结果均取自各方法的原始论文。通过比较与分析，本文方法在所有评价指标上均优于所引用的其他方法。具体而言，在两个测试集上分别实现了1.09 mm和1.39 mm的定位误差值，相应的标准差为0.92和1.27。值得注意的是，在与次优方法对比时，两个测试集上的定位误差分别降低了2.7%和2.1%。10.11834/jig.220933.T003表3不同方法的对比结果Table 3Comparison result of different methods方法测试集1测试集2平均径向误差±标准差/mm不同误差范围内的准确率/%平均径向误差±标准差/mm不同误差范围内的准确率/%2 mm2.5 mm3 mm4 mm2 mm2.5 mm3 mm4 mmIbragimov等人（2014）1.8471.777.481.988-62.7470.4776.5385.11Lindner等人（2015）1.6773.6880.2185.1991.471.9266.117277.6387.43Chen等人（2019）1.1786.6792.6795.5498.531.4875.0582.8488.5395.05Oh等人（2021）1.1886.291.294.497.71.4475.8983.3689.2695.73Zhong等人（2019）1.12±0.8886.9191.8294.8897.91.42±0.847682.988.7494.32任家豪等人（2023）1.1486.3892.195.598.521.475.9183.5289.3194.68CETransNet(本文)1.09±0.9287.1993.0995.8998.671.39±1.2776.0883.4189.3595.96注：加粗字体表示各列最优结果，“-”表示原论文未提供相应结果。此外，在基于误差范围的SDR指标上，本文在测试集1中实现了87.19%、93.09%、95.89%和98.67%的定位精度；同时，测试集2上也获得了同样优越的结果，分别为76.08%、83.41%、89.35%和95.96%。特别地，在临床可接受的误差范围（MRE 2 mm）上，对应的检测准确率分别为87.19%和76.08%，这表明本文算法的定位性能足够优异，并具有一定的临床应用价值。表4展示了全部19个解剖点的详细定位结果，通过对其进行分析，容易得出：测试集1上所有解剖点的定位误差值均小于2 mm，范围为0.57～1.90 mm；同时，在4 mm范围内有9个解剖点达到100%的正确检测率，并且有多达12个点获得了90%的临床可接受的2 mm内检测精度；对于测试集2，如Payer等人（2019）所述，与训练数据的注释相比，一些标志点（例如，关键点13和16）经历了系统性的移动，这无疑会导致定位性能下降，然而，在2 mm的误差范围内，仍有9个标志点满足90%的精度要求，同时在4 mm范围内有10个标志点实现了100%的检测准确率，这意味着即使存在系统性变化的解剖点，该方法也能够胜任解剖关键点定位任务，显示出了一定的鲁棒性。10.11834/jig.220933.T004表4头影X射线数据集上每个关键点的定位结果Table 4The localization results for each landmark on the cephalometric X-ray dataset关键点测试集1测试集2平均径向误差±标准差/mm不同误差范围内的准确率/%平均径向误差±标准差/mm不同误差范围内的准确率/%2 mm2.5 mm3 mm4 mm2 mm2.5 mm3 mm4 mm10.57±0.8298.6798.6798.6798.670.49±0.3199.00100.00100.00100.0021.24±1.0184.0089.3392.6797.330.87±0.7692.0096.0097.0099.0031.20±0.7786.0092.6797.33100.002.21±0.8644.0068.0083.0098.0041.75±1.0964.6779.3389.3394.001.61±1.6974.0083.0088.0094.0051.64±1.0969.3382.6788.6795.331.15±0.6889.0094.0098.00100.0061.02±0.6790.6794.6798.00100.002.57±1.2032.0050.0062.0088.0070.92±0.7492.6796.0097.33100.000.62±0.4498.0099.00100.00100.0080.83±0.6395.3399.3399.33100.000.62±0.4598.0099.00100.00100.0090.76±0.5895.3399.33100.00100.000.48±0.32100.00100.00100.00100.00101.90±1.1859.3372.0084.0093.331.41±1.0376.0086.0092.0098.00110.74±0.5795.3398.0099.33100.000.80±0.8794.0098.0098.0099.00120.64±0.9396.0098.0098.6798.670.61±0.6097.0097.0098.00100.00131.23±0.5092.0099.3399.33100.002.58±0.5813.0043.0076.0099.00140.84±0.3999.33100.00100.00100.001.88±0.7064.0080.0093.0099.00150.76±0.5995.3398.0098.67100.000.78±0.5697.0099.0099.00100.00161.02±0.7991.3396.0096.6799.334.44±1.213.004.0010.0035.00170.84±0.5596.0098.6799.3399.331.02±0.6493.0097.0099.00100.00181.13±1.0387.3394.0096.6798.001.17±0.6788.0096.0098.00100.00191.60±1.2868.0082.6788.0094.001.22±0.8283.0089.0096.00100.00注：加粗字体表示各列最优结果。为了证明所提方法的有效性，在该基准数据集上比较了其他流行的视觉Transformer方法，如TransUNet（Chen等，2021）、SwinUNet（Cao等，2023）以及TransFuse（Zhang等，2021），由表5可知，本文方法在所有指标上均实现了最佳性能。具体而言，在测试数据集1上，对于临床所接受的2 mm区域内检测准确率，所有方法均在80%之上，而相较于次优方法，CETransNet实现了2.16%的提升，尽管4 mm误差范围内所有方法的准确率都较为相似，但CETransNet略有改善；同样，在数据集2上的表现也优于对比方法，2 mm内的检测准确率比次优方法提高了0.70%，但4 mm误差内却大幅提升了1.58%。对于定位误差MRE值而言，CETransNet在两个测试集上比次优方法分别减少了0.09 mm和0.07 mm。此外，使用纯Transformer作为网络架构的SwinUNet获得了不尽人意的效果，尽管其采用的Swin Transformer块具有更好的全局建模能力，但解剖结构的细节信息未能得到充分发掘；TransUNet将Transformer与标准卷积顺序组合，与SwinUNet相比，其将定位误差分别减少了0.14 mm和0.28 mm，证明了CNN和Transformer的混合结构是可行的，并且可以实现更好的性能；TransFuse以一种并行的方式将来自CNN模块与Transformer的两种信息进行特征融合，获得了比TransUNet略好的误差值，并在2 mm内准确率上获得了0.71%和0.42%的提升。结合本文方法进一步表明，通过保留CNN提取局部信息的能力并且结合Transformer挖掘全局相关性的特点，对于解剖关键点的检测是益处颇多的。10.11834/jig.220933.T005表5视觉Transformer方法在头影数据集上的结果Table 5The localization results of visual Transformer methods on cephalometric X-ray dataset方法测试集1测试集2平均径向误差±标准差/mm不同误差范围内的准确率/%平均径向误差±标准差/mm不同误差范围内的准确率/%2 mm2.5 mm3 mm4 mm2 mm2.5 mm3 mm4 mmTransUNet（Chen等，2021）1.22±1.1384.3290.8594.2897.911.47±1.5274.9681.0285.8495.17SwinUNet（Cao等，2023）1.36±1.2680.1785.5893.2997.821.75±1.8271.8175.3280.7888.59TransFuse（Zhang等，2021）1.18±1.0285.0391.9894.4498.181.46±1.3875.3880.8987.1594.,38CETransNet（本文）1.09±0.9287.1993.0995.8998.671.39±1.2776.0883.4189.3595.96注：加粗字体表示各列最优结果。4　结论本文提出了一种融合增强型Transformer的U形网络CETransNet，用于解剖结构关键点检测，使其能够在临床诊断中实时应用。针对准确识别关键点尚存在一定困难、利用Transformer能够提供全局长期依赖性的特点，将其应用至传统基于卷积神经网络的架构中，获得关键点尤为重要的位置与结构信息；并通过改进Transformer的结构，将更多局部信息嵌入其中，从而获得较为全面的语义特征，以估计出关键点的位置统计信息；此外，为应对颅面异常和较低图像质量的情况，对多头自注意力的计算进行了更新，以此执行更精确的编码以及有效学习隐式几何约束。为缓解图像中其他相似结构引发的歧义，提出指数加权损失函数EWSmoothL1，使得模型能够更加关注目标区域的损失，而不是其他部位。实验结果表明，本文算法取得了最好的MRE和SDR性能，尤其是在2 mm的临床可接受范围内，因而能够有效缓解头影测量分析中对临床医师的依赖程度，并具有应用于实际诊断和后续治疗计划的良好潜力。然而，仍有一些不足是未来值得进行优化的，例如模型参数较大占用了大量内存；其次，针对图像结构发生改变的关键点，算法的鲁棒性还不足以达到理想的精度。因此，未来将着重于构建更加精确且能够降低计算复杂度的模型。