发布时间: 2020-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190568
2020 | Volume 25 | Number 12

图像理解和计算机视觉

自监督深度残差函数映射网络的3维模型对应关系计算

杨军, 马中昌

兰州交通大学电子与信息工程学院, 兰州 730070

收稿日期: 2019-11-09; 修回日期: 2020-02-19; 预印本日期: 2020-02-26

基金项目: 国家自然科学基金项目（61862039）

第一作者简介: 杨军, 1973年生, 男, 教授, 博士生导师, 主要研究方向为3维模型的空间分析、遥感影像的分析与处理、模式识别。E-mail:yangj@mail.lzjtu.cn.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2020)12-2603-11

摘要

目的针对传统非刚性3维模型的对应关系计算方法需要模型间真实对应关系监督的缺点，提出一种自监督深度残差函数映射网络（self-supervised deep residual functional maps network，SSDRFMN）。方法首先将局部坐标系与直方图结合以计算3维模型的特征描述符，即方向直方图签名（signature of histograms of orientations，SHOT）描述符；其次将源模型与目标模型的SHOT描述符输入SSDRFMN，利用深度函数映射（deep functional maps，DFM）层计算两个模型间的函数映射矩阵，并通过模糊对应层将函数映射关系转换为点到点的对应关系；最后利用自监督损失函数计算模型间的测地距离误差，对计算出的对应关系进行评估。结果实验结果表明，在MPI-FAUST数据集上，本文算法相比于有监督的深度函数映射（supervised deep functional maps，SDFM）算法，人体模型对应关系的测地误差减小了1.45；相比于频谱上采样（spectral upsampling，SU）算法减小了1.67。在TOSCA数据集上，本文算法相比于SDFM算法，狗、猫和狼等模型的对应关系的测地误差分别减小了3.13、0.98和1.89；相比于SU算法分别减小了2.81、2.22和1.11，并有效克服了已有深度函数映射方法需要模型间的真实对应关系来监督的缺点，使得该方法可以适用于不同的数据集，可扩展性大幅增强。结论本文通过自监督深度残差函数映射网络训练模型的方向直方图签名描述符，提升了模型对应关系的准确率。本文方法可以适应于不同的数据集，相比传统方法，普适性较好。

关键词

非刚性3维模型; 模型对应关系; 深度函数映射; 模糊对应; 自监督损失函数; 测地误差

Correspondence calculation of 3D models by a self-supervised deep residual functional maps network

Yang Jun, Ma Zhongchang

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

Supported by: National Natural Science Foundation of China (61862039)

Abstract

Objective Calculating 3D shapes correspondence is a central problem in the field of geometry processing that plays an important role in shapes reconstruction, object recognition and classification, and other tasks. Therefore, finding a meaningful and accurate correspondence among shapes has important research significance and application value. In recent years, deep-learning-based calculation of the correspondence among 3D shapes has attracted the attention of many scholars in the field of geometry processing. Using neural networks to learn the feature descriptors on the surfaces of 3D shapes can help us obtain accurate and comprehensive feature information and provides a solid foundation for building accurate correspondences among 3D shapes. Deep-learning-based methods for calculating the correspondences can be roughly divided into 1) methods based on the end-to-end depth functional maps network, and 2) methods based on other neural networks. The first method uses deep functional map networks to learn the feature descriptors of 3D shapes and then use these descriptors to analyze the spatial structure characteristics of shapes. Afterward, theory of functional maps is applied to solve the shape matching problem, find out the functional maps matrix among shapes, and determine the correspondence among shapes. Meanwhile, the second method uses neural networks to learn the feature descriptors of shapes, takes the calculation of correspondences as part of the learning process, uses the learned shape spatial geometric structure features for shape matching, and obtains the ideal correspondence among shapes. The feature descriptors and the network of learning descriptors of shapes play a crucial role in calculating 3D shapes correspondence calculation methods ignore the important influence of feature descriptors on the representation of 3D shapes, and the calculated shape descriptors contain relatively few information that cannot solve the problems related to shape symmetry and shape boundary descriptor distortion. Moreover, in the subsequent correspondence calculation process, these methods are unable to generate an accurate functional map of the symmetrical part of shapes, thereby leading to inaccurate correspondence calculations. The existing 3D shape correspondence calculation methods based on deep learning all adopt a supervision mechanism, which limits the universality of these methods to a large extent. To address these problems, this paper proposes a self-supervised deep residual functional maps network (SSDRFMN) to calculate 3D shapes correspondence. Method The proposed method involves two steps. First, we calculate the feature descriptor of the 3D shape by combining the local coordinate system with a histogram, which is a signature of the histograms of orientations (SHOT) descriptor. We initially establish a local coordinate on the surface of shapes and then enhance the recognition ability of our descriptor by introducing the geometric information of the feature points. Afterward, we calculate the local histogram at a given point and use the calculated geometric information to form a histogram and a signature. Compared with traditional feature descriptors, hybrid feature descriptors can better represent the spatial structure and surface feature information of 3D shapes and provide high-quality inputs for network learning. Second, we use end-to-end SSDRFMN to calculate the correspondence among shapes. The SHOT descriptors of the source and target shapes are inputted into SSDRFMN, and the feature descriptor iteratively trains the neural network. The deep functional maps (DFM) layer is then used to calculate the function mapping matrix between two shapes. The corresponding relationship problem is transformed into solving the function mapping matrix problem, and the functional map relationship is converted into a point-to-point correspondence relationship through a fuzzy correspondence layer. The self-supervised loss function is then used to calculate the geodesic distance error between shapes and to evaluate the corresponding relationship. The loss function minimizes the geodesic distance error between shapes via network training and replaces the real correspondence between the manually labeled models with geometric constraints to achieve a self-supervised learning of the network. Result Experimental results show that compared with the supervised deep functional maps (SDFM) and spectral upsampling (SU) algorithms, the proposed algorithm reduces the geodesic error of correspondences between the human model and the MPI-FAUST dataset by 1.45% and 1.67%, respectively. Meanwhile, in the TOSCA dataset, the proposed algorithm reduces the geodesic errors of the correspondences of dog, cat, and wolf models by 3.13% (2.81%), 0.98% (2.22%), and 1.89% (1.11%) compared with SDFM (SU), respectively. Therefore, apart from its applicability to different datasets and its high scalability, this algorithm effectively overcomes the shortcomings of extant depth functional maps methods that require the true correspondence among shapes to supervise. Conclusion Experimental results show that the proposed method outperforms the existing methods for calculating the correspondence among 3D shapes. On the one hand, our proposed method trains the neural network through the SHOT descriptor of shapes, there by effectively solving the symmetry and boundary distortion of the model and producing a better representation of the surface features of 3D shapes. On the other hand, the proposed method uses a self-supervised deep neural network to learn the features of descriptors and to accurately calculate the correspondences among shapes. This method also shows excellent universality and accuracy, thereby highlighting its value in shapes matching, model recognition, segmentation, and retrieval.

Key words

non-rigid 3D shapes; shape correspondences; deep functional maps (DFM); soft correspondence; self-supervised loss function; geodesic error

0 引言

3维模型对应关系在机器视觉、计算机图形学和模式识别等领域具有重要的研究意义，已广泛应用于游戏、自动驾驶和激光雷达等多个行业(Zheng，2012)。目前，3维模型的对应关系计算方法可以分为基于模型的方法和基于数据的方法。基于模型的方法往往需要依靠模型的几何信息，如法向量(Tombari等，2010)、曲率(Pottmann等，2009)、热核(Sun等，2009)和波核(Aubry等，2011)等局部几何信息以及测地距离和扩散距离(Furuya和Ohbuchi，2015)等构建模型间的映射关系。基于数据的方法则是利用机器学习(machine learning, ML)的方法来训练模型的特征描述符，如通过学习模型的光谱描述符计算出模型之间的对应关系，然后将模型对应关系转换为标签问题(Mahmoudi和Sapiro，2009)。3维模型对应关系的研究主要是计算两个或多个模型之间的稀疏对应关系(杨军等，2014)或稠密对应关系(杨军和史纪东，2018；杨军和闫寒，2018)，研究方法包括点到点的映射、基于热核签名的映射、基于波核签名的映射、基于融合特征描述符的映射(杨军等，2016)、函数映射、深度函数映射等。其中深度函数映射方法由于具有较高的匹配准确率以及较好的普适性，受到了研究者的广泛关注。深度函数映射通过构建深度函数映射网络(deep functional maps network，DFMN)框架计算非刚性形变的3维模型间的稠密对应关系。该网络框架允许端到端训练，即只要输入源模型与目标模型的特征描述符，就可输出模型间的对应关系，将计算源模型与目标模型间对应关系的问题转化为计算模型间的函数映射矩阵问题。通过计算模型间的模糊对应矩阵将函数映射关系转换为点到点映射关系，相比于使用传统的函数映射方法计算点到点映射能够获得更为准确的对应关系。然而，单纯利用深度函数映射理论计算两个模型间的对应关系，需要模型之间的真实对应关系(Groueix等，2018)来监督网络。在3维模型真实对应关系数据稀缺的情况下，需要耗费大量的工作对模型进行手工标注，使得该方法的可扩展性受到影响。为此，本文提出了自监督深度残差函数映射网络，用于计算模型间点到点准确的对应关系。

1 相关研究

随着3维模型间对应关系在计算机图形学和计算机视觉领域的应用愈加广泛，快速可靠的3维模型对应关系计算方法成为研究热点。传统的基于函数映射理论计算非刚性3维模型对应关系的方法，大多使用模型的局部描述符，但是传统的局部描述符对3维模型的对称性结构不够敏感，而且当模型受到噪声干扰时无法得到准确的对应关系。深度函数映射是最近提出的一种新颖的计算模型对应关系的方法，解决了已有算法匹配精度不高的问题。

Ovsjanikov等人(2012)首次提出函数映射的方法，将模型间对应关系的计算转换为求解相应的函数映射矩阵，能够得到较为准确的模型对应关系。该方法对发生非刚性形变的等距模型有着较好的映射效果，而对于非等距模型，由于模型间的拓扑结构信息已发生改变，无法计算出准确的函数映射矩阵，因此无法构建准确的对应关系。杨军和史纪东(2018)及杨军和闫寒(2018)提出了一种校准3维模型基矩阵的函数映射的对应关系计算方法。首先计算模型的Laplace算子，获得模型的特征值和特征向量，并利用得到的特征向量构建基矩阵；然后计算模型基矩阵之间的校准矩阵，并用该矩阵对两个模型的函数基进行校准；最后，计算校准模型所有点的高斯曲率来采样源模型尖端特征点，并在校准后的目标模型上遍历所有点，以寻求最优对应点来构建3维模型间的对应关系。该算法较为准确地构建了两个或多个模型间的对应关系，同时也克服了模型自身对称性影响对应关系计算的问题。但是该方法对于大尺度变形的模型或残缺模型，无法得到准确的对应关系。Halimi等人(2019)在函数映射理论的基础上，提出了深度函数映射的方法来计算模型间的对应关系，只要将源模型和目标模型的特征描述符输入深度函数映射网络中，即可输出模型间的对应关系。然而，该方法需要对输入网络的数据进行复杂的预处理，导致计算效率低下。Litany等人(2017)在深度函数映射的基础上，利用神经网络学习模型的特征描述符，并将模型之间的对应关系计算设计为网络架构的一部分，可得到模型之间较为准确的对应关系。但是，该方法对于表面缺失部分较多的模型，无法计算出准确的对应关系，且算法依赖模型间的真实对应关系作为监督。Rodolà等人(2017)提出了一种计算非刚性模型之间的部分函数映射关系的方法，将残缺模型(缺少某一部件或带孔洞)与完整模型进行匹配，对部分函数映射关系的频谱表示进行了正则化，使用拉普拉斯矩阵的扰动分析有效解决了由于模型部件缺失导致的拉普拉斯特征函数的特殊结构问题，计算出了较为准确的部分模型与完整模型间的对应关系。但是该方法旨在解决模型的局部性对应问题，对于拓扑结构发生较大变化的模型或类间相似的异质模型，不能计算出正确的对应关系。Arbel等人(2019)提出了一种新颖且简单的相似性度量方法来计算模型间的对应关系，使用相似性函数分析从源模型的表面到目标模型表面最近邻域的统计特性，即多样性和相似性，计算出模型间较为准确的对应关系。但是对于有明显的噪声干扰和发生大尺度变形的模型，无法计算出其准确的对应关系。一方面是因为快速点特征直方图(fast point feature histograms，FPFH)描述符不能充分描述模型的本征属性；另一方面由于模型的对称性影响模型间对应关系的计算。

综上所述，目前大多数采用函数映射理论的3维模型对应关系计算方法，在刚性变换和非刚性变换的模型间取得了较好的对应关系。但是，深度函数映射方法在计算模型间的对应关系时，需要模型间的真实对应关系来监督网络的训练，且模型间的真实对应关系需要手工进行标注，使该类方法的扩展性受到很大限制。为此，本文提出了一种自监督深度残差函数映射网络(self-supervised deep residual functional maps network，SSDRFMN)，用于计算3维模型间对应关系。主要创新点和贡献有：1)改进了基于直方图签名特征描述符的计算方法，对计算出的模型特征描述符进行局部符号消歧，使其能最大程度地表示3维模型的特征，且在模型受到噪声的干扰和拓扑结构发生改变时表现出较强的鲁棒性，为SSDRFMN网络的训练提供了良好的输入。2)提出的SSDRFMN网络在源模型和目标模型间缺少真实对应关系(ground truth correspondence)时，可通过自监督训练机制自主标记模型数据，能够计算出较为准确的对应关系，具有较好的泛化能力。

2 直方图签名描述符

目前，3维模型对应关系计算方法的主流趋势是利用输入模型的局部特征描述符，并借鉴2维图像利用局部特征描述符的匹配方法(Liu等，2016)来计算3维模型之间的对应关系。通过计算3维模型的特征描述符建立的局部对应关系可用于解决更高层次的任务，如3维模型匹配、识别分类(Su等，2015)等。因此，3维模型特征描述符的计算方法是对应关系计算的关键问题。

2.1 特征描述符的计算

3维模型的特征描述符应具有快速运算的特点和良好的局部性质，且在模型受到噪声干扰时具有较强的鲁棒性。目前，3维模型描述符的计算方法主要有基于局部坐标系(Abbasi和Tajeripour，2017)的描述符计算方法和基于直方图(Salti等，2014)的描述符计算方法。基于局部坐标系的描述符计算方法是通过定义一个局部坐标系，根据局部坐标系编码一个或多个单独计算的几何特征值来描述给定点的3维表面特征。基于直方图的方法根据特定量化域(例如点坐标、曲率)将局部几何数据(例如点、网格三角形面片)累加到直方图中来描述3维模型的特征。从广义的角度来讲，基于局部坐标系的描述符计算方法利用模型的空间局部信息来增强描述符的鲁棒性，而基于直方图的方法是通过压缩模型的几何结构来增强描述符的鲁棒性。

现有的3维模型描述符的计算方法大多忽略了局部坐标系的建立对描述符的重要影响，并且建立的坐标系对模型的对称性不够敏感。针对以上问题，本文改进了基于直方图签名的描述符计算方法，提出一种新的3维模型描述符计算方法。该方法考虑了局部坐标系对描述符计算的重要影响，在构造局部坐标系的过程中给特征点邻域内的点分配了距离权重，增强了描述符的可识别性和鲁棒性。

2.2 方向直方图签名描述符的计算

方向直方图签名(signature of histograms of orientations，SHOT)描述符的计算是通过建立一个局部坐标系对特征点的法向量编码来实现的，与普通3维坐标相比，局部坐标系更能体现模型表面的局部特征。SHOT描述符首先定义3维模型的局部坐标系，通过引入特征点的几何信息，增强描述符的识别能力；然后计算给定点上的局部直方图，形成具有混合特征的描述符。

鉴于局部坐标系的建立对计算3维模型描述符的重要影响，建立一个适当的局部坐标系是计算3维模型描述符的首要任务。在Salti等人(2014)的方法中，定义模型特征点$ p$的$k $近邻点$ {p_i}$的协方差矩阵$\mathit{\boldsymbol{M}} $为

$ \mathit{\boldsymbol{M}} = \frac{1}{k}\sum\limits_{i = 0}^k {({p_i} - \hat p){{({p_i} - \hat p)}^{\rm{T}}}} $

(1)

式中，$ \hat p = \frac{1}{k}\sum\limits_{i = 0}^k {{p_i}} $。通过对协方差矩阵$\mathit{\boldsymbol{M}} $进行特征值分解(eigenvalue decomposition，EVD)得到了法向量的总的最小二乘(total least squares，TLS)估计，可以确定以特征点$ p$为坐标原点的局部坐标系$ Z$轴的符号与$k $近邻法向量的均值相同，$Z $轴为特征点$p $的法向量。这种方法可以描述模型的全局特征，但不能描述模型的局部特征。当存在多个模型或模型发生形变的情况下，描述符须具有较强的识别性，必须进行局部符号消歧。所以，本文对Salti等人(2014)提出的方法进行改进，为距离特征点$p $较远的点分配较小的权重，较近的点则分配较大的权重，该方法可在存在噪声的情况下增加描述符的识别性，并解决了模型对称部分的描述符区分问题。为了提高鲁棒性，利用球面半径$R $内所有计算描述符的点来计算协方差矩阵$\mathit{\boldsymbol{M}} $。为了提高效率，忽略邻域质心的计算，用特征点$ p$来代替。因此，定义协方差矩阵$\mathit{\boldsymbol{M}} $为

$ \mathit{\boldsymbol{M}} = \frac{1}{{\sum\limits_{i:{d_i} \le R} {(R - {d_i})} }}{\rm{ }}\sum\limits_{i:{d_i} \le R} {(R - {d_i})} (R - {d_i})({p_i} - p){({p_i} - p)^{\rm{T}}} $

(2)

式中，${d_i} = {\left\| {{p_i} - p} \right\|_2} $表示求$ {d_i}$的2-范数。$\mathit{\boldsymbol{M}} $的特征向量需要消歧才能产生具有区别性的局部坐标系，使用奇异值分解(singular value decomposition，SVD)的消歧方法，重新定义特征向量的符号，使各向量的方向指向局部表面点分布的高密度方向。重新定义局部坐标系$ X$轴，$ Y$轴和$Z $轴上的符号，将3个特征向量分别称为$ {X^ + }$轴、$ {Y^ + }$轴和${Z^ + } $轴。对于${X^ - } $轴、$ {Y^ - }$轴和${Z^ - } $轴，用与其相反的特征向量来表示。$X $轴的正、负半轴分别定义为$ S_x^ + $和$S_x^ - $，具体计算为

$ S_x^ + \approx \{ i:{d_i} \le R \cap ({p_i} - p) \cdot {x^ + } \ge 0\} $

(3)

$ S_x^ - \approx \{ i:{d_i} \le R \cap ({p_i} - p) \cdot {x^\_} < 0\} $

(4)

消歧后的$ X$轴为

$ X = \left\{ {\begin{array}{*{20}{l}} {{x^ + }\;\;\;\;\left| {S_x^ + } \right| \ge \left| {S_x^ - } \right|}\\ {{x^ - }\;\;\;\;{\rm{其他}}} \end{array}} \right. $

(5)

使用相同过程消除$Z $轴的歧义，得出$ Y$轴为$Z \times X $。

对于局部直方图的建立，采用一个各向同性球面网格，沿径向、方位角和仰角对模型进行空间分区。由于每个网格都编码一个由局部直方图表示的具有较强描述性的区域，因此对空间区域的粗略划分，可以适当减少特征点的基数。以特征点$ p$为中心构造半径为$r $的球形区域，沿径向、方位角、仰角3个方向划分网格，其中径向2次，方位8次，仰角2次划分网格。如图 1所示，在每个子区域计算落入该区域点的法向量$ {\mathit{\boldsymbol{n}}_v}$和中心点$ p$的法向量${\mathit{\boldsymbol{n}}_p} $之间的夹角$\theta $的余弦值$ {\rm{cos}}\;\theta = {\mathit{\boldsymbol{n}}_p} \times {\mathit{\boldsymbol{n}}_v}$，根据计算的余弦值对落入每一个子区域的点数进行直方图统计，在直方图的横轴上选定区间[-1，1]，将其等分为11个组，描述符的维度为32×11，识别率最佳。然后对计算结果进行归一化，得到模型的352维特征描述符。

图 1 3维模型的局部坐标系

Fig. 1 Local coordinate system of 3D model

SHOT描述符是基于局部坐标系的，由于点的空间细分或局部坐标系扰动可能产生边界效应。通过将点分配到特定的直方图分组中，与其邻组执行四线性插值来避免描述符的边界效应。为了提高算法对点密度变化的鲁棒性，对每个分组进行标准化，即对于每个维度乘以权重值1- $ b$，其中，$b $是当前值与该分组中心值之间的差值。

3 自监督深度残差函数映射网络

目前，传统的基于深度函数映射理论计算非刚性形变的3维模型对应关系的方法大多采用监督机制对模型进行训练以获取模型的描述符。但是，采用监督机制训练网络时需用到手工标记的模型间的真实对应关系作为约束，手工标记工作费时费力，具有很大的局限性。为此，本文拟采用无监督的机制——自监督深度残差函数映射网络。

3.1 网络架构

自监督深度残差函数映射网络(self-supervised deep residual functional maps network，SSDRFMN)是基于描述符学习的孪生残差神经网络(siamese residual network，SRN)(Wang等，2018)构建的，包含两层完全相同的网络，其中每一层网络包含9个完全连通的残差层，两层网络中的残差层之间共享权值。将计算函数映射关系的深度函数映射(deep functional maps，DFM)层和计算模糊对应关系的SC(soft maps)层构建到网络结构中，形成深度为13层的网络，并使用线性指数单元(exponential linear units，ELU)作为网络的激活函数。网络结构如图 2所示，对于输入的两个模型$X $和$ Y$，使用完全相同的两层网络学习每个模型的SHOT描述符，并将其映射到相应的Laplace特征基上。将训练后的描述符分别输入DFM层和SC层，分别输出函数映射矩阵$\mathit{\boldsymbol{C}} $和模糊对应矩阵$\mathit{\boldsymbol{P}} $，通过模糊对应矩阵将函数映射恢复到点到点映射。最后，利用自监督损失函数计算模型间的测地距离误差，对构建的对应关系的准确性进行评估。

图 2 自监督深度残差函数映射网络结构

Fig. 2 The architecture of SSDRFM

SSDRFMN网络的具体实现步骤如下：

1) 将一对模型的SHOT描述符输入网络中，通过相同的网络训练过程(共享权重$\mathit{\boldsymbol{w}} $)，不断提取模型的特征，产生优化的描述符$\mathit{\boldsymbol{F}} $、$\mathit{\boldsymbol{G}} $。

2) 将获得的描述符$ \mathit{\boldsymbol{F}}$、$ \mathit{\boldsymbol{G}}$投影到Laplace特征基$\mathit{\boldsymbol{\varphi }}$、$\mathit{\boldsymbol{\psi }} $上产生谱描述符$ \mathit{\boldsymbol{\hat F}}$、$\mathit{\boldsymbol{\hat G}} $。

3) 通过DFM层计算两个模型间的函数映射关系，即利用最小二乘法计算模型间的最优函数映射矩阵$ \mathit{\boldsymbol{C}}$。

4) 利用矩阵$ \mathit{\boldsymbol{C}}$，通过SC层计算出模糊对应矩阵$\mathit{\boldsymbol{P}} $，将模型之间的函数映射关系转换为点到点的映射关系。

5) 通过自监督损失函数${\ell _{{\rm{sel}}}} $，计算模型间的测地距离误差，即对计算出的模糊对应关系进行评估。

3.2 计算3维模型间的对应关系

本文在引入深度函数映射方法计算3维模型的对应关系的基础上，利用最小二乘法计算最优函数映射矩阵，构建出模型间的映射关系。然后再利用SC层计算模型间的模糊对应矩阵，将模型之间的映射关系恢复到点到点对应关系。最后，通过自监督损失函数对模型的对应关系进行评估。

给定两个3维模型，建模为2维黎曼流形$X $和$Y $，分别对应函数$ {f_i} \in {L^2}\left(x \right)和{g_i} \in {L^2}\left(y \right)$。定义模型$X $和$Y $的函数空间为${L^2}\left(x \right) = \{ f:x \to {\rm{\bf{R}}}\left\langle {f, f} \right\rangle {{\rm{ }}_x} < \infty \} $和${L^2}\left(y \right) = \{ f:y \to {\rm{\bf{R}}}\left\langle {f, f} \right\rangle {{\rm{ }}_y} < \infty \} $，$\bf{R} $为黎曼空间。将模型间的空间几何关系表示为对应函数的流形内积${\left\langle {f, g} \right\rangle _x} = {\smallint _x}f·g{\rm{d}}x $。为了将Laplace特征函数应用到3维曲面，使用特征值分解的方法，令$\Delta x{\phi _i} = {\lambda _i}{\phi _i} $，其中特征值$ (0 = {\lambda _1} \le {\lambda _2} \le \ldots)$形成离散谱表示，特征函数$\phi, \phi $，…形成2维黎曼流形函数空间$ f \in {L^2}\left(x \right)$的标准正交基。将函数$ f \in {L^2}\left(x \right)$展开为傅里叶级数，即

$ f\left( x \right) = \sum\limits_{i \ge 1} {{{\left\langle {{\phi _i},f} \right\rangle }_x}{\phi _i}\left( x \right)} $

(6)

使用Laplace特征函数的主要目的是用线性算子$T:{L^2}\left(x \right) \to {L^2}\left(y \right) $来表示对应关系，$T $表示模型$X $到模型$y $上的函数映射。线性算子$T $由矩阵$\mathit{\boldsymbol{C}} = ({c_{ij}}) $表示，其中${c_{ij}} = {\left\langle {{\psi _j},T{\phi _i}} \right\rangle _y},{\{ {\phi _i}\} _{i \ge 1}} $和${\{ {\psi _j}\} _{j \ge 1}} $分别是${L^2}\left(x \right) $和${L^2}\left(y \right) $上的正交基。定义Laplace特征函数为

$ Tf = \sum\limits_{i, j \ge 1} {{{\left\langle {{\phi _i}, f} \right\rangle }_x}{c_{ij}}{\psi _j}} $

(7)

函数映射将复杂的模型间对应关系计算转化为函数映射矩阵$\mathit{\boldsymbol{C}} $的计算。设两个3维模型对应的函数分别为${f_i} \in {L^2}\left(x \right) $和${g_i} \in {L^2}\left(y \right), i = 1, \ldots, q $，则通过傅里叶分解得到对应的矩阵分别为$ \mathit{\boldsymbol{\hat F}} = (\left\langle {\phi i, fj} \right\rangle x)$和$ \mathit{\boldsymbol{\hat G}} = (\left\langle {\psi i, gj} \right\rangle y)$。利用最小二乘法计算函数映射矩阵$\mathit{\boldsymbol{C}} $的最优解，具体为

$ \mathop {{\rm{min}}}\limits_C \left\| {\mathit{\boldsymbol{C\hat F - \mathit{\boldsymbol{\hat G}}}}} \right\|_{\rm{F}}^2 $

(8)

式中，${\left\| \cdot \right\|_{\rm{F}}} $为F范数。利用函数映射矩阵$ \mathit{\boldsymbol{C}}$构建3维模型间的初始映射关系，然后通过SC层计算模型之间的模糊对应矩阵$\mathit{\boldsymbol{P}} $，并将模型的函数映射关系恢复到点到点对应关系。模糊对应矩阵$\mathit{\boldsymbol{P}} $为

$ \mathit{\boldsymbol{P}} = {\left| {\mathit{\boldsymbol{ \boldsymbol{\varPsi} C}}{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}^{\rm{T}}}\mathit{\boldsymbol{A}}} \right|^ \wedge } $

(9)

式中，$\mathit{\boldsymbol{ \boldsymbol{\varPhi} }} $和$\mathit{\boldsymbol{ \boldsymbol{\varPsi} }} $是$ K$近邻矩阵，矩阵$\mathit{\boldsymbol{ \boldsymbol{\varPhi} }} $列向量为${\phi _i} $，矩阵$ \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}$的列向量为${\psi _j}, “{^ \wedge }” $表示对矩阵逐列归一化，$ \mathit{\boldsymbol{A}}$为模型$\mathit{\boldsymbol{X}} $的对角矩阵。模糊对应矩阵$ \mathit{\boldsymbol{P}}$表示对函数映射矩阵$\mathit{\boldsymbol{C}} $的$K $秩逼近，可以解释为模型$ \mathit{\boldsymbol{X}}$上的点$ x$映射到模型$\mathit{\boldsymbol{Y}} $上的点$y $的概率，如图 3所示。

图 3 模型X上的点映射在模型Y上

Fig. 3 Points on model X are mapped on model Y

为保证将模型$ \mathit{\boldsymbol{X}}$上的点映射到模型$ \mathit{\boldsymbol{Y}}$上对应点的附近，使对应关系更加精确，传统监督方法是利用几何结构损失函数对模糊对应关系的质量进行评估。定义模糊损失函数$\ell $为

$ \begin{array}{*{20}{c}} {\ell \left( {\mathit{\boldsymbol{X}},\mathit{\boldsymbol{Y}}} \right) = }\\ {\sum\limits_{\left( {x,y} \right) \in \left( {\mathit{\boldsymbol{X}},\mathit{\boldsymbol{Y}}} \right)} {P\left( {x,y} \right){d_y}(y,{G_T}\left( x \right)) = {{\left\| {\mathit{\boldsymbol{P}} \circ {\mathit{\boldsymbol{D}}_y}} \right\|}_{\rm{F}}}} } \end{array} $

(10)

式中，$P(x, y) $为模型$\mathit{\boldsymbol{X}} $和模型$\mathit{\boldsymbol{Y}} $之间点到点的对应关系，$ {d_y}\left({y, {G_T}\left(x \right)} \right)$为模型$\mathit{\boldsymbol{Y}} $上的点与模型$\mathit{\boldsymbol{X}} $上具有真实对应关系的点之间的测地距离，${\mathit{\boldsymbol{D}}_Y} $是模型$\mathit{\boldsymbol{Y}} $的测地距离矩阵，$ \circ $为矩阵的Hadamard积，${G_T} $为模型之间的真实对应关系。从式(10)可以看出，使用传统的监督方法评估模型间的对应关系时，需要将模型间的真实对应关系作为约束，这给计算带来了诸多不便。所以本文在Litany等人(2017)提出的有监督的深度函数映射(supervised deep functional maps，SDFM)算法的基础上，定义了自监督损失函数计算模型间的最小测地误差，以此评估对应关系的准确性。自监督网络的损失函数${\ell _{{\rm{sel}}}} $定义为

$ {\ell _{{\rm{sel}}}}\left({\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right){\rm{ }} = {\rm{ }}\frac{1}{{{{\left| X \right|}^2}}}\left\| {{\mathit{\boldsymbol{D}}_X} - {\mathit{\boldsymbol{Q}}^{\rm{T}}}{\mathit{\boldsymbol{D}}_Y}\mathit{\boldsymbol{Q}}} \right\|_{\rm{F}}^2 $

(11)

式中，矩阵$ \mathit{\boldsymbol{Q}} = \mathit{\boldsymbol{P}} \circ \mathit{\boldsymbol{P}}, {\mathit{\boldsymbol{Q}}^{\rm{T}}}$是$\mathit{\boldsymbol{Q}} $的转置矩阵，${{\mathit{\boldsymbol{D}}_X}} $是模型$\mathit{\boldsymbol{X}} $的测地距离矩阵，$ {\left| \mathit{\boldsymbol{X}} \right|}$是模型$ \mathit{\boldsymbol{X}}$上点的数量。由式(11)可以看出，该损失函数通过网络训练来最小化模型之间的测地距离误差，以模型间的几何约束代替手工标注的模型间的真实对应关系，实现网络的自监督学习。

4 实验结果与分析

本文算法的实验环境基于Linux Ubuntu 16.04操作系统，硬件环境为Intel Xeon E5-2620 v4 CPU和NVIDIA Quadro M4000 GPU(8 GB内存)处理器，编程开发环境为CUDA-Toolkit 8.0，编程语言为Python 2.7，深度学习框架为TensorFlow。

4.1 实验数据集

选用MPI-FAUST和TOSCA数据集进行实验。MPI-FAUST数据集包含300个高分辨率人体模型，且已标注模型间的真实对应关系。其中训练集包括100个人体模型及相应模型的真实对应关系，测试集包括200个人体模型。为了确保真实的评估效果，不保留测试集模型间的真实对应关系。TOSCA高分辨率数据库共80个对象，包括猫、狗、狼、马等8种不同类别的3维模型数据。同一类中的对象具有相同的三角面片数量和相同数量以兼容方式编号的顶点，可以用作对应实验中每个顶点的真实对应关系。

4.2 网络参数设置与性能评价

使用ADAM优化器对网络的训练过程进行优化，初始学习率为0.001，1阶矩估计的指数衰减率为0.9，2阶矩估计的指数衰减率为0.999。根据普林斯顿基准协议(Princeton benchmark protocol，PBP)(Kim等，2011)对模型的对应关系质量进行评估。假设计算出一对模型的对应关系为$\left({x, y} \right) \in \left({X, Y} \right) $，其真实对应关系是$(x, {y^ * }) $。定义测地误差$ \varepsilon (x)$为

$ \varepsilon \left(x \right) = \frac{{\mathit{\boldsymbol{d}}y(y, {y^*})}}{{area{{\left(\mathit{\boldsymbol{Y}} \right)}^{1/2}}}} $

(12)

式中，${\mathit{\boldsymbol{d}}y} $表示模型$Y $计算出的对应关系与真实对应关系间的测地距离矩阵，${{y^*}} $为模型$\mathit{\boldsymbol{Y}} $的真实对应关系，用$area{(\mathit{\boldsymbol{Y}})^{1/2}} $进行标准化。

4.3 实验结果分析

图 4是本文算法与SDFM算法(Litany等，2017)、频谱上采样(spectral upsampling，SU)算法(Melzi等，2019)在FAUST模型库中的人体模型和TOSCA模型库中的猫模型和狗模型所构建对应关系的可视化对比结果，图中两列为一组。

图 4 3维模型的函数映射关系比较

Fig. 4 Comparison of the function map between 3D models

((a) SDFM; (b) SU; (c) ours)

图 4(a)是使用SDFM算法构建的一组模型的匹配结果，可以看出在该组模型中，人体模型的腹部、腿部、胳膊等部位都出现了错误匹配的情况；狗模型的左右后腿、猫模型的前后爪等部位，由于映射分布过于相似，导致对应关系也出现了部分对应错误。主要是由于使用SDFM算法构建的描述符对3维模型的对称结构不敏感，而且在有噪声干扰的情况下容易出现模型描述符失真。图 4(b)是使用SU算法计算出的人体模型、狗模型和猫模型对应关系的可视化结果，可以看出该组人体模型的手部、胳膊和腿等部位出现了错误匹配；狗模型的前后腿、猫模型的前后腿、猫模型的头部等部位出现了错误的对应。由于模型自身对称性的影响，SU算法无法有效区分模型左右对称的部分，产生的映射分布过于相似，导致计算出的模型间对应关系不正确。图 4(c)是通过本文算法构建的对应关系。由于改进了直方图签名描述符，计算出的描述符能更好地表示3维模型的本征属性，有效区分了模型对称结构的相似部分。人体模型的胳膊和腿、狗模型的前后腿和猫模型的前后爪、头部等部位都有着不同的映射分布，证明本文算法有效提高了对应关系的准确率，计算出的对应关系明显优于SDFM和SU算法。

图 5和图 6为描述符中去除与增加距离权值的实验结果对比。可以看出，图 5(a)中，狼模型前后腿的左右对称部位出现了错误对应。图 6(a)中，半人马模型的左侧前后腿、左后蹄等部位出现了错误对应。因为在计算3维模型对应关系时，去除了描述符中距离权值的设置，无法较准确地计算模型对称结构的函数映射关系，所以出现错误匹配。而图 5(b)和图 6(b)在模型描述符中增加了距离权值，可以计算出较准确的对应关系。因此，本文算法解决了由于模型对称结构导致的错误匹配。

图 5 去除与增加距离权值的狼模型的函数映射关系比较

Fig. 5 Comparison of the function map between wolf models with the distance weight removed and increased

((a) remove distance weight; (b) increase distance weight)

图 6 去除与增加距离权值的半人马模型的函数映射关系比较

Fig. 6 Comparison of the function map between centaur models with the distance weight removed/increased

((a) remove distance weight; (b) increase distance weight)

图 7是SSDRFMN网络训练迭代次数与模型对应关系的平均测地误差统计结果。测地误差越小，表示模型之间对应关系的正确率越高。可以看出，随着网络训练次数的不断增加，模型对应关系的平均测地误差不断减小。当迭代次数为25 000次时，测地误差的收敛趋于稳定。表 1是使用SDFM、SU与本文算法计算的模型间对应关系的测地距离误差对比。可以看出，本文算法可以有效降低模型间对应关系的测地距离误差。

图 7 模型对应关系的平均测地误差

Fig. 7 Average geodesic error of the correspondence between the models

表 1 模型间对应关系的测地误差
Table 1 Geodesic errors in correspondence between models

下载CSV

算法	horse	human (FAUST)	dog	human (TOSCA)	cat	gorilla	wolf	centaur
SDFM	38.65	3.6	27.51	30.27	27.53	16.54	25.43	34.76
SU	37.43	3.82	25.36	29.43	28.45	16.03	24.32	32.46
本文	35.42	2.15	24.38	28.99	25.64	15.43	23.21	31.34
注：加粗字体表示各列最优结果。

图 8为SSDRFMN网络在训练过程中网络损失函数的收敛情况。网络损失是拟合模型的预测值与真实值的不一致程度，用一个非负实值函数表示。网络损失越小，表示网络模型训练的结果越好。可以看出，随着网络训练次数的增加，网络损失不断减小，当迭代次数为30 000次时，SSDRFMN的网络损失趋于稳定。

图 8 迭代次数与网络损失统计结果

Fig. 8 Statistical results of iteration times and net loss

5 结论

本文提出了基于自监督深度残差函数映射网络(self-supervised deep residual functional maps network，SSDRFMN)的3维模型对应关系的计算方法。首先通过改进的直方图签名描述符计算方法计算源模型和目标模型的SHOT描述符，然后将源模型和目标模型的描述符输入SSDRFMN网络，通过DFM层计算模型间的函数映射矩阵，再利用SC层将函数映射关系恢复为点到点映射关系，最后通过自监督损失函数计算模型间的测地距离误差，评估对应关系的结果。实验结果表明，本文算法与现有算法相比，在没有模型间的真实对应关系作为监督学习的情况下，有效降低了模型对应关系的测地距离误差，解决了传统深度函数映射方法对模型对称结构不敏感而导致错误对应的问题，提高了模型对应关系的准确率，增强了在模型库间的泛化能力。但是，本文算法也存在不足之处。Laplace特征函数对模型拓扑结构的变化比较敏感，对于拓扑结构发生较大变化的模型无法得到较为精确的对应关系；另一方面，模型间的错误匹配通常发生在模型的边界附近，需要处理模型边界区域的描述符失真问题。

参考文献

Abbasi S, Tajeripour F. 2017. Detection of brain tumor in 3D MRI images using local binary patterns and histogram orientation gradient. Neurocomputing, 219: 526-535 [DOI:10.1016/j.neucom.2016.09.051]

Arbel N Y, Tal A, Zelnik-Manor L. 2019. Partial correspondence of 3D shapes using properties of the nearest-neighbor field. Computers and Graphics, 82: 183-192 [DOI:10.1016/j.cag.2019.05.011]

Aubry M, Schlickewei U and Cremers D. 2011. The wave kernel signature: a quantum mechanical approach to shape analysis//Proceedings of 2011 IEEE International Conference on Computer Vision Workshops. Barcelona, Spain: IEEE: 1626-1633[DOI: 10.1109/ICCVW.2011.6130444]

Furuya T and Ohbuchi R. 2015. Diffusion-on-manifold aggregation of local features for shape-based 3D model retrieval//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. Shanghai, China: ACM: 171-178[DOI: 10.1145/2671188.2749380]

Groueix T, Fisher M, Kim V G, Russell B C and Aubry M. 2018. 3D-coded: 3D correspondences by deep deformation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 230-246[DOI: 10.1007/978-3-030-01216-8_15]

Halimi O, Litany O, Rodolà E, Bronstein A and Kimmel R. 2019. Self-supervised learning of dense shape correspondence[EB/OL].[2019-07-25]. https://arxiv.org/pdf/1812.02415.pdf

Kim V G, Lipman Y, Funkhouser T. 2011. Blended intrinsic maps. ACM Transactions on Graphics, 30(4) [DOI:10.1145/2010324.1964974]

Litany O, Remez T, Rodolà E, Bronstein A and Bronstein M. 2017. Deep functional maps: structured prediction for dense shape correspondence//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 5659-5667[DOI: 10.1109/ICCV.2017.603]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Version. Amsterdam, the Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]

Mahmoudi M, Sapiro G. 2009. Three-dimensional point cloud recognition via distributions of geometric distances. Graphical Models, 71(1): 22-31 [DOI:10.1016/j.gmod.2008.10.002]

Melzi S, Ren J, Rodolà E, Sharma A, Wonka P, Ovsjanikov M. 2019. ZoomOut:spectral upsampling for efficient shape correspondence. ACM Transactions on Graphics, 38(6) [DOI:10.1145/3355089.3356524]

Ovsjanikov M, Ben-Chen M, Solomon J, Butscher A, Guibas L. 2012. Functional maps:a flexible representation of maps between shapes. ACM Transactions on Graphics, 31(4) [DOI:10.1145/2185520.2185526]

Pottmann H, Wallner J, Huang Q X, Yang Y L. 2009. Integral invariants for robust geometry processing. Computer Aided Gemetric Design, 26(1): 37-60 [DOI:10.1016/j.cagd.2008.01.002]

Rodolà E, Cosmo L, Bronstein M M, Torsello A, Cremers D. 2017. Partial functional correspondence. Computer Graphics Forum, 36(1): 222-236 [DOI:10.1111/cgf.12797]

Salti S, Tombari F, Di Stefano L. 2014. SHOT:unique signatures of histograms for surface and texture description. Computer Vision and Image Understanding, 125: 251-264 [DOI:10.1016/j.cviu.2014.04.011]

Su H, Maji S, Kalogerakis E and Learned-Miller E. 2015. Multi-view convolutional neural networks for 3D shape recognition//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 945-953[DOI: 10.1109/ICCV.2015.114]

Sun J, Ovsjanikov M, Guibas L. 2009. A concise and provably informative multi-scale signature based on heat diffusion. Computer Graphics Forum, 28(5): 1383-1392 [DOI:10.1111/j.1467-8659.2009.01515.x]

Tombari F, Salti S and Di Stefano L. 2010. Unique signatures of histograms for local surface description//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Greece: Springer: 356-369[DOI: 10.1007/978-3-642-15558-1_26]

Wang Q, Teng Z, Xing J L, Gao J, Hu W M and Maybank S. 2018. Learning attentions: residual attentional siamese network for high performance online visual tracking//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4854-4863[DOI: 10.1109/CVPR.2018.00510]

Yang J, Shi J D. 2018. Coarse-to-fine calculation for 3D isometric shape correspondence. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 30(6): 803-811 (杨军, 史纪东. 2018. 由粗到精的三维等距模型对应关系计算. 重庆邮电大学学报(自然科学版), 30(6): 803-811) [DOI:10.3979/j.issn.1673-825X.2018.06.011]

Yang J, Yan H. 2018. An algorithm for calculating shape correspondences using functional maps by calibrating base matrix of 3D Shapes. Geomatics and Information Science of Wuhan University, 43(10): 1518-1525 (杨军, 闫寒. 2018. 校准三维模型基矩阵的函数映射的对应关系计算. 武汉大学学报(信息科学版), 43(10): 1518-1525) [DOI:10.13203/j.whugis20160493]

Yang J, Li L J, Tian Z H, Wang X P. 2014. Research on shape correspondence of 3D isometric models differing by non-rigid deformations. Journal of Frontiers of Computer Science and Technology, 8(8): 1009-1016 (杨军, 李龙杰, 田振华, 王小鹏. 2014. 非刚性变换的三维等距模型的对应关系研究. 计算机科学与探索, 8(8): 1009-1016) [DOI:10.3778/j.issn.1673-9418.1405013]

Yang J, Yan H, Wang M Z. 2016. Calculation of correspondences between three-dimensional isometric shapes with the use of a fused feature descriptor. Journal of Image and Graphics, 21(5): 628-635 (杨军, 闫寒, 王茂正. 2016. 融合特征描述符约束的3维等距模型对应关系计算. 中国图象图形学报, 21(5): 628-635) [DOI:10.11834/jig.20160510]

Zheng Y Z. 2012. Microsoft Kinect sensor and its effect. IEEE Multimedia, 19(2): 4-10 [DOI:10.1109/MMUL.2012.24]