论文引用格式:Zhang Q, Zhao J Y and Chen H. 2023. A vectorized spherical convolutional network for recognizing 3D mesh models with unknown rotation. Journal of Image and Graphics, 28(04):1091-1103(引用格式:张强, 赵杰煜, 陈豪. 2023. 面向识别未知旋转的3维网格模型的矢量型球面卷积网络. 中国图象图形学报, 28(04):1091-1103)[0 引言人类视觉系统能从不同角度识别出同一个3维目标,只要角度不是特别大,这种感知仿射变换的能力是与生俱来的(Gu和Tresp,2020)。卷积神经网络(convolutional neural network,CNN)已在图像分析领域取得极大成功,并广泛用于分类(Touvron 等,2019)、分割(Mohan和Valada,2021)和检测(Wang 等,2020)等多项任务中。但与人类视觉系统识别不同的是,CNN仍需要在经大量变换增强的数据集上训练后,才能保证对仿射变换的鲁棒性(Gu和Tresp,2020)。CNN对仿射变换的鲁棒性之所以较差,是因为池化操作丢失了等变性(Patrick等,2022)。池化虽然能减少网络的计算量,但也丢失了部分信息。等变性是CNN特征提取能力的重要考量。一个模型对某种变换是等变的意味着,输入的变换和模型输出的变换是可交换的(Zhang,2019)。等变网络的优点是不需大量训练数据,并能学到输入数据的位姿(Kosiorek 等,2019)。等变性缺失使CNN不能识别图像姿态、纹理、变形或部分到整体之间的关系(Sabour等,2017)。为解决CNN等变性缺失问题,Hinton等人(2017)提出胶囊网络(capsule network)。胶囊网络是一种矢量型网络,使用矢量型神经元代替传统网络的标量型神经元,并使用动态路由算法学习部分到整体之间的关系。矢量型网络(Sabour等,2017)在MNIST(modified national institute of standards and technology)数据集上取得了较好的效果,并展现出优秀的姿态提取能力,引起许多研究者关注和跟进。Gu等人(2021)认为动态路由算法(Sabour等,2017)损伤网络对仿射变换的鲁棒性,提出直接使用平均方式来计算预测神经元而不需要任何路由过程。原本只适用于2维图像分类的矢量型网络应用到不同领域,如医学影像分割(刘畅 等,2021)、文本信息抽取(王县县 等, 2021)、音频分析(Iqbal等,2018)和3维视觉(Ahmad等,2018;Zhao等,2019)。计算机中表示3维的数据结构有网格(mesh)、体素和点云等。网格由1组多边形面片构成,每个面片由1组点和线描述;体素随着分辨率增长而指数级增长,大量消耗存储和计算资源;点云只由3维点构成,相比于网格丢失了底层结构信息。因此,研究3维网格的处理方法在视觉领域有重要的意义。相比2维图像数据,CNN用来处理3维网格困难重重。3维网格模型结构复杂,难以像2维卷积那样直接应用形状规范的卷积核。为将CNN应用到网格模型上,Su等人(2015)基于多视图的方法将3维目标转化为多个视角的2维图像,并分别使用2维CNN进行处理,但3维转换2维丢失了空间姿态信息;Hanocka等人(2019)使用基于特定边的卷积操作符和基于边折叠的池化操作符,设计的卷积网络能够简捷地对3维网格进行卷积;王玉洁等人(2022)提出一个基于非局部图CNN的本征分解算法,引入的图卷积模块以显式的方式利用特征图中的非局部线索,但池化操作都使得网络丢失了等变性。为设计利于处理网格的卷积算子,同时保证网络的等变性,研究者将3维目标转化为球面信号,并设计基于球面信号的CNN,如深度球面(deep sphere)卷积网络(Defferrard等,2020)和球面卷积神经网络(spherical convolutional neural network, SCNN)(Cohen等,2018;Esteves等,2018)。矢量型网络(Sabour等,2017)能学习到关于输入数据等变的数据表征,在3维网格特征学习上有重要借鉴意义,但是3维网格结构复杂,矢量型网络(Sabour等,2017)难以直接应用。目前矢量神经元(Sabour等,2017)在特定数据上的应用往往基于现有较为成熟的卷积算子(Ahmad等,2018;Iqbal等,2018;Zhao等,2019)。考虑到识别3维目标是旋转不变的任务,即旋转一个3维目标不改变其本质,本文将3维网格数据转化为等价的分布在球面上的信号。由于传统的CNN(Touvron等,2019)和Transformer(Vaswani等,2017)无法保证旋转的等变性,并且不能直接用于球面数据,因此本文使用球面卷积算子(Cohen等,2018)进行特征提取。本文提出一种基于矢量型球面卷积网络(vectorized spherical convolutional neural network,VSCNN)的旋转3维网格模型分类方法。首先将3维网格模型映射到单位球上,获得分布在球面上的表征;其次使用提出的球面卷积模块和矢量卷积层来构建深层矢量型球面卷积网络VSCNN;在训练阶段使用重建网络配合VSCNN进行训练,在测试时基于分类矢量神经元进行类别判定,能很好地识别旋转的3维目标。VSCNN在识别未经旋转的3维模型任务上,准确率获得一定提升;对于识别未知旋转的3维网格模型任务,在刚性数据集ModelNet40和非刚性数据集SHREC15(shape retrieval contest 2015)上,准确率分别达到85.2%和90.4%,分别超越基准方法7.7%和8.8%。1 相关工作1.1 矢量型网络为解决CNN等变性缺失问题,研究者设计矢量型网络(Sabour等,2017;Hinton等,2018;Kosiorek等,2019),或利用群变换的等变性(Cohen等,2018),或设计新型卷积核(Oyallon和Mallat,2015),或将矢量型网络和群等变网络结合起来,以保证网络的等变性和不变性(Lenssen等,2018)。Hinton团队提出了矢量型网络(Sabour等,2017),该方法具有两个特点:1)使用矢量神经元而非传统网络的标量神经元。矢量的方向表示实例化参数(例如位置、尺寸、方向、变形、色相和纹理等),矢量长度表示实例存在的概率。2)使用动态路由算法前向计算下一层神经元输出。矢量型网络(Sabour等,2017)表现出优秀的姿态学习能力,但存在许多局限。一方面,矢量型网络使用的动态路由算法大幅增加了计算量,使得训练时间长且难以收敛。Wang和Liu(2018)用优化的角度来分析动态路由算法,认为动态路由在原理上等价于最小化当前耦合分布和上一个状态之间的聚类耦合损失加上一个正则项,并根据聚类分析目标函数提出了相关的优化策略。Zhang等人(2021)将动态路由推广到核密度估计(kernel density estimation,KDE),并基于加权的KDE提出路由算法,相比于原路由算法降低了40%的计算量。Li等人(2018)改进原版路由策略,提出使用两个分支协同工作,主分支从底层的直接连接搜集初级信息,从分支基于其他初级矢量神经来补充主分支。Gu 等人(2020,2021)从矢量网络的等变性分析,认为动态路由算法损伤网络的等变性,直接移除路由方法可以带来更好的效果。另外,矢量型网络(Sabour等,2017)无法直接应用于复杂多样的3维数据。Zhao等人(2019)提出了一个自编码网络来处理3维点云数据,并使用动态路由来学习潜在的嵌入矢量神经元。该方法在3维局部特征点提取、3维生成和3维分类等任务上获得显著效果,在应对3维旋转问题上效果提升显著。Zhao等人(2020)提出一个对3维变换等变以及平移不变的3D矢量模块,在3维点云分类和3维点云旋转估计任务上获得显著效果。1.2 球面CNN与3维视觉球面CNN主要有两种类型(Esteves等,2020)。第1种是将输入扩展到旋转群SO(3)上的函数,并在之上应用卷积,由于SO(3)具有一个额外的维数,因此在计算上是昂贵的;第2种是直接在球面上应用卷积,但仅限于各向同性的卷积核,使得表达能力受限。对于第1种类型,Cohen等人(2018)和Esteves等人(2018)几乎同时提出一种旋转等变的球面卷积神经网络,与传统的球面信号处理不一样,它们将相关运算扩展到SO(3)旋转空间,尽管能高效地实现快速傅里叶变换运算,但由于将卷积扩展到了SO(3)空间,计算参数量仍然巨大。对于第2种类型,Esteves等人(2020)从物理学的引力波中引入了自旋加权球面函数,并定义自旋加权函数之间的卷积,构建了一种新型球面CNN,不需离开球形域即可以高效地进行各向异性过滤。自旋加权球面函数是球面上的复数值函数,相位会随着旋转而改变。Zhang等人(2018)提出一种新型球面CNN并应用在360°视频显著性检测任务上,定义卷积为卷积核沿着球体的旋转,并提出对要卷积的位置进行拉伸和旋转以使其和卷积核进行匹配。该方法具有参数共享的优点,减少了要学习的参数。Jiang等人(2019)针对非结构化网格上的CNN,提出了一种参数化差分算子,并提出了一种有效的卷积核,这种卷积核用差分运算符的线性组合替换了常规的卷积核,这些组合由可学习的参数加权。由于球面信号的不变性和球信号相关方法的高效实现,球面CNN在3维形状分析领域得到相关应用。早在深度学习出现之前,用球面信号来表征3维数据就有相关研究(Kazhdan和Funkhouser,2002; Frome等,2004)。Jiang等人(2019)提出的方法在ModelNet40上获得了90.5%的准确率。Rao等人(2019)提出了一种用于点云分析的球面分形CNN,首先将具有提取特征的点云投影到相应的球形点上,然后使用图卷积进行分类和对象分割,在ModelNet40上获得了92.5%的分类准确率。2 矢量型球面卷积网络基于矢量型球面卷积网络的3维网格处理框架如图 1所示,主要由球面投影预处理、分类网络和重建网络3部分组成。分类网络由本文设计的S2卷积残差块、SO(3)卷积残差块和矢量卷积层组成。分类网络的输出是一组用以指示类别属性的分类矢量神经元。为增强网络特征学习能力,使用多层感知机作为重建网络对正确类别的矢量神经元进行解码,重建出分布在球面空间的信号。输入的3维网格通过球面投影得到球面信号,在训练阶段同时使用分类网络和重建网络进行特征学习,在测试阶段只通过分类网络判定3维模型的类别信息。10.11834/jig.211205.F001图 1基于矢量型球面卷积网络的3维网格分析框架Fig.13D shape analysis framework based on vector spherical convolutional network2.1 球面信号卷积理论平移等变性使2维卷积能够提取到局部特征。类似2维卷积,旋转等变性使球面卷积能提取到球面信号的局部特征(Cohen等,2018)。本节对文中涉及的球面卷积理论进行介绍(Cohen等,2018;Esteves,2020)。1)S2信号。分布在球面空间S2的信号,又称球面信号或球面图像。定义为f:S2→RK,其中,K是通道数。2)SO(3)信号。符号SO(3)来自群论,表示3维旋转的集合。SO(3)空间的元素常用ZYZ欧拉角来表示。设P∈SO(3),则P由α∈[0,2π],β∈[0,π],γ∈[0,2π]这3个参数决定,具体为P=P(α, β, γ)=Z(α)Y(β)Z(γ)=cosα-sinα0sinαcosα0001·cosβ0sinβ010-sinβ0cosβ·cosγ-sinγ0sinγcosγ0001 (1)式(1)的物理含义为分别沿Z轴、Y轴和Z轴旋转角度α、β和γ。SO(3)信号即分布在3维旋转正交群SO(3)上的信号,定义为 f:SO(3)→RK,其中,K是通道数。3)S2卷积。设球面信号为f:S2→RK,卷积核为g:S2→RK,其中,K是通道数。使用*符号表示群等变的卷积运算符(也称相关运算符)。数学上,球面信号与卷积核之间的卷积运算,即S2卷积,其定义为[g*f](P)=∫S2∑k=1KgkP-1xfk(x)dx (2)式中,P∈SO(3),这里S2卷积的输出结果是在SO(3)空间的函数,使用[g*f](x)表示g和f两个信号卷积的结果在位置x上的值。4)SO(3)卷积。设SO(3)信号为 f:SO(3)→RK,卷积核为 g:SO(3)→RK,其中,K是通道数。数学上,SO(3)信号与卷积核的卷积运算,即SO(3)卷积,其定义为[g*f](P)=∫SO(3)∑k=1KgkP-1Qfk(Q)dQ (3)式中,P,Q∈SO(3)。SO(3)卷积的输出结果也是SO(3)空间的函数。使用S2卷积和SO(3)卷积这两种具备旋转等变性的算子能够有效提取分布球面上的局部特征。5)球面信号傅里叶变换。为了减少卷积的计算量,提高计算速度,使用群理论中的广义傅里叶变换(generalized Fourier transform,GFT)(Kostelec和Rockmore,2007)将球面信号和卷积核变换到谱域。设X为S2或SO(3),对于一个信号f:X→R,其GFT为f^l=∫X f(x)Ul(x)¯dx (4)式中,Ul(x)¯为基函数,Ul(x)¯表示Ul(x)¯元素取共轭复数。当X为S2时,Ul(x)¯是一个向量值函数;当X为SO(3)时,Ul(x)¯是一个矩阵值函数; l表示度数,l=0,1,⋯,(B-1),B为单位球的分辨率(Kostelec和Rockmore,2007),本文取B=32。Ul(x)¯的具体计算方法可以参考Kostelec和Rockmore(2007)的方法。6)卷积定理。设X为S2或者SO(3),两个信号分别为f:X→R和g:X→R。根据卷积定理(Cohen等,2018),两个信号卷积的傅里叶变换等于对应傅里叶变换后的积,具体为g*f^l=f^lg^l† (5)式中, f^l表示f傅里叶变换后对应度数为l的信号,g^l†表示g^l的共轭转置矩阵。式(5)的证明可参考Jiang等人(2019)的工作。7)球面信号逆快速傅里叶变换。在谱域完成卷积后,用逆快速傅里叶变换(inverted fast Fourier transform, IFFT)将谱信号f^l变换回SO(3)空间,具体为f(g)=∑l=0B-1(2l+1)∑M=-ll ∑M'=-llf^MM'lDMM'l(g) (6)式中,g∈SO(3),Dl(g)为Wigner-D矩阵,是定义在SO(3)空间上的矩阵函数,当度为l时,矩阵大小为(2l+1)(2l+1)。用傅里叶变换将球面信号变换到谱域,在谱域完成计算后再计算傅里叶逆变换,时间复杂度相比直接计算,由O(n2)降到O(n×logn)(Cohen等,2018)。2.2 3维网格球面投影使用光线投射方法(Cohen等,2018)处理3维网格模型,得到近似的球面信号表示。首先,将3维模型规范到一个单位球内,这一步骤需要将3维模型中心平移到球心,并将边长规范在0~1之间;其次,通过等角采样(Driscoll和Healy,1994)得到离散化单位球;最后,从离散化的单位球上的每个点向球心发射射线,取射线与3维模型第1个交点的线段距离,以及射线与该面法向量夹角的正弦值和余弦值为原始特征,若射线与模型没有交点,则设上述3种特征值为零。为了进一步增强分布在球面上的数据,获取更丰富的3维模型表征,本文又用同样的方式对3维模型的凸包进行相同的采样操作。为研究本文方法的旋转等变性,将原始未旋转(no rotation, NR)的3维网格进行随机旋转(arbitrary rotation, AR)获得旋转后的3维网格。经预处理后,每个3维网格获得一个S2→R2的球面信号,本文取K=6。图2为不同旋转设置下3维目标及其投影到球面上的可视化。其中,图 2(a)为原3维模型,图 2(b)上下两行分别表示原模型及其凸包投影到球面上的可视化,每行从左至右为距离、正弦值和余弦值图;图 2(c)和图2(d)分别为旋转的网格及其球面可视化。通过球面投影预处理方式所获得的球面信号,即为3维网格的近似表示。10.11834/jig.211205.F002图 2球面预处理的结果可视化Fig.2Visualization of the result of spherical preprocessing((a)3D mesh without rotation; (b)visualization of the unrotated 3D mesh on spheres; (c)3D mesh with random rotation;(d)visualization of the randomly rotated 3D mesh on spheres)2.3 球面卷积模块为训练深层网络和防止过拟合,本文分别为S2信号和SO(3)信号设计残差块,如图3所示。为了避免梯度爆炸或梯度消失,本文使用批归一化(batch normalization,BN)(Ioffe和Szegedy,2015),并使用缩放指数型线性单元(scaled exponential linear unit,SELU)(Klambauer等,2017)作为激活函数。图3(a)为S2卷积残差块,包括两路,一路由S2卷积和SO(3)卷积组成,另一路由SO(3)卷积组成,两路计算结果进行求和。S2卷积残差块的输入为S2信号,输出为SO(3)信号。图3(b)为SO(3)卷积残差块,包括两路,所有的卷积运算均由SO(3)卷积构成,两路计算结果进行求和。SO(3)卷积残差块的输入和输出均为SO(3)信号。10.11834/jig.211205.F003图 3两种球面卷积残差块Fig.3Two kinds of spherical convolutional residual block((a)S2 convolutional residual block;(b)SO(3) convolutional residual block)首先使用S2卷积残差块将球面信号转化为SO(3)空间的特征,即SO(3)→RKs,其中,Ks表示通道数;接着使用SO(3)卷积残差块构造初级矢量神经元,即SO(3)→RNcKc,其中,Nc和Kc分别表示初级矢量神经元的个数和维度。得到初级矢量神经元后,使用矢量卷积层学习低层和高层矢量神经元之间的关系,进而构建深层矢量网络。2.4 矢量卷积层矢量卷积层定义球面上低层神经元到高层的计算方式。Sabour等人(2017)将基本神经元编码为一组属性,并使用变换矩阵推理高层矢量神经元。为保证球面矢量神经元在卷积时仍是等变的,本文使用SO(3)卷积算子完成对高层神经元的预测。设第l层第i个矢量神经元为fil:SO(3)→Rdl,第l + 1层第j个矢量神经元为fil+1:SO(3)→Rdl+1,其中i∈0,⋯,Nl-1,j∈0,⋯,Nl+1-1,dl和dl+1分别为第l层和第l + 1层矢量神经元长度,Nl和Nl+1分别表示第l层和第l + 1层矢量神经元个数。为保证矢量卷积的等变性,使用等变的SO(3)卷积算子对高层矢 量神经元进行预测,具体为fjil+1(P)=[gjil+1* fil](P) (7)式中, fjil+1为fil对下一层第j个矢量神经元的预测,gjil+1为对应的SO(3)卷积核,P∈SO(3)。由于动态路由(Sabour 等,2017)破坏了网络的等变性(Gu等,2021),为在矢量卷积层保证网络的旋转等变性,本文采用对预测矢量神经元取平均(Gu等,2021)的方法得出下一层的矢量神经元。对所有的fjil+1取平均,得到第l + 1层第j个矢量神经元sjl+1,即sjl+1=1Nl∑i=0Nl-1fjil+1 (8)直接取平均的方式减少了迭代式动态路由(Sabour等,2017)的计算量,并能够保证网络的等变性。矢量神经元的模长表示其存在概率,为将概率值规范到0~1之间,采用压缩函数(Sabour等,2017)对矢量神经元进行规范化。规范化后的神经元为矢量卷积层输出。对sjl+1进行规范化的方法为fjl+1=sjl+121+sjl+12·sjl+1sjl+1 (9)初级矢量神经元通过矢量卷积层推理得到更高级的矢量神经元。通过堆叠矢量卷积层,以构建深层次矢量型网络。2.5 损失函数使用边缘损失Lm训练分类网络,重建损失Lrc训练重建网络。训练阶段,总损失为二者之和,即L=Lm+λrLrc (10)本文依据Sabour等人(2017)采用的λr=0.000 5的参数设置,使得重建损失在训练时不占主要成分。分类网络的输出是一组指示类别的矢量神经元,边缘损失增大正确预测的矢量神经元模长,缩小错误预测的矢量神经元模长。边缘损失函数为Lm=∑k=0K-1[Tkmax(0, m+-vk)2+λ(1-Tk)max(0,vk-m-)2] (11)式中,vk表示类别为k的分类矢量神经元,m+=0.9,m-=0.1,λ=0.5,如果类别k分类正确则Tk=1,否则Tk=0。为增强特征学习能力,使用多层感知机作为解码器,以将分类网络学习到的特征重建回球面。与 Sabour 等人(2017)方法不同的是,本文使用正确分类的矢量神经元进行解码,这样可以减少重建网络的参数。重建损失Lrc为Lrc=(x-x')2 (12)式中,x为真实球面信号,x′为重建球面信号。2.6 算法描述基于VSCNN的3维网格模型分类算法的主要包括3个步骤: 1)使用球面投影方法获得3维网格模型对应的球面信号;2)在训练阶段,使用分类网络和重建网络对球面信号进行特征学习,其中分类网络用于提取该模型每个类别所指示的矢量神经元,而重建网络对指示正确类别的矢量神经元进行重建;3)在测试阶段,只使用分类网络进行类别判定。算法详细步骤如下:输入:训练集D、测试集T、最大训练轮数P。输出:测试集的结果标签列表A。1)对D中每个3维网格模型M。(1)用球面投影方法将M转为球面信号x;(2)用分类网络计算x得到矢量神经元v;(3)选取表示M类别的矢量神经元vk,用重建网络将其重建回球面空间得到Lrc;(4)根据式(10)计算损失;(5)梯度下降优化网络参数。2)如果没有达到最大训练轮数P,重复步骤1)。3)对T中的每个3维网格模型M。(1)用球面投影方法将M转为球面信号x;(2)用分类网络计算x得到矢量神经元v;(3)将v中模长最长矢量神经元所代表的类别,加入标签列表A。4)返回A。3 实验为验证本文方法在识别未知旋转的3维网格目标的优越性,分别在3维刚性数据集ModelNet40(Wu 等,2015)和非刚性数据集SHREC15(Lian等,2015)上进行旋转分类实验。ModelNet40是评价3D形状分析的CAD(computer-aided design)数据集,包含40个类别,训练集和测试集分别有9 843和2 468个3维模型。对于ModelNet40,使用默认的训练测试比例。SHREC15数据集含50类共1 200个形变3维模型,每类24个模型。在实验中,随机选择训练和测试数据使得占比分别为80%和20%。实验时,本文方法与Esteves 等人(2018)、Rao 等人(2019)、Spezialetti等人(2020)以及Poulenard和Guibas(2021)的方法一样使用3种不同的训练/测试组。1)训练数据不旋转,测试数据任意旋转(NR/AR);2)训练和测试数据均进行任意旋转(AR/AR);3)训练和测试数据均未旋转(NR/NR)。通过第1组设置考察不同方法识别位置旋转的能力;第2组设置对训练集旋转增强,可进一步提升对旋转的鲁棒性;第3组设置即常规的分类任务。使用的球面卷积方法和SCNN(Cohen等,2018)最相关,因此将其作为基准方法。与SCNN不同的是,本文使用矢量神经元构建矢量型网络,使用矢量卷积层作为矢量层间计算方式,并用重建去增强特征的学习能力。使用球面投影方法,将3维网格转化为6×64×64的球面信号作为网络输入。与2维矢量型网络(Sabour等,2017)不同的是,本文的输入是球面信号,需使用球面卷积方法进行处理,因此使用S2卷积残差块和SO(3)卷积残差块构进行初步特征学习,并构建初级矢量神经元。矢量卷积层的层数设为4层,并使用SO(3)积分获得最后的分类矢量神经元,使用与矢量型网络一样的重建网络,即使用隐层为256,512,1 024的多层感知机。实验环境为:操作系统为Ubuntu 18.04 LTS,CPU为Intel(R) Xeon(R) Silver 4116,频率为2.10 GHz,使用单张NVIDIA QuADro GP100显卡进行训练和测试,使用Python3.7+Pytorch1.2实现本文方法。使用Adam优化器(Kingma和Ba,2017)(β1=0.9,β2=0.999)对网络进行训练,其中,学习率设为0.005,学习率衰减设为0.1,批量大小8,所有模型均训练150轮。3.1 在刚性数据集ModelNet40的旋转分类实验将本文方法在基准数据集ModelNet40上的分类准确率与球面CNN方法(Cohen等,2018;Esteves等,2018)进行对比,并将基于其他3维表征的方法作为参考,包括基于点云的方法(Charles等,2017;Qi等,2017;Rao等,2019;Shen等,2020;Poulenard和Guibas,2021)和基于多视图的方法(Kanezaki等,2018)。本文方法和对比方法采用3种训练/测试策略在ModelNet40数据集上的准确率如表1所示。可以看出,在与球面CNN方法对比中在NR/AR任务上,本文取得的准确率为85.2%,在基于球面信号的方法中达到最高,在3个任务上均超越了基准方法SCNN(Cohen等,2018),表明了本文方法的有效性。对比球面卷积网络方法spherical CNN(Esteves等,2018),在识别未知旋转目标的NR/AR任务上也有显著提升。Compass(Spezialetti等,2020)将点云数据转为球信号,使用等变的球面卷积网络进一步学习目标方位角,是点云方法中与本文较为接近的方法,本文方法在NR/AR和NR/NR任务上分别优于其13%和7.6%。在与基于其他3维表征的方法对比中,基于点云的方法PointNet(Charles等,2017)和PoinetNet++(Qi等,2017)使用池化操作破坏了网络的等变性,因此在NR/AR和AR/AR任务的性能大幅下降;REQNN(rotation-equivariant quaternion neural network)(Shen等,2020)使用基于四元数特征应用在点云上,保证了网络的等变性从而保证旋转的鲁棒性,本文方法在NR/AR和NR/NR任务上分别优于其2.2%和5.1%;对于旋转不变方法SFCNN(spherical fractal convolutional neural network)(Rao等,2019)和旋转等变方法RETFN(rotation equivariant tensor field network)(Poulenard和Guibas,2021),本文方法在分类性能上有一定差距,原因在于球面投影获取的信息有限,可通过提升带宽B提取更多3维信息。基于多视图的方法(Kanezaki等,2018)使用暴力计算的方法接近等变性,其对旋转的鲁棒性依赖视图数量和角度的选取,而本文方法只需要进行一次球面投影,因此大幅减少了计算量。10.11834/jig.211205.T001表1不同方法采用不同训练/测试策略在ModelNet40数据集上的准确率Table1Classification accuracy with different training/ testing strategies of different mothods on ModelNet40 dataset方法输入类型准确率/%NR/ARAR/ARNR/NRPointNet点云14.783.689.2PointNet++点云28.685.089.3REQNN点云83.0-83.0SFCNN点云85.391.092.3RETFN点云89.789.789.7RotationNet多视图20.280.092.4Compass球面信号72.2-80.5SphericalCNN球面信号76.786.788.9SCNN球面信号77.584.585.0本文球面信号85.286.388.1注:加粗字体表示各列最优结果,-表示无数据。实验结果表明,本文提出的矢量型网络对于识别未知旋转目标非常有效,同时在识别不旋转目标上准确率也有显著提升。本文提出的矢量神经元作为网络基础神经元,提升了网络的等变性;提出的矢量卷积模块进一步保证等变性;使用自编码器结构的网络加强了特征学习能力。相比同类型球面方法,本文能更好地分析旋转目标特征。3.2 在非刚性数据集SHREC15的旋转分类实验为验证本文方法在分类旋转非刚性目标的优越性,在3维非刚性基准数据及SHREC15进行旋转分类实验,并对AR/AR和NR/NR两组实验进行对比。结果如表 2所示,在识别位置旋转的3维非刚性网格目标上,本文方法超越基准方法8.75%,在AR/AR和NR/NR任务上分别超越基准方法4.59%和5%。10.11834/jig.211205.T002表2本文方法和基准方法SCNN采用3种不同训练/测试策略在SHREC15数据集上的准确率Table2Classification accuracy with three different training/testing strategies of SCNN and ours on SHREC15方法输入类型准确率/%NR/ARAR/ARNR/NRSCNN球面信号81.6788.3386.25本文球面信号90.4292.9291.25注:加粗字体表示各列最优结果。3.3 影响因素分析为探究矢量型球面网络中不同设计的作用,在SHREC15数据集上进行影响因素分析。矢量型网络的设计方式影响分类准确率和模型等变性。网络设计的有关因素有:1)路由的方式;2)球面卷积残差块的使用;3)重建子模块使用。其中,不同路由方式影响特征提取和等变性,残差块与重建模块的使用影响模型的特征提取。将基于度中心的路由算法(Venkatraman等,2019)和不使用路由算法进行对比,以及控制残差块和重建模块的有无进行对比。结果如表3所示,其中,R表示使用度中心的路由算法,NoR表示不使用路由而直接对矢量神经元采用平均的方法。第1组实验表明,去掉路由直接使用平均值能取得更高的分类准确率以及模型等变性,也进一步说明路由损伤网络的等变性(Gu等,2021);第2、3组实验表明,球面卷积残差块和重建子模块可以加强模型特征提取能力,获得了更好的分类效果。10.11834/jig.211205.T003表3矢量型网络在SHREC15数据集上的消融实验Table3Ablation study of vectorized network on SHREC15 dataset组别影响因素准确率/%路由残差块重建NR/ARAR/ARNR/NR1R√√86.6788.7582.08NoR√√90.4292.9291.252NoR×√42.9144.5872.50NoR√√90.4292.9291.253NoR√×90.0091.2587.08NoR√√90.4292.9291.25注:加粗字体表示各组别中各列的最优结果,√表示采用,×表示未采用。球面的分辨率也对3维识别效果产生影响。越高的分辨率所采集的信息越丰富,但耗费计算资源越多。本文分别考量3种球面分辨率的输入,分别为64×64、32×32和16×16。不同球面信号分辨率下,在SHREC15数据集上的NR/NR任务的分类结果如表 4所示。所采取的模型设计为无路由、使用残差块和使用重建。通过表 4可知,将3维模型转化为球面信号的分辨率越高,分类性能越好。10.11834/jig.211205.T004表4在SHREC15数据集上不同球面信号分辨率下的准确率Table 4Classification results with respect to different spherical signal resolutions on SHREC15 dataset分辨率准确率/%64×6492.9232×3291.6716×1684.58注:加粗字体表示最优结果。为验证训练数据占比对实验结果的影响,本文将SHREC15训练数据分别划分80%,70%,60%,50%,40%,30%,并检验本文方法在3维分类任务的性能,结果如表 5 所示。10.11834/jig.211205.T005表5在SHREC15数据集上不同训练数据占比下的准确率Table 5Classification results with respect to different proportions of training data on SHREC15 dataset训练比例/%准确率/%8092.927090.776088.335086.984083.933077.81注:加粗字体表示最优结果。4 结论传统2维CNN无法直接应用于3维网格数据,且标量型CNN所使用的池化操作丢失部分特征,使网络缺乏等变性。对此,本文提出了一种通用的面向未知旋转3维网格模型的分类方法,使用矢量神经元和球面卷积方法保证网络的等变性。与现有3维分类方法相比,使用本文提出的矢量型网络设计和矢量卷积层模块,可在识别未知旋转的3维模型上获得较大的提升,展现矢量型网络学习旋转的能力。本文方法也有一定的局限性:1)基于等角采样的方式不能均匀地对球面数据进行采样,可能对所提取特征的丰富程度有所影响,可进一步研究如分层等面积隔离像素化等更均匀的采样方式;2)将3维模型转化为球面信号属于一种近似的表征方法,不同形状的3维模型所损失的信息不同,进而影响分类性能;3)将球面信号转化为SO(3)信号表征大幅增加了模型计算量,但可以更好地保证等变性。后续工作将研究更多、更丰富的3维到球面采样方式,以及设计参数量更少的矢量型旋转等变网络。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读