发布时间: 2019-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180501
2019 | Volume 24 | Number 5

综述

图像匹配方法研究综述

贾迪, 朱宁丹, 杨宁华, 吴思, 李玉秀, 赵明远

辽宁工程技术大学电子与信息工程学院, 葫芦岛 125105

收稿日期: 2018-08-24; 修回日期: 2019-03-17

基金项目: 国家自然科学基金项目（61601213）；中国博士后面上基金项目（2017M611252）；辽宁省教育厅项目（LR2016045，LJYL017）

第一作者简介: 贾迪, 1982年生, 男, 副教授, 博士生导师, 主要研究方向为立体匹配与3维重建、视觉空间定位。E-mail:lntu_jiadi@163.com;
杨宁华, 男, 硕士研究生, 主要研究方向为宽基线像对匹配。E-mail:lgdyangninghua@163.com;
吴思, 女, 硕士研究生, 主要研究方向为图像匹配与超分辨率重建。E-mail:lntu_ws@163.com;
李玉秀, 女, 硕士研究生, 主要研究方向为像对线特征匹配与应用。E-mail:lntu_lyx@163.com;
赵明远, 男, 硕士研究生, 主要研究方向为像对立体稠密匹配。E-mail:zju_zmy@163.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2019)05-0677-23

摘要

目的图像匹配作为计算机视觉的核心任务，是后续高级图像处理的关键，如目标识别、图像拼接、3维重建、视觉定位、场景深度计算等。本文从局部不变特征点、直线、区域匹配3个方面对图像匹配方法予以综述。方法局部不变特征点匹配在图像匹配领域发展中最早出现，对这类方法中经典的算法本文仅予以简述，对于近年来新出现的方法予以重点介绍，尤其是基于深度学习的匹配方法，包括时间不变特征检测器（TILDE）、Quad-networks、深度卷积特征点描述符（DeepDesc）、基于学习的不变特征变换（LIFT）等。由于外点剔除类方法常用于提高局部不变点特征匹配的准确率，因此也对这类方法予以介绍，包括用于全局运动建模的双边函数（BF）、基于网格的运动统计（GMS）、向量场一致性估计（VFC）等。与局部不变特征点相比，线包含更多场景和对象的结构信息，更适用于具有重复纹理信息的像对匹配中，线匹配的研究需要克服包括端点位置不准确、线段外观不明显、线段碎片等问题，解决这类问题的方法有线带描述符（LBD）、基于上下文和表面的线匹配（CA）、基于点对应的线匹配（LP）、共面线点投影不变量法等，本文从问题解决过程的角度对这类方法予以介绍。区域匹配从区域特征提取与匹配、模板匹配两个角度对这类算法予以介绍，典型的区域特征提取与匹配方法包括最大稳定极值区域（MSER）、基于树的莫尔斯区域（TBMR），模板匹配包括快速仿射模板匹配（FAsT-Match）、彩色图像的快速仿射模板匹配（CFAST-Match）、具有变形和多样性的相似性度量（DDIS）、遮挡感知模板匹配（OATM），以及深度学习类的方法MatchNet、L2-Net、PN-Net、DeepCD等。结果本文从局部不变特征点、直线、区域3个方面对图像匹配方法进行总结对比，包括特征匹配方法中影响因素的比较、基于深度学习类匹配方法的比较等，给出这类方法对应的论文及代码下载地址，并对未来的研究方向予以展望。结论图像匹配是计算机视觉领域后续高级处理的基础，目前在宽基线匹配、实时匹配方面仍需进一步深入研究。

关键词

图像匹配; 局部不变特征匹配; 直线匹配; 区域匹配; 语义匹配; 深度学习

Image matching methods

Jia Di, Zhu Ningdan, Yang Ninghua, Wu Si, Li Yuxiu, Zhao Mingyuan

School of Electronic and Information Engineering, Liaoing Technical University, Huludao 125105, China

Supported by: National Natural Science Foundation of China (61601213); China Postdoctoral Science Foundation Funded Project(2017M611252);Liaoning Provincial Department of Education Project(LR2016045, LJYL017)

Abstract

Objective Image matching, the core task of computer vision, is the key of subsequent advanced image processing, such as object recognition, image mosaic, 3D reconstruction, visual location, and scene depth calculation. Although many excellent methods have been proposed by domestic and foreign scholars in this field in recent years, no comprehensive summary of image matching methods has been reported. On this basis, this study reviews these methods from three aspects, namely, locally invariant feature points, straight lines, and regions. Method Locally invariant feature point matching first appeared in image matching development, such as Harris corner detector, features from accelerated segment test, and scale-invariant feature transform. The classical algorithms in this type of method are only briefly described in this paper. New methods, especially deep learning-based matching methods, including temporally invariant learned detector, Quad-networks, discriminative learning of deep convolutional feature point descriptors, and learned invariant feature transform (LIFT), are mainly introduced in recent years. Other methods, including bilateral functions for global motion modeling, grid-based motion statistics, and vector field consensus, are also introduced because the outer point culling method is often used to improve the accuracy of local invariant feature matching. Lines contain more scene and object structure information and are more suitable for matching image pairs with repeated texture information than local invariant feature points. Research on line matching should overcome various problems, such as inaccurate endpoint position, inconspicuous line segment, and segment fragmentation. The methods for solving such problems are line band descriptor, two-view line matching algorithm based on context and appearance, line matching leveraged by point correspondences, and new coplanar line point projection invariant. This paper introduces such methods from the perspective of problem solving process. Region matching is introduced from two aspects of region feature extraction and matching and template matching. Typical regional feature extraction and matching methods include maximally stable extremal regions, tree-based morse regions, template matching (including fast affine template matching), fast affine template matching for color images, deformable diversity similarity, occlusion aware template matching, and deep learning methods, such as MatchNet, L2-Net, PN-Net, and DeepCD. Medical image matching is an important application in the image matching field, which is significant for clinically precise diagnosis and treatment. This work introduces this type of method from the point of view of practical applications, such as fractional total variation-L¹ and feature matching with learned nonlinear descriptors. Result In the analysis and comparison of multiple image matching algorithms, the CPU with two cores at 3.4 GHz and with graphics card NVIDIA GTX TITAN X GPU are selected as the experimental environment of the computer. The test datasets are the Technical University of Denmark dataset and Oxford University dataset Graf. This paper summarizes and compares these methods from three aspects, namely, local invariant feature points, straight lines, and regions. The comparison results of influential factors in feature matching methods, mismatched point removal methods, between hand-crafted and learn-based descriptors, and matching objects and the implementation forms of semantic matching methods are also presented. The corresponding papers and downloaded code addresses of such methods are provided, and the future research directions of image matching algorithms are prospected. Conclusion Image matching is the basis for subsequent advanced processing in the computer vision field. This method is widely used in medical image analysis, satellite image processing, remote sensing image processing, and computer vision. At present, further research is required on wide baseline and real-time matching.

Key words

image matching; local invariant feature matching; line matching; region matching; semantic matching; deep learning

0 引言

图像匹配是图像分析和处理的基础，广泛应用于日常生活的诸多方面，如目标跟踪、超分辨率影像重建、3维重建、视觉导航等。图像匹配，即应用计算机和相应的数学理论对给定图像按照特定目的进行相应处理。早期图像匹配方法以角点检测与匹配为主，从Harris角点检测算子^[1]到FAST(features from accelerated segment test)检测算子^[2]，以及对这类角点检测算子的改进方法。SIFT(scale invariant feature transform)^[3]方法的提出将研究者的思维从角点检测中解放出来，是迄今为止被该方向引用最多的技术。目前，SIFT类方法不再占据主导地位，基于深度学习的图像匹配方法逐步兴起，这类图像匹配不再依据研究者的观察和专业知识，而是依靠数据的训练，匹配精确度更高。

文献[4]对SIFT及其改进方法予以总结，文献[5]对现代局部图像描述符进行了综述，然而在图像匹配的诸多方法中，局部不变特征点匹配仅是其中的一类方法，直线匹配与区域匹配这两类方法还未见文章予以总结，为此本文从补充图像匹配方法的角度出发，将图像匹配方法分为3大类进行总结：局部不变特征点匹配、直线匹配、区域匹配，目的是为该方向的研究学者提供更为全面的文献综述，同时也为即将开展该领域研究的人员提供参考。

1 局部不变特征点匹配

局部不变特征点匹配在图像匹配领域中发展最早，一幅图像的特征点由两部分组成：关键点和描述子。关键点是指特征点在图像中的位置，具有方向、尺度等信息；描述子通常是一个向量，描述关键点邻域的像素信息。在进行特征点匹配时，通常只需在向量空间对两个描述子进行比较，距离相近则判定为同一个特征点，角点、边缘点等都可以作为潜在特征点。角点检测算法中最常用的是基于图像灰度的方法，如Harris^[1]。Harris算法通过两个正交方向上强度的变化率对角点进行定义，其本身存在尺度固定、像素定位精度低、伪角点较多和计算量大等问题。为此，诸多学者提出相应改进算法^[6-8]。文献[6]将多分辨率思想引入Harris角点，解决了Harris算法不具有尺度变化的问题。文献[7]在Harris算法中两次筛选候选点集，利用最小二乘加权距离法实现角点亚像素定位，大幅度提高角点检测效率和精度。文献[8]将灰度差分及模板与Harris算法相结合，解决了Harris算法中存在较多伪角点和计算量大等问题。FAST^[2]通过邻域像素对比进行特征点检测并引入机器学习加速这一过程，可应用在对实时性要求较高的场合，如视频监控中的目标识别。由于FAST仅处理单一尺度图像，且检测的不仅仅是“角点”这一特征，还可以检测到其他符合要求的特征点，如孤立的噪点等。当图像中噪点较多时会产生较多外点，导致鲁棒性下降。

SIFT^[3]的提出打破了角点检测的僵局，不再局限于对角点检测，后续相继提出针对SIFT的改进算法。许允喜等人^[5]对局部图像描述符进行分析描述，对这类方法的计算复杂度、评价方法和应用领域予以总结。刘立等人^[4]对SIFT算法的演变以及在不同领域的典型应用进行了较为全面的论述，并比较了各类算法的优缺点。随后，针对SIFT算法时间复杂度高的问题相继提出了PCA-SIFT(principle component analysis sift)^[9]、SURF(speed up robust feature)^[10]以及SSIF(simplified SIFT)^[11]，对彩色图像进行处理的CSIFT(colored SIFT)^[12]，使用对数极坐标分级结构的GLOH(gradient location and orientation histogram)^[13]，具有仿射不变性的ASIFT(affine SIFT)^[14]等。

以上特征点匹配算法都是基于人工设计的检测器，深度学习的快速发展使其在图像匹配领域的应用成为现实。在局部特征点的重复检测方面，FAST-ER算法^[15]把特征点检测器定义为一种检测高重复点的三元决策树，并采用模拟退火算法对决策树进行优化，从而提高检测重复率。由于在每次迭代过程中，都需要对重新应用的新决策树进行检测，且其性能受到初始关键点检测器的限制，降低了该算法的鲁棒性。Verdie等人^[16]提出时间不变特征检测器(TILDE)，能够较好地对由天气、季节、时间等因素引起的剧烈光照变化情况下的可重复关键点进行检测。参与训练的候选特征点是由多幅训练图像中采用SIFT算法提取的可重复关键点组成，如图 1(a)；正样本是以这些点为中心的区域，负样本是远离这些点的区域。在进行回归训练时，正样本在特征点位置返回最大值，远离特征点位置返回较小值，如图 1(b)；回归测试时，将测试图像分成固定大小的图像块，其回归响应如图 1(c)，然后根据非极大值抑制提取特征点，如图 1(d)。该方法适用于处理训练数据和测试数据为同一场景的图像。

图 1 TILDE方法概述

Fig. 1 Overview of TILDE approach((a) stack of training images; (b) desired response on positive samples; (c) regressor response for a new image; (d) keypoints detected in the new image)

一个良好的局部特征检测器应具备两个特性：1)检测可区分的特征；2)协变约束，即在不同的变换下重复检测一致特征。而大多数检测器都只考虑其中一个特性，如TILDE采用手动标记的数据作为区分性特征训练。Zhang等人^[17]综合考虑这两个特性，提出基于学习的协变特征检测器。该方法将TILDE的输出作为候选标准图像块，通过变换预测器的训练建立学习框架，将局部特征检测器的协变约束转化为变换预测器的协变约束，以便利用回归(如深度神经网络)进行变换预测。预测的变换有两个重要性质：1)变换的逆矩阵能将观察到的图像块映射到“标准块”，“标准块”定义了具有可区分性的图像块以及块内“典型特征”(如单位圆)的位置和形状；2)将变换应用到“典型特征”可以预测图像块内变换特征的位置和形状。

基于监督学习的图像匹配方法以人工设计为基础，如TILDE使用DOG(difference of Gaussian)收集训练集，这些方法对于跨模态任务(如RGB/深度模态对)可能不再适用。Savinov等人^[18]提出Quad-networks，采用无监督学习方式进行特征点检测。该方法将关键点检测问题转化为图像变换上的关键点一致性排序问题，优化后的排序在不同的变换下具有重复性，其中关键点来自响应函数的顶/底部分位数。Quad-networks的训练过程如图 2所示，在两幅图像中提取随机旋转像块对(1, 3)和(2, 4)；每个块经过神经网络输出一个实值响应H(p|w)，其中p表示点，w表示参数向量；通过四元组的排序一致函数计算铰链损失，并通过梯度下降法优化。Quad-networks在RGB/RGB模式和RGB/深度模式的重复检测性能均优于DOG，可以和基于学习的描述符相结合进行图像匹配，还可用于视频中的兴趣帧检测。

图 2 Quad-networks训练

Fig. 2 Quad-networks training

基于深度学习的方法不仅可以学习特征检测器，还可用于对特征描述符进行学习。Simo-Serra等人^[19]提出用于特征点描述符判别学习的DeepDesc。该方法采用Siamese网络侧重训练难以区分类别的样本，输入图像块对，将CNN输出的非线性映射作为描述符，采用欧氏距离计算相似性并最小化其铰链损失。该方法适用于不同的数据集和应用，包括宽基线图像匹配、非刚性变形和极端光照变化的情况，但该方法需要大量的训练数据来保证其鲁棒性。

以上基于学习的匹配方法大部分都是对匹配过程中的某个阶段单独进行操作。Yi等人^[20]提出的基于学习的不变特征变换(LIFT)结合空间变换网络^[21]和Softargmax函数，将基于深度学习的特征点检测^[16]、基于深度学习的方向估计^[22]和基于深度学习的描述符^[19]连接成一个统一网络，从而实现完整特征点匹配处理流水线。其中图像块的裁剪和旋转通过空间变换网络实现，训练阶段采用四分支Siamese网络(如图 3所示)，输入特征点所在图像块，其位置和方向均来自SFM算法的输出，其中P¹和P²为同一3D点在不同视角下的图像，P³为不同3D点的投影的图像块，P⁴为不包含任何特征点的图像快，S为得分图，x代表特征点位置。采用从后至前的训练策略，即先训练描述子，再训练方向估计，最后训练特征点检测。测试阶段，将特征点检测与方向估计及描述子分开，使优化问题易于处理。LIFT方法的输入为多尺度图像，以滑窗形式进行特征点检测，提取局部块逐个分配方向，再计算描述子。与SIFT相比，LIFT能够提取出更为稠密的特征点，且对光照和季节变化具有很高的鲁棒性。

图 3 四分支Siamese体系结构

Fig. 3 Four-branch Siamese architecture

上述方法均基于同一场景和目标的图像实例进行匹配方法研究，近年来，针对不同对象或场景的匹配方法研究(图像语义匹配)正逐步成为研究热点。与考虑在时间(光流)或空间(立体)相邻的图像特征对应不同，语义对应的特征是图像具有相似的高层结构，而其精确的外观和几何形状可能不同。经典SIFT流方法^[23]提出不同场景的稠密对应概念，通过平滑约束和小位移先验计算不同场景间的稠密对应关系。Bristow等人^[24]将语义对应问题转化为约束检测问题，并提出Examplar-LDA(Examplar linear discriminant analysis)分类器。首先对匹配图像中的每个像素学习一个Examplar-LDA分类器，然后以滑动窗口形式将其应用到目标图像，并将所有分类器上的匹配响应与附加的平滑先验结合，从而获得稠密的对应估计。该方法改善了语义流的性能，在背景杂乱的场景下具有较强鲁棒性。

上述两个方法将流概念推广到仅在语义上相关的图像对，都属于对相同对象类的像对进行匹配，而对属于不同对象类别的图像则不再适用。Novotny等人^[25]提出基于几何敏感特征的弱监督学习方法AnchorNet。在只有图像级标签的监督下，AnchorNet依赖一组从残差超列HC(hypercolumns)中提取具有正交响应的多样过滤器，该过滤器在同一类别的不同实例或两个相似类别之间具有几何一致性。AnchorNet通过在ILSVRC12(imagenet large scale visual recognition competition 2012)上预先训练的深度残差网络(ResNet50)模型初始化网络参数，并采用两阶段优化与加速训练完成匹配。

对语义匹配的研究不仅可以在像对上进行操作，还可以扩展到多幅图像中。多图像语义匹配可以找到多个图像间的一致对应关系，从而在应用中发挥更为重要的作用，如对象类模型重建^[26]和自动地标注释^[27]。Wang等人^[28]将多图像间的语义匹配问题转化为特征选择与标注问题，即从每幅图像的初始候选集中选择一组稀疏特征点，通过分配标签建立它们在图像间的对应关系。该方法可以为满足循环一致性和几何一致性的图像集合建立可靠的特征对应关系，其中循环一致性可以对图像集合中的可重复特征进行选择和匹配。低秩约束用于确保特征对应的几何一致性，并可同时对循环一致性和几何一致性进行优化。该方法具有高度可扩展性，可以对数千幅图像进行匹配，适用于在不使用任何注释的情况下重构对象类模型。

图像匹配在医学图像分析、卫星影像处理、遥感图像处理、计算机视觉等领域有着广泛应用。医学图像匹配对临床的精确诊疗具有重要意义，由于很多病变都会诱发器官组织的变形，或者由器官变形所诱发，例如大脑皮层的萎缩退化诱导老年失智，各种肿瘤会在器官表面形成凸起，骨质流失会引起骨骼的变形。因此，医生可以通过精确比对器官的几何形状，来判断脏器是否存在病变；通过分析肿瘤的几何特征，来判断肿瘤是否为恶性。Yu等人^[29]提出A-NSIFT(accelerated multi-dimensional scale invariant feature transform)与PO-GMMREG(parallel optimization based on gaussian mixture model registration)相结合的方法，改进了特征提取和匹配过程。A-NSIFT为加速版NSIFT，采用CUDA编程加速NSIFT的前两个步骤，用于提取匹配图像和待匹配图像中的特征点(仅保留位置信息)。PO-GMMREG是基于并行优化的高斯混合模型(GMM)匹配算法，并行优化使得匹配图像和待匹配图像可以任意旋转角度对齐。该方法可以减少时间消耗，提高大姿态差异下的匹配精度。

多数情况下人体组织的形变是非刚性的。TV-L¹(total variation- L¹)光流模型^[30]能有效地保持图像边缘等特征信息，但对于保持具有弱导数性质的纹理细节信息仍不够理想。张桂梅等人^[31]将G-L (Grünwald-Letnikov)分数阶微分理论引入TV-L¹光流模型，代替其中的一阶微分，提出分数阶TV-L¹光流场模型FTV-L¹(fractional TV- L¹)。同时给出匹配精度和G-L分数阶模板参数之间关系，为最佳模板选取提供依据。FTV-L¹模型通过全变分能量方程的对偶形式进行极小化以获得位移场，可以解决图像灰度均匀，弱纹理区域匹配结果中的信息模糊问题。该方法能有效提高图像匹配精度，适合于包含较多弱纹理和弱边缘信息的医学图像匹配。为了解决待匹配图像对中目标的大形变和灰度分布呈各向异性问题，陆雪松等人^[32]将两幅图像的联合Renyi α-entropy引入多维特征度量并结合全局和局部特征，从而实现非刚性匹配。首先，采用最小距离树构造联合Renyi α-entropy度量准则；其次，根据该度量相对形变模型FFD(free-form deformation)的梯度解析表达式，采用随机梯度下降法进行优化；最后，将图像的Canny特征和梯度方向特征融入度量中，实现全局和局部特征的结合。该方法的匹配精度与传统互信息法和互相关系数法相比有明显提高，且新度量方法能克服因图像局部灰度分布不一致造成的影响，能够在一定程度上减少误匹配。

Yang等人^[33]提出的FMLND(feature matching with learned nonlinear descriptors)采用基于学习的局部非线性描述符LND进行特征匹配，对来自T1w和T2w两种不同成像参数的磁共振成像(MRI)数据的CT(computed tomography)图像进行预测。该过程分为两个阶段：学习非线性描述符和预测pCT(pseudo CT)图像。第1阶段，首先采用稠密SIFT提取MR图像的特征；其次通过显式特征映射将其投影到高维空间并与原始块强度结合，作为初始非线性描述符；最后在基于改进的描述符学习(SDL)框架中学习包含监督的CT信息的局部描述符。第2阶段，在训练MR图像的约束空间内搜索输入MR图像的局部描述符的K最近邻域，和对应原始CT块进行映射，对重叠的CT块进行加权平均处理得到最终的pCT块。与仅使用成像参数T1w或T2w的MR图像方法相比，FMLND方法提高了预测的准确率。

对骨盆CT和MRI匹配可以促进前列腺癌放射治疗两种方式的有效融合。由于骨盆器官的模态外观间隙较大，形状/外观变化程度高，导致匹配困难。基于此，Cao等人^[34]提出基于双向图像合成的区域自适应变形匹配方法，用于多模态骨盆图像的匹配，双向图像合成，即从MRI合成CT并从CT合成MRI。多目标回归森林MT-RF采用CT模式和MRI模式对方向图像合成进行联合监督学习，消除模态之间的外观差异，同时保留丰富的解剖细节，其匹配流程为：首先，通过MT-RF合成双向图像，获得实际CT和合成CT(S-CT)的CT像对以及实际MRI和合成MRI(S-MRI)的MRI像对；其次，对CT像对的骨骼区域和MRI像对的软组织区域进行检测，以结合两种模式中的解剖细节；最后，利用从两种模式中选择的特征点进行对称匹配。在匹配过程中，特征点数量逐渐增加，对形变场的对称估计起到较好的分级指导作用。该方法能够较好地解决骨盆图像匹配问题，具有较高的准确性和鲁棒性。

在遥感图像处理领域，基于特征的匹配仍然是该领域中的研究重点。随着遥感图像分辨率的提高，对图像匹配性能提出更高要求，适用于低分辨率的匹配方法可能不再适用。为此，何梦梦等人^[35]对细节纹理信息丰富的高分辨率光学及SAR(synthetic aperture radar)遥感图像进行分析，提出一种特征级高分辨率遥感图像快速自动匹配方法。该方法首先对匹配图像和待匹配图像进行Harr小波变换，将其变换到低频近似图像再进行后续处理，以提高图像匹配速度；接着对光学图像和SAR图像分别采用Canny算子和ROA(ratio of averages)算子进行边缘特征提取，并将边缘线特征转换成点特征；而后通过匹配图像和待匹配图像中每对特征点之间的最小和次小角度之比确定初始匹配点对，并通过对随机抽样一致性算法(RANSAC)添加约束条件来滤除错误匹配点对；最后采用分块均匀提取匹配点对的方法，进一步提高匹配精度。该方法能快速实现并具有较高的配准精度和较好的鲁棒性。

受光照、成像角度、几何变换等影响，每种匹配算法都不能保证百分之百正确，为了提高匹配正确率需要对误匹配点(外点)进行剔除。Fischler等人^[36]提出RANSAC方法，采用迭代方式从包含离群数据的数据集中估算出数学模型。进行匹配点对的提纯步骤为：1)从已匹配的特征点对数据集中随机抽取四对不共线的点，计算单应性矩阵H，记作模型M；2)设定一个阈值t，若数据集中特征点与M之间的投影误差小于t，就把该点加入内点集，重复以上步骤，迭代结束后对应内点数量最多的情况即为最优匹配。RANSAC对误匹配点的剔除依赖单应性矩阵的计算，存在计算量大、效率低等问题。针对这些问题，文献[37]通过引入针对内点和外点的混合概率模型实现了参数模型的最大似然估计。文献[38]使用支持向量回归学习的对应函数，该函数将一幅图像中的点映射到另一幅图像中的对应点，再通过检验它们是否与对应函数一致来剔除异常值。此外，还可将点对应关系通过图匹配进行描述^[39-40]。

为了在不依赖RANSAC情况下恢复大量内点，Lin等人^[41]提出BF(bilateral functions)方法，从含有噪声的匹配中计算全局匹配的一致函数，进而分离内点与外点。BF从一组初始匹配结果开始，利用每个匹配定义的局部仿射变换矩阵计算两幅图像之间的仿射运动场。在给定运动场的情况下，BF为每个特征在描述符空间寻找最近邻匹配以恢复更多对应关系。与RANSAC相比，双边运动模型具备更高的查全率和查准率。

受BF启发，Bian等人^[42]将运动平滑度作为统计量, 提出基于网格的运动统计(GMS)方法，根据最近邻匹配数量区分正确匹配和错误匹配点对。GMS算法的核心为运动统计模型，如图 4所示。其中，s_i和s_j分别表示正确匹配x_i和错误匹配x_j的运动统计，为了加速这一过程，可将整幅图像划分成G=20×20的网格，并在网格中进行操作。由于GMS算法在进行网格划分时，并未考虑图像大小，对于长宽比例不一致的图像，会生成矩形状的网格，导致网格中特征分布不均。基于此，文献[43]通过计算五宫格特征分数剔除外点，并将图像大小作为约束对图像进行方形网格划分，能够在提高运算速度的同时获得与GMS算法相同的匹配精度。

图 4 运动统计模型

Fig. 4 Motion statistics model

RANSAC适用于几何约束为参数的情况，如要求相应点位于极线上，该方法受限于几何约束为非参数情况。为此，Ma等人^[44]提出VFC(vector field consensus)方法，利用向量场的光滑先验，从带有外点的样本中寻找向量场的鲁棒估计。向量场的光滑性由再生核希尔伯特空间(RKHS)^[45]范数表征，VFC算法基于这一先验理论，使用贝叶斯模型的最大后验(MAP)计算匹配是否正确，最后使用EM算法将后验概率最大化。VFC算法的适用范围：1)误匹配比例高的时候(遥感图像、红外图像和异质图像)；2)无法提供变换模型的时候(如非刚性变形、相机参数未知)；3)需要一个快速匹配算法且不需要求解变换参数的时候。

上述方法都是对2维图像进行处理，随着3维成像技术的发展，3维模型已经深入到生活的各个方面。3维图像常用的表现形式包括：深度图(以灰度表达物体与相机的距离)、几何模型(由CAD软件建立)、点云模型(所有逆向工程设备都将物体采样成点云)，3维点匹配算法中常见的是基于点云模型的和基于深度模型的。点云模型中的每个点对应一个测量点，包含了最大的信息量。PointNet^[46]可以直接将3D点云作为输入，其改进版PointNet++^[47]能更好地提取局部信息。3维局部描述符在3维视觉中发挥重要作用，是解决对应估计、匹配、目标检测和形状检索等的前提，广泛应用在机器人技术、导航(SVM)和场景重建中。点云匹配中的3维几何描述符一直是该领域的研究热点，这种描述符主要依赖3维局部几何信息。Deng等人^[48]提出具有全局感知的局部特征提取网络PPFNet(point pair feature network)。PPFNet结构如图 5所示。块描述F_r由点对特征(PPF)集合、局部邻域内的点及法线构成，首先采用PointNet处理每个区域块，得到局部特征；其次通过最大池化层将各个块的局部特征聚合为全局特征，将截然不同的局部信息汇总到整个片段的全局背景中；最后将该全局特征连接到每个局部特征，使用一组多层感知机(MLP)进一步将全局和局部特征融合到最终全局背景感知的局部描述符中。PPFNet在几何空间上学习局部描述符，具有排列不变性，且能充分利用原始点云的稀疏性，提高了召回率，对点云的密度变化有更好的鲁棒性。但其内存使用空间与块数的2次方成正比，限制了块的数量，目前只能设置为2 K。

图 5 PPFNet架构

Fig. 5 The architecture of PPFNet

在基于深度模型的匹配算法中，Zhou等人^[49]基于多视图融合技术Fuseption-ResNet(FRN)，提出多视图描述符MVDesc。FRN能将多视图特征映射集成到单视图上表示，如图 6所示。其中，视图池化(view pooling)用于快捷连接，Fuseption分支负责学习残差映射，两个分支在精度和收敛率方面互相加强。采用3×3、1×3和3×1 3种不同内核尺寸的轻量级空间滤波器提取不同类型的特征，并采用上述级联特征映射的1×1卷积负责跨通道统计量的合并与降维。将FRN置于多个并行特征网络之上，并建立MVDesc的学习网络，其中卷积6的通道数与特征网络输出的特征映射通道数相同。

图 6 Fuseption-ResNet结构

Fig. 6 The architecture of Fuseption-ResNet

在进行特征点匹配时，采用基于图模型的3维误匹配点剔除方法RMBP(robust matching using belief propagation)。该模型可以描述匹配对之间的相邻关系，并通过置信传播对每个匹配对进行推断验证，从而提高3维点匹配的准确性和鲁棒性。与依赖多视图图像或需要提取固有形状特征的卷积神经网络不同，Wang等人^[50]提出一种可以根据3维曲面形状生成局部描述符的网络框架。该方法将关键点的邻域进行多尺度量化并参数化为2维网格，并将其称之为几何图像，描述符的训练过程如下：首先提取曲面上关键点邻域的多尺度局部块，根据这些块构造一组几何图像；其次将这些块输入Triplet网络，每个网络分支采用ConvNet(convolutional networks)训练；最后输出128维描述符，并采用Min-CV Triplet损失函数最小化锚样本和正样本距离的变异系数(CV)之比。相对于其他局部描述符学习方法，该方法具有更好的可区分性、鲁棒性及泛化能力。

Georgakis等人^[51]提出用于特征点检测和描述符学习的端到端框架。该框架基于Siamese体系结构，每个分支都是一个改进的Faster R-CNN^[52]。如图 7所示，采用VGG-16的卷积层cov5_3提取深度图I的深度卷积特征，一方面经过RPN(region propose network)处理，产生特征点的候选区域(橙色区域)及分数S；另一方面输入到RoI(region of interest)池化层，经过全连接层将特征点候选区域映射到对应卷积特征f上；采样层以候选区域的质心x、卷积特征f、深度图像值D、相机姿态信息g和相机内在参数作为输入，动态生成局部块对应标签(正或负)，并采用对比损失函数L_contr最小化正样本对间的特征距离，最大化负样本对间的距离，该方法对视角变化具有一定的鲁棒性。

图 7 Siamese体系结构

Fig. 7 Siamese architecture

2 直线匹配

研究直线匹配首先要克服线特征本身存在的一些问题，如端点位置不准确、图像边缘特征不明显、线段碎片问题等，与点特征相比，线特征包含更多场景和对象的结构信息。线特征匹配方法可以大致分为3种：基于单线段匹配方法、基于线段组方法和基于共面线—点不变量(LP)方法。

在基于单线段匹配方法中，Wang等人^[53]提出的MSLD(mean standard deviation line descriptor)方法通过统计像素支持区域内每个子区域4个方向的梯度向量构建描述子矩阵，进而提高描述符的鲁棒性。MSLD对具有适当变化的纹理图像有较好的匹配效果，可以应用在3维重建和目标识别等领域。为了解决MSLD对尺度变化敏感问题，文献[54]将区域仿射变换和MSLD相结合，利用核线约束确定匹配图像对应的同名支持域，并对该支持域进行仿射变换以统一该区域大小，实现不同尺度图像上直线的可靠匹配。与MSLD相似，Zhang等人^[55]提出线带描述符(LBD)，在线支持区域(LSR)中计算描述符，同时利用直线的局部外观和几何特性，通过成对几何一致评估提高对低纹理图像直线匹配的精确度。该方法可在不同尺度空间中检测线段，能够克服线段碎片问题，提高抗大尺度变化的鲁棒性。

当像对间旋转角度过大时，单线段匹配方法的匹配准确率不高，可以采用线段组匹配方法通过更多的几何信息解决这一问题。Wang等人^[56]基于线段局部聚类的方式提出半局部特征LS(line signature)，用于宽基线像对匹配，并采用多尺度方案提高尺度变化下的鲁棒性。为了提高在光照不受控制情况下对低纹理图像的匹配准确度，López等人^[57]将直线的几何特性、局部外观及线邻域结构上下文相结合，提出双视图(two-view)直线匹配算法CA。首先对线特征进行检测：1)在高斯尺度空间利用基于相位的边缘检测器提取特征；2)根据连续性准则将边缘特征局部区域近似为线段；3)在尺度空间进行线段融合。其次，该方法中的相位一致性对于图像亮度和对比度具有较高不变性，线段融合可以减少重叠线段以及线段碎片出现。最后，线特征匹配采用迭代方式进行，通过不同直线邻域的局部结构信息来增强每次迭代的匹配线集，该方法适用于低纹理图像中线特征的检测与匹配。

基于线段组匹配方法对线段端点有高度依赖性，图像变换及部分遮挡可能导致端点位置不准确，进而影响匹配效果。Fan等人^[58-59]利用线及其邻域点的局部几何信息构造共面线—点不变量(LP)用于线匹配。LP包括：“一线+两点”构成的仿射不变量和“一线+四点”构成的投影不变量。该投影不变量和“两线+两点”构成的投影不变量^[60]相比，可以直接用于线匹配而无需复杂的组合优化。根据直线的梯度方向，将线邻域分为左邻域和右邻域(线梯度方向)，以获得左右邻域内与线共面的匹配点，进行线相似性度量时，取左右邻域相似性的最大值。该方法对误匹配点和图像变换具有鲁棒性，但高度依赖匹配关键点的准确性。为此，Jia等人^[61]基于特征数CN^[62]提出一种新的共面线—点投影不变量。CN对交叉比进行扩展，采用线上点和线外点描述基础几何结构。通过“五点”构造线—点不变量，其中两点位于直线上，另外三点位于直线同一侧但不共线，如图 8所示。点KP_l¹，KP_l²，P₁，P₂，P₃用于构造该不变量，通过两点连线可以获得其他特征点。计算直线邻域相似性时，把线邻域按照线梯度方向分为左邻域和右邻域(梯度方向)，根据线点不变量分别计算左、右邻域的相似性。这种相似性度量方法受匹配特征点的影响较小。该方法对于低纹理和宽基线图像的线匹配效果要优于其他线匹配算法，对于很多图像失真也有较好鲁棒性。由于该线—点不变量是共面的，对于非平面场景图像的处理具有局限性。

图 8 线—点不变量的构造

Fig. 8 Construction of line-points invariant

对航空影像进行线匹配时，线特征通常会出现遮挡、变形及断裂等情况，使得基于形态的全局描述符不再适用。基于此，欧阳欢等人^[63]联合点特征匹配优势，通过对线特征进行离散化描述并结合同名点约束实现航空影像线特征匹配。线特征离散化，即将线看做离散点，通过统计线上同名点的分布情况来确定线特征的初匹配结果，最后利用点线之间距离关系对匹配结果进行核验。同名点约束包括单应性约束和核线约束，单应性约束实现线特征之间的位置约束，核线约束将匹配搜索空间从2维降至1维。线上离散点的匹配约束如图 9所示，I_L为目标影像，l₁为目标线特征，p为其上一点；I_R为待匹配影像，线E代表p所对应核线，p′为p由单应性矩阵映射得到的对应点，虚线圆为单应性矩阵的约束范围，l′₁、l′₂、l′₃是由约束确定的候选线特征，点p₁、p₂、p₃为p的候选同名点。该算法匹配正确率高，匹配速度相对较快，可实现断裂线特征的多对多匹配，但匹配可靠性仍受到点特征匹配的影响，对于难以获得初始同名点的区域，其适用性不高。

图 9 线上离散点的匹配约束

Fig. 9 Matching constraints of the discrete points on the line

3 区域匹配

区域特征具有较高的不变性与稳定性，在多数图像中可以重复检测，与其他检测器具有一定互补性，被广泛应用于图像识别、图像检索、图像拼接、3维重建、机器人导航等领域。Matas等人^[64]于2002年提出最大稳定极值区域(MSER)采用分水岭方法，通过对灰度图像取不同阈值分割得到一组二值图，再分析相邻二值图像的连通区域获得稳定区域特征。经典MSER算法具有较高的时间复杂度。Nistér等人^[65]基于改进的分水岭技术提出一种线性计算MSER的算法，该算法基于像素的不同计算顺序，获得与图像中存在灰度级数量相同的像素分量信息，并通过组件树表示对应灰度级。MSER这类方法可用于图像斑点区域检测及文本定位，也可与其他检测器结合使用，如文献[66]将SURF和MSER及颜色特征相结合用于图像检索，文献[67]将MSER与SIFT结合用于特征检测。

区域特征检测还可利用计算机技术中的树理论进行稳定特征提取，Xu等人^[68]提出一种基于该理论的拓扑方法TBMR(tree-based Morse regions)。该方法以Morse理论为基础定义临界点：最大值点、最小值点和鞍点，分别对应最大树叶子节点、最小树叶子节点和分叉节点。TBMR区域对应树中具有唯一子节点和至少具有一个兄弟节点的节点。如图 10所示，节点A和C代表最小值区域；节点H和E代表最大值区域；节点A∪B∪C∪D∪G和E∪F∪G∪H表示鞍点区域；节点A∪B、C∪D、E∪F为所求TBMR区域。该方法仅依赖拓扑信息，完全继承形状空间不变性，对视角变化具有鲁棒性，计算速度快，与MSER具有相同复杂度，常用于图像配准和3维重建。

图 10 构造的最小树和最大树

Fig. 10 Constructed min-tree and max-tree

((a) synthetic image; (b) min-tree; (c) max-tree)

模板匹配是指给定一个模板(通常是一块小图像区域)，在目标图像中寻找与模板对应区域的方法，被广泛应用于目标跟踪、目标检测及图像拼接等领域。Korman等人^[69]提出可以处理任意仿射变换的模板匹配算法FAST-Match(fast affine template matching)，该方法首先将彩色图像灰度化，再构建仿射变换集合，并遍历所有可能的仿射变换，最后计算模板与变换后区域之间绝对差值的和SAD，求取最小值作为最佳匹配位置。该方法能够找到全局最优匹配位置，但对彩色图像匹配时，需预先转换成灰度图像，而这一过程损失了彩色空间信息，降低了图像匹配的准确率。Jia等人^[70]将灰度空间的SAD拓展到RGB空间形成CSAD(colour SAD)，提出适合彩色图像的模板匹配算法CFAST-Match(colour FAST match)。该方法通过矢量密度聚类算法计算每个像素点所属类别，并统计同类像素个数及RGB各通道的累计值，以此求解每个分类的矢量中心，将矢量中心作为CSAD的判定条件，同类像素个数的倒数作为分值系数，以此建立新的相似性度量机制。该方法对存在明显色差的区域具有较高匹配精度，但部分参数依据经验设置，且不适合处理大尺寸图像。为了解决这一问题，文献[71]提出一种基于分值图的模板匹配算法。该方法依据彩色图像的多通道特征，采用抽样矢量归一化互相关方法(SV-NCC)度量两幅图像间的区域一致性，以降低光照和噪声影响。

模板和目标图像子窗口间的相似性度量是模板匹配的主要部分，常采用逐像素比较的计算方式，如上述方法采用的SAD、CSAD和SV-NCC，此外还有差值平方和SSD等，这些方法在图像背景杂乱或发生复杂形变的情况下不再适用。Dekel等人^[72-73]基于模板与目标图像间的最近邻(NN)匹配属性提出一种新的BBS(best-buddies similarity)度量方法，采用不同图像特征(如颜色、深度)通过滑动窗口方式统计模板点与目标点互为NN的匹配数量，并将匹配数量最多的窗口视为最终匹配位置。但该算法在发生剧烈非刚性形变或处于大面积遮挡及非均匀光照等环境下匹配鲁棒性差。文献[74]利用曼哈顿距离代替BBS算法中的欧氏距离，并对生成的置信图进行阈值筛选和滤波，能够较好地解决光照不均匀、模板中外点较多与旋转变形等多种复杂条件下的匹配问题。

采用双向NN匹配导致BBS的计算时间较长，Talmi等人^[75]提出基于单向NN匹配的DDIS(deformable diversity similarity)方法。首先计算目标图像窗口点在模板中的NN匹配点，并统计对应同一匹配点的数量，计算像素点的置信度。其次采用欧氏距离计算目标点和对应NN匹配点间距离，最后结合度量模板和目标图像窗口间的相似性获得匹配结果。尽管DDIS降低了算法复杂度并提高了检测精度，但当形变程度较大时依然会影响匹配效果。由于DDIS对每个滑动窗口单独计算NN匹配且滑动窗口的计算效率较低，导致模板在与较大尺寸的目标图像进行匹配时，处理时间较长。为此，Talker等人^[76]基于单向NN匹配提出DIWU(deformable image weighted unpopularity)方法。与DDIS基于目标图像窗口点不同，DIWU计算整幅目标图像点在模板中的最近邻匹配点，若多个像素的NN匹配点相同，则像素的置信分数就低，匹配的正确性就低。DIWU以第1个图像窗口的分数为基础，逐步计算之后的每个窗口分数，该方法在保证匹配准确性的同时，提高了运算速度，使得基于NN的模板匹配适合实际应用。

BBS和DDIS均采用计算矩形块间的相似性度量解决几何形变和部分遮挡问题，但滑动窗口的使用限制了遮挡程度。Korman等人^[77]基于一致集最大化(CSM)提出适用于存在高度遮挡情况下的模板匹配算法OATM(occlusion aware template matching)。OATM通过约简方法，将单个向量和N个目标向量间的匹配问题转化为两组$ \sqrt{N} $向量间的匹配问题，并基于随机网格哈希算法进行匹配搜索。匹配搜索的过程为寻找CSM的过程，即使用阈值内的残差映射进行变换搜索。OATM提高了算法的处理速度，较好地解决了遮挡问题。

与基于欧氏距离的像素间的相似性不同，共现统计(cooccurrence statistics)是从数据中学习像素间的相似性。Kat等人^[78]通过统计模板点和目标点在目标图像窗口共同出现的概率提出CoTM(cooccurrence based template matching)。CoTM在处理彩色图时，采用k-means聚类算法将图像量化为k个类簇，根据共现矩阵统计模板和目标图像中的类簇对在目标图像中共同出现的次数，再基于每个类簇的先验概率进行归一化，构造点互信息(PMI)矩阵，值越大表明共现概率越高，误匹配率越低。最后根据PMI计算模板类簇中的像素和目标图像窗口中包含的类簇中的像素之间的相关性，选出最佳匹配位置。CoTM也适用于颜色特征之外的其他特征，如深度特征，可将共现统计(捕获全局统计)与深度特征(捕获局部统计数据)相结合，在基于标准数据集的模板匹配中提升匹配效果。

近年来，基于深度学习的图像区域匹配成为研究热点，卷积神经网络(CNN)在局部图像区域匹配的应用中，根据是否存在度量层可以分为两类：第一类为具有度量层的方法，这类网络通常把图像块对匹配问题视为二分类问题。Han等人^[79]提出的MatchNet通过CNN进行图像区域特征提取和相似性度量，过程如图 11所示。对于每个输入图像块，特征网络输出一个固定维度特征，预处理层的输入为灰度图像块，起到归一化作用。卷积层激活函数为ReLU，瓶颈(bottlebeck)层为全连接层，能够降低特征维度并防止网络过拟合。采用3个全连接层组成的度量网络计算特征对的匹配分数，双塔结构在监督环境下联合训练特征网络和度量网络。

图 11 MatchNet体系结构

Fig. 11 The MatchNet architecture

表 1给出了MatchNet的层参数设置，其中C代表卷积，MP代表最大池化，FC代表全连接；对于全连接层，B和F的大小从B∈{64, 128, 256, 512}，F∈{128, 256, 512, 1 024}中选择。所有卷积层和全连接层都使用ReLU激活(全连接3除外)，全连接3的输出用Softmax规范。MatchNet能够提高图像匹配准确度，减少对描述符的存储要求，与直接输入成对的图像块计算匹配分数相比，能够有效地减少特征网络的计算量。

表 1 MatchNet的层参数
Table 1 Layer parameters of MatchNet

下载CSV

名称	类型	输出维度	卷积和池化层块大小	步长
卷积0	C	64×64×24	7×7	1
池化0	MP	32×32×24	3×3	2
卷积1	C	32×32×64	5×5	1
池化1	MP	16×16×64	3×3	2
卷积2	C	16×16×96	3×3	1
卷积3	C	16×16×96	3×3	1
卷积4	C	16×16×64	3×3	1
池化4	MP	8×8×64	3×3	2
瓶颈	FC	B	-	-
全连接1	FC	F	-	-
全连接2	FC	F	-	-
全连接3	FC	2	-	-

Zagoruyko等人^[80]提出DeepCompare方法，通过CNN比较灰度图像块对的相似性。该方法对基础网络框架Siamese、pseudo-Siamese和2通道(2ch)进行描述，并在此基础上采用深度网络、中心环绕双流网络(central-surround two-stream，2stream)和空间金字塔池化(SPP)网络提升基础框架性能。DeepCompare总体设计框架如图 12所示，对于输入的像对区域直接输出是否匹配。

图 12 网络总框架

Fig. 12 Network general framework

3种基础框架如图 13所示，左图为2通道网络，右图是Siamese网络和pseudo-Siamese网络。Siamese网络和pseudo-Siamese网络的不同之处在于Siamese的两个分支共享权重，但pseudo-Siamese灵活性高于Siamese。在2通道网络中，直接叠加输入的一对待匹配图像块，作为CNN网络输入图像的2个通道，与Siamese相比具有训练速度快、灵活性大等优点，但测试非常费时，需要穷举所有可能的组合，且不能输出每个块相应的描述子。

图 13 3种基础的网络体系结构

Fig. 13 Three basic network architectures

为了提高卫星影像的配准率，范大昭等人^[81]提出基于空间尺度双通道深度卷积神经网络方法(BBS-2chDCNN)。BBS-2chDCNN是在双通道深度卷积神经网络(2chDCNN)前端加入空间尺度卷积层，以加强整体网络的抗尺度特性。2chDCNN将待匹配点对局部合成的两通道影像作为输入数据，依次进行4次卷积、ReLU操作、最大池化操作，3次卷积和ReLU操作, 最后进行扁平化和两次全连接操作输出一维标量结果。该方法适用于处理异源、多时相、多分辨率的卫星影像，较传统匹配方法能提取到更为丰富的同名点。

第二类方法不存在度量层，这类网络的输出即为特征描述符，在某些应用中可以直接代替传统描述符。Balntas等人^[82]提出的PN-Net采用Triplet网络训练，训练过程如图 14所示。图像块三元组T={p₁, p₂, n}，包括正样本对(p₁, p₂)和负样本对(p₁, n)、(p₂, n)，采用SoftPN损失函数计算网络输出描述子间相似性，以确保最小负样本对距离大于正样本对距离。表 2给出所采用的CNN体系结构的参数，采用32×32像素的图像块作为输入，括号内的数字表示卷积核大小，箭头后面的数字表示输出通道数，Tanh为激活函数。与其他特征描述符相比，PN-Net具有更高效的描述符提取及匹配性能，能显著减少训练和执行时间。

图 14 PN-Net体系结构的训练

Fig. 14 The training of PN-Net architecture

表 2 CNN体系结构的参数
Table 2 Parameters of CNN architecture

下载CSV

层号	描述
1	空间卷积(7, 7)→32
2	Tanh
2	最大池化(2, 2)
3	空间卷积(6, 6)→64
4	Tanh
5	线性→{128, 256}
6	Tanh

Yang等人^[83]提出用于图像块表示的一对互补描述符学习框架DeepCD。该方法采用Triplet网络进行训练，输出主描述符(实值描述符)和辅描述符(二值描述符)，如图 15所示，输入图像区域包括正样本对(a, p)，负样本对(a, n)和(p, n)，L代表主描述符，C代表辅描述符，Δ代表主描述符距离，Δ代表辅描述符距离。数据相关调制层(DDM)通过学习率的动态调整实现辅助描述符对主导描述符的辅助作用。该方法能够有效地提高图像块描述符在各种应用和变换中的性能。

图 15 DeepCD结构

Fig. 15 The architecture of DeepCD training

以上这些方法都是对图像块对或三元组进行的处理，Tian等人^[84]提出的L2-Net通过CNN在欧氏空间将一批图像块转换成一批描述符，将批处理中的最近邻作为正确匹配描述符。如图 16所示，每个卷积层左边数字代表卷积核大小，右边数字表示输出通道数，2表示下采样层的步长；3×3 Conv由卷积、批归一化(BN)和ReLU(rectified linear unit)组成；8×8 Conv由卷积和批归一化(BN)组成；局部响应归一化层(LRN)作为单元描述符的输出层，获得128维描述符。CS L2-Net由两个独立L2-Net级联成双塔结构，左侧塔输入和L2-Net相同，右侧塔输入是中心裁剪后的图像块。采用渐进式采样策略，在参与训练的批样本中，从每对匹配样本中随机抽取一个组成若干不匹配样本，增加负样本数量。与成对样本和三元组样本相比，能够利用更多负样本信息。

图 16 网络体系结构

Fig. 16 Network architecture

4 图像匹配分析、分类与总结

本文从局部不变特征点匹配、直线匹配、区域匹配三方面对图像匹配方法予以总结。选用2核主频为3.4 GHz的CPU，显卡为NVIDIA GTX TITAN X GPU作为计算机的实验环境，对多个图像匹配算法进行分析比较。表 3为从每个类别中选择有代表性的方法进行综合对比分析，测试数据集来自DTU(Technical University of Denmark)数据集及牛津大学数据集Graf。由表 3可见，在局部不变点特征匹配方法中，ORB(oriented FAST and rotated BRIEF)和FAST的速度最快，但不具有尺度不变性；ASIFT对视角变化有很高的鲁棒性，但匹配时间最长。在线匹配方法中，LBD+S&G(S&G代表在尺度空间下采用几何约束的线特征提取方法)的计算时间最短，MSLD+S&G次之，其他方面两者的性能接近，LP的计算时间最长，但对视角变化的鲁棒性更高。在模板匹配算法中，CFAST-Match的匹配时间略高于FAST-Match，在区域特征提取方法中，MSER和TBMR的综合性能相近。

表 3 特征匹配方法中影响因素比较
Table 3 Comparison of influential factors in feature matching methods

下载CSV

方法	光照变化不变性	尺度不变性	旋转不变性	视角变化鲁棒性	计算时间/s
SIFT	Y	Y	Y	高	2.41
SURF	Y	Y	Y	高	1.1
ASIFT	Y	Y	Y	很高	9.6
ORB	Y		Y	低	0.11
FAST	Y			中	0.06
TILDE	Y		Y	高	1.45
文献[17]			Y	很高	48.2
Quad-networks	Y	Y	Y	高	2.41
LIFT	Y	Y	Y	高	6.03
MSLD+S & G	Y		Y	中	0.42
LBD+S & G	Y	Y	Y	中	0.20
LP	Y	Y	Y	高	22
文献[61]	Y		Y	高	6.36
FAST-Match	Y	Y	Y	高	0.23
CFAST-Match	Y	Y	Y	高	0.61
MSER	Y	Y	Y	很高	1.71
TBMR	Y	Y	Y	很高	1.69
注：Y表示算法在某个性能上具有一定的优势。

由于局部不变点特征匹配比较的是像对间的局部区域相似性，因此常存在大量外点，通常采用两阶段策略完成匹配：第1阶段，通过相似性约束计算一组假定的对应关系，以减少可能的匹配组，由于相似性约束的模糊性，特别是当图像包含重复模式时，这种假定的对应关系集通常不仅包括大多数真正匹配的内点，而且包含大量的错误匹配或外点；第2阶段的目的是去除外点并估计内点和几何参数，这种策略通常用于几何约束是参数化的情况，例如要求相应点位于极线上，适用于这类情况的有RANSAC等; 当几何约束是非参数化的情况(如非刚性变换)，适用于这类情况的有VFC等。

表 4对几种误匹配点剔除方法RANSAC、BF、VFC和GMS进行了分析比较，RANSAC算法简单，VFC在误匹配较多的情况下效果显著，每种方法都有各自的特点和优点。在进行误匹配点剔除时，选择最适合自己方法的误点剔除方法，以提高匹配的精度。表 3列举的方法均采用图像的低层几何特征进行匹配，只能用于同一物体间的像对匹配。从人对事物的认知角度上看，人对图像的描述和理解主要是在语义层次上进行，语义可以描述客观事物(图像、摄像机)、主观感受(漂亮、清楚)和抽象概念(广泛、富有)。语义匹配识别的是和语义相关的信息，属于高级计算机视觉研究范畴，表 5从匹配对象和实现形式两方面对3种语义匹配进行比较。

表 4 误匹配点剔除方法
Table 4 Mismatched point removal methods

下载CSV

方法	描述	优点
RANSAC	采用迭代方式从包含离群数据的数据集中估算出数学模型	算法简单, 能鲁棒地估计模型参数
BF	利用每个匹配定义的局部仿射变换计算两幅图像之间的仿射运动场	具备更高查全率和查准率
VFC	利用向量场的光滑先验，从带有外点的样本中寻找向量场的鲁棒估计	具有鲁棒性与高匹配概率，尤其是对误匹配率较高的图像效果更显著
GMS	基于统计，通过计数邻域的匹配点个数来判断一个匹配正确与否	可以快速区分出正确的匹配和错误的匹配，提高了匹配的稳定性

表 5 3种语义匹配方法比较
Table 5 Comparison of three semantic matching methods

下载CSV

方法	匹配对象	实现形式
Exemplar-LDA分类器	属于同一对象类	用分类器描述两点匹配的可能性
AnchorNet	属于同一或不同对象类	采用具有正交响应的滤波器识别具有几何一致的特征
多图像语义匹配^[28]	属于同一对象类的多个对象	将匹配问题转换成特征选择和标注问题。

深度学习的方法开启了研究者检测与匹配图像稳定特征的新思路，通过深度神经网络可以进行诸如特征提取、方向估计与描述等工作。采用卷积神经网络提取特征的优点为：1)由于卷积和池化计算的性质，使得图像中的平移部分对于最后的特征向量没有影响。从这一角度说，提取到的特征不易过拟合；2)与其他方法相比，CNN提取出的特征更加稳定，能有效提高匹配准确率；3)可以利用不同卷积、池化和最后输出的特征向量控制整体模型的拟合能力，在过拟合时可以降低特征向量的维数，在欠拟合时可以提高卷积层的输出维数，相比于其他特征提取方法更加灵活。

目前特征描述符主要分为成两类：人工设计描述符和基于学习描述符。人工设计描述符主要靠直觉和研究者的专业知识驱动，基于学习的描述符由数据驱动。与基于学习描述符的方法相比，人工设计的描述符在性能方面相对较差，而优点是不需要数据或者只需少量数据，计算时间较快；基于学习的描述符性能更高，参数的选择可能需要端到端的梯度下降法进行训练，需要大量数据参与训练，计算时间相对较慢，通常采用GPU提高处理速度。表 6从性能、参数学习、数据要求和计算时间4个方面对两者进行分析比较。

表 6 人工设计描述符和基于学习描述符比较
Table 6 Comparison between hand-crafted descriptors and learn-based descriptors

下载CSV

	性能	参数学习	数据要求	计算时间	典型方法
人工设计	次优	视情况而定	少量或不需要	较短	SIFT、ORB
基于学习	优	端到端的梯度下降法训练	大量数据参与训练	较长	MatchNet、L2-Net

基于CNN的描述符学习的主流体系结构为Siamese网络和Triplet网络。Siamese网络以成对图像块作为共享权值的深度神经网络的输入，再将输入映射到新的空间，形成输入在新空间中的表示，通过损失函数计算块对间相似度，适用于处理两个输入区域特征较为相似情况，MatchNet就是典型的Siamese网络。不共享权值网络称为pseudo-Siamese网络，两边输入既可以是相同类型的神经网络，又可以是不同类型的神经网络，适用于处理两个输入有一定差别的情况。Siamese网络还可以应用在手写识别、词汇的语义相似度分析以及目标跟踪等领域。Triplet网络输入三个图像块，分别为两个正样本和一个负样本，训练目的是让相同类别间的距离尽可能小，不同类别间距离尽可能大，PN-Net即是采用Triplet网络进行训练的。表 7从输入数据、表现形式、目标输出、代表方法四个方面对Siamese网络和Triplet网络进行分析比较。表现形式上，正样本对和负样本对在Siamese网络中相互分开，而在Triplet网络中则互相关联；两者都采用正样本对间距离最小、负样本对间距离最大的方式获得目标输出。表 8从样本组织形式、应用形式和计算复杂度三方面对基于深度学习的匹配方法进行分析描述，其中MatchNet和DeepCompare以成对图像块作为输入，且均包含度量层，但DeepCompare的提取时间远小于MatchNet。DeepDesc、L2-Net、PN-Net均采用L2距离衡量相似性，但三者的组织形式不同：DeepDesc的输入为图像块对，L2-Net为全局信息，PN-Net为图像块三元组。PN-Net的特征提取时间最短，L2-Net和DeepCompare次之，DeepDesc和MatchNet的处理时间最长。表 9给出本文中所列举近几年算法的论文和代码下载地址，方便读者参考。

表 7 Siamese网络和Triplet网络比较
Table 7 Comparison between Siamese network and Triplet network

下载CSV

	输入数据	表现形式	目标输出	代表方法
Siamese网络	成对图像块	正样本对和负样本对是分开计算的	正样本对距离趋于0，负样本对距离趋于最大	MatchNet
Triplet网络	图像块三元组，通常为一对正样本和两对负样本	正样本对和负样本对是互联的	正样本对距离趋于0，两个负样本对距离趋于最大	DeepCD、PN-Net

表 8 不同基于学习匹配方法比较
Table 8 Comparison of different learning based matching methods

下载CSV

方法	样本组织形式			应用形式		运行时间(GPU)
方法	成对	三元组	全局	度量	L2	us
MatchNet	Y			Y		573
DeepCompare	Y			Y		44
DeepDesc	Y				Y	579
L2-Net			Y		Y	48
PN-Net		Y			Y	10
注：Y表示算法在某个性能上具有一定的优势。

表 9 图像匹配方法对应论文及代码地址
Table 9 Image matching methods corresponds to papers and code address

下载CSV

类别	方法	论文及代码下载地址
2维点匹配	TILDE	https://cvlab.epfl.ch/research/tilde
	协变特征检测器^[17]	http://dvmmweb.cs.columbia.edu/files/3129.pdf
	协变特征检测器^[17]	https://github.com/ColumbiaDVMM/Transform_Covariant_Detector
	DeepDesc	http://icwww.epfl.ch/~trulls/pdf/iccv-2015-deepdesc.pdf
	DeepDesc	https://github.com/etrulls/deepdesc-release
	LIFT	https://arxiv.org/pdf/1603.09114.pdf
	LIFT	https://github.com/cvlab-epfl/LIFT
	Quad-networks	https://arxiv.org/pdf/1611.07571.pdf
	GMS	http://jwbian.net/gms
	VFC	http://www.escience.cn/people/jiayima/cxdm.html
3维点匹配	PPFNet	http://tbirdal.me/downloads/tolga-birdal-cvpr-2018-ppfnet.pdf
	文献[51]	http://cn.arxiv.org/pdf/1802.07869
	文献[49]	http://cn.arxiv.org/pdf/1807.05653
	文献[50]	http://openaccess.thecvf.com/content_ECCV_2018/papers/Hanyu_Wang_Learning_3D_Keypoint_ECCV_2018_paper.pdf
语义匹配	样本LDA分类器	http://ci2cv.net/media/papers/2015_ICCV_Hilton.pdf
	样本LDA分类器	https://github.com/hbristow/epic
	AnchorNet	http://openaccess.thecvf.com/content_cvpr_2017/papers/Novotny_AnchorNet_A_Weakly_CVPR_2017_paper.pdf
	文献[28]	http://cn.arxiv.org/pdf/1711.07641
线匹配	LBD	http://www.docin.com/p-1395717977.html
	LBD	https://github.com/mtamburrano/LBD_Descriptor
	新线点投影不变量^[61]	https://github.com/dlut-dimt/LineMatching
模板匹配	FAST-Match	http://www.eng.tau.ac.il/~simonk/FastMatch/
	CFAST-Match	https://wenku.baidu.com/view/3d96bf9127fff705cc1755270722192e453658a5.html
	DDIS	https://arxiv.org/abs/1612.02190
	DDIS	https://github.com/roimehrez/DDIS
	DIWU	http://liortalker.wixsite.com/liortalker/code
	CoTM	http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/2450.pdf
	OATM	http://cn.arxiv.org/pdf/1804.02638
块匹配	MatchNet	http://www.cs.unc.edu/~xufeng/cs/papers/cvpr15-matchnet.pdf
	MatchNet	https://github.com/hanxf/matchnet
	DeepCompare	http://imagine.enpc.fr/~zagoruys/publication/deepcompare/
	PN-Net	https://arxiv.org/abs/1601.05030
	PN-Net	https://github.com/vbalnt/pnnet
	L2-Net	http://www.nlpr.ia.ac.cn/fanbin/pub/L2-Net_CVPR17.pdf
	L2-Net	https://github.com/yuruntian/L2-Net
	DeepCD	https://www.csie.ntu.edu.tw/~cyy/publications/papers/Yang2017DLD.pdf
	DeepCD	https://github.com/shamangary/DeepCD

综上，未来图像匹配算法的发展将集中在以下3个方面：

1) 多种图像匹配算法的融合。通过对已有的图像匹配算法进行研究可以发现，每种匹配算法都有各自的特点和适用范围，需要在未来的研究工作中综合这些算法的特点，克服每种算法的应用局限性，最大程度地提升图像匹配算法的应用范围。

2) 对3维特征匹配算法的研究。对于需要精确定位的场景，如工业环境能中零件的分拣，目标物体往往存在极大的3维变换，而2维模板往往不足以描绘出目标物的3维姿态，且随着激光雷达、RGBD相机等3D传感器在机器人、无人驾驶领域的广泛应用，对3维特征匹配的性能要求也越来越高。目前，对3维点云数据的研究逐渐从低层次几何特征提取(点特征直方图PFH、快速点特征直方图FPFH、视点特征直方图VFH等)向高层次语义理解过渡(点云识别、语义分割)。针对无序点云数据的深度学习方法研究进展较为缓慢，主要原因有三点：(1)点云具有无序性，受采集设备以及坐标系影响，同一个物体使用不同的设备或者位置扫描，3维点的排列顺序千差万别，这样的数据很难直接通过端到端的模型处理。(2)点云具有稀疏性，在机器人和自动驾驶的场景中，激光雷达的采样点覆盖相对于场景的尺度来讲，具有很强的稀疏性。(3)点云信息量有限，点云的数据结构就是一些3维空间的点坐标构成的点集，本质是对3维世界几何形状的低分辨率重采样，因此只能提供片面的几何信息。

3) 对卷积神经网络模型的深入研究。对CNN其内部结构深入了解，加强对多层卷积神经网络的设计，从而更快、更准地完成像对匹配。

5 结论

本文从局部不变特征点、直线、区域匹配3个方面对近年来出现的图像匹配方法予以总结，不仅深入分析了每种方法的优缺点及适用场景，而且介绍了其在医学图像和遥感图像中的应用，并利用DTU数据集和Graf数据集对多个图像匹配方法进行分析比较，同时提供近几年算法的论文和代码下载地址，目的是为研究该领域的广大学者提供更为全面的研究综述，同时为技术人员提供应用参考。随着卷积神经网络在图像匹配中的广泛使用，图像匹配的技术迎来新的创新，但在宽基线匹配、实时匹配方面仍需进一步深入研究。在目标识别和视觉导航等领域，宽基线匹配算法比窄基线匹配算法更具有一定的普适性，对宽基线图像进行匹配时，两幅图像中目标的位置、形状和色彩等会发生明显变化，增加了匹配的困难度，大部分学者都是将图像的多种特征进行组合形成稳定的特征向量，基于该特征向量完成宽基线图像的匹配。另一方面，视频目标跟踪、飞行制导、目标侦查等领域对实时性要求较高，现有的大部分匹配算法并不能满足这一要求，而且目标的运动特性是非线性的，速度和方向时刻都在发生变化，可能会出现一个已知目标和多个运动检测区域都匹配或多个目标与一个运动检测区域匹配的情况。实时匹配算法复杂度较高，对计算机配置也有很高要求，对实时匹配算法还需进一步研究。

参考文献

[1] Harris C, Stephens M. A combined corner and edge detector[C]//Proceedings of the 4th Alvey Vision Conference. Manchester: AVC, 1988: 147-151.[DOI:10.5244/C.2.23]

[2] Rosten E, Drummond T. Machine learning for high-speed corner detection[C]//Proceedings of the 9th European Conference on Computer Vision. Graz, Austria: Springer, 2006: 430-443.[DOI:10.1007/11744023_34]

[3] Lowe D G. Distinctive image features from scale-invariantkeypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[4] Liu L, Zhan Y Y, Luo Y, et al. Summarization of the scale invariant feature transform[J]. Journal of Image and Graphics, 2013, 18(8): 885–892. [刘立, 詹茵茵, 罗扬, 等. 尺度不变特征变换算子综述[J]. 中国图象图形学报, 2013, 18(8): 885–892. ] [DOI:10.11834/jig.20130801]

[5] Xu Y X, Chen F. Recent advances in local image descriptor[J]. Journal of Image and Graphics, 2015, 20(9): 1133–1150. [许允喜, 陈方. 局部图像描述符最新研究进展[J]. 中国图象图形学报, 2015, 20(9): 1133–1150. ] [DOI:10.11834/jig.20150901]

[6] Zhang X H, Li B, Yang D. A novel Harris multi-scale corner detection algorithm[J]. Journal of Electronics and Information Technology, 2007, 29(7): 1735–1738. [张小洪, 李博, 杨丹. 一种新的Harris多尺度角点检测[J]. 电子与信息学报, 2007, 29(7): 1735–1738. ] [DOI:10.3724/SP.J.1146.2005.01332]

[7] He H Q, Huang S X. Improved algorithm for Harris rapid sub-pixel corners detection[J]. Journal of Image and Graphics, 2012, 17(7): 853–857. [何海清, 黄声享. 改进的Harris亚像素角点快速定位[J]. 中国图象图形学报, 2012, 17(7): 853–857. ] [DOI:10.11834/jig.20120715]

[8] Zhang L T, Huang X L, Lu L L, et al. Fast Harris corner detection based on gray difference and template[J]. Chinese Journal of Scientific Instrument, 2018, 39(2): 218–224. [张立亭, 黄晓浪, 鹿琳琳, 等. 基于灰度差分与模板的Harris角点检测快速算法[J]. 仪器仪表学报, 2018, 39(2): 218–224. ]

[9] Ke Y, Sukthankar R. PCA-SIFT: a more distinctive representation for local image descriptors[C]//Proceedings of 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE, 2004: 506-513.[DOI:10.1109/CVPR.2004.1315206]

[10] Bay H, Tuytelaars T, Gool L. SURF: speeded up robust features[C]//Proceedings of the 9th European Conference on Computer Vision. Graz, Austria: Springer, 2006: 404-417.[DOI:10.1007/11744023_32]

[11] Liu L, Peng F Y, Zhao K, et al. Simplified SIFT algorithm for fast image matching[J]. Infrared and Laser Engineering, 2008, 37(1): 181–184. [刘立, 彭复员, 赵坤, 等. 采用简化SIFT算法实现快速图像匹配[J]. 红外与激光工程, 2008, 37(1): 181–184. ] [DOI:10.3969/j.issn.1007-2276.2008.01.042]

[12] Abdel-Hakim A E, Farag A A. CSIFT: a SIFT descriptor with color invariant characteristics[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY: IEEE, 2006: 1978-1983.[DOI:10.1109/CVPR.2006.95]

[13] Mikolajczyk K, Schmid C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615–1630. [DOI:10.1109/TPAMI.2005.188]

[14] Morel J M, Yu G S. ASIFT:a new framework for fully affine invariant image comparison[J]. SIAM Journal on Imaging Sciences, 2009, 2(2): 438–469. [DOI:10.1137/080732730]

[15] Rosten E, Porter R, Drummond T. Faster and better:a machine learning approach to corner detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 105–119. [DOI:10.1109/TPAMI.2008.275]

[16] Verdie Y, Yi K M, Fua P, et al. TILDE: a temporally invariant learned DEtector[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 5279-5288.[DOI:10.1109/CVPR.2015.7299165]

[17] Zhang X, Yu F X, Karaman S, et al. Learning discriminative and transformation covariant local feature detectors[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 4923-4931.[DOI:10.1109/CVPR.2017.523]

[18] Savinov N, Seki A, Ladicky L, et al. Quad-networks: unsupervised learning to rank for interest point detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 3929-3937.[DOI:10.1109/CVPR.2017.418]

[19] Simo-Serra E, Trulls E, Ferraz L, et al. Discriminative learning of deep convolutional feature point descriptors[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 118-126.[DOI:10.1109/ICCV.2015.22]

[20] Yi K M, Trulls E, Lepetit V, et al. LIFT: learned invariant feature transform[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 467-483.[DOI:10.1007/978-3-319-46466-4_28]

[21] Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2015: 2017-2025.

[22] Yi K M, Verdie Y, Fua P, et al. Learning to assign orientations to feature points[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE, 2016: 107-116.[DOI:10.1109/CVPR.2016.19]

[23] Liu C, Yuen J, Torralba A. SIFT flow:dense correspondence across scenes and its applications[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2011, 33(5): 978–994. [DOI:10.1109/TPAMI.2010.147]

[24] Bristow H, Valmadre J, Lucey S. Dense semantic correspondence where every pixel is a classifier[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 4024-4031.[DOI:10.1109/ICCV.2015.458]

[25] Novotny D, Larlus D, Vedaldi A. AnchorNet: A weakly supervised network to learn geometry-sensitive features for semantic matching[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 2867-2876.[DOI:10.1109/CVPR.2017.306]

[26] Kar A, Tulsiani S, Carreira J, et al. Category-specific object reconstruction from a single image[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 1966-1974.[DOI:10.1109/CVPR.2015.7298807]

[27] Thewlis J, Bilen H, Vedaldi A. Unsupervised learning of object landmarks by factorized spatial embeddings[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3229-3238.[DOI:10.1109/ICCV.2017.348]

[28] Wang Q Q, Zhou X W, Daniilidis K. Multi-image semantic matching by mining consistent features[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 685-694.[DOI:10.1109/CVPR.2018.00078]

[29] Yu D D, Yang F, Yang C Y, et al. Fast rotation-free feature-based image registration using improved N-SIFT and GMM-based parallel optimization[J]. IEEE Transactions on Biomedical Engineering, 2016, 63(8): 1653–1664. [DOI:10.1109/TBME.2015.2465855]

[30] Pock T, Urschler M, Zach C, et al. A duality based algorithm for TV-L¹-optical-flow image registration[C]//Proceedings of the 10th International Conference on Medical Image Computing and Computer-Assisted Intervention. Brisbane, Australia: Springer, 2007: 511-518.[DOI:10.1007/978-3-540-75759-7_62]

[31] Zhang G M, Sun X X, Liu J X, et al. Research on TV-L¹optical flow model for image registration based on fractional-order differentiation[J]. Acta Automatica Sinica, 2017, 43(12): 2213–2224. [张桂梅, 孙晓旭, 刘建新, 等. 基于分数阶微分的TV-L¹光流模型的图像配准方法研究[J]. 自动化学报, 2017, 43(12): 2213–2224. ] [DOI:10.16383/j.aas.2017.c160367]

[32] Lu X S, Tu S X, Zhang S. A metric method using multidimensional features for nonrigid registration of medical images[J]. Acta Automatica Sinica, 2016, 42(9): 1413–1420. [陆雪松, 涂圣贤, 张素. 一种面向医学图像非刚性配准的多维特征度量方法[J]. 自动化学报, 2016, 42(9): 1413–1420. ] [DOI:10.16383/j.aas.2016.c150608]

[33] Yang W, Zhong L M, Chen Y, et al. Predicting CT image from MRI data through feature matching with learned nonlinear local descriptors[J]. IEEE Transactions on Medical Imaging, 2018, 37(4): 977–987. [DOI:10.1109/TMI.2018.2790962]

[34] Cao X H, Yang J H, Gao Y Z, et al. Region-adaptive deformable registration of CT/MRI pelvic images via learning-based image synthesis[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3500–3512. [DOI:10.1109/TIP.2018.2820424]

[35] He M M, Guo Q, Li A, et al. Automatic fast feature-level image registration for high-resolution remote sensing images[J]. Journal of Remote Sensing, 2018, 22(2): 277–292. [何梦梦, 郭擎, 李安, 等. 特征级高分辨率遥感图像快速自动配准[J]. 遥感学报, 2018, 22(2): 277–292. ] [DOI:10.11834/jrs.20186420]

[36] Fischler M A, Bolles R C. Random sample consensus:a paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381–395. [DOI:10.1145/358669.358692]

[37] Torr P H S, Zisserman A. MLESAC:a new robust estimator with application to estimating image geometry[J]. Computer Vision and Image Understanding, 2000, 78(1): 138–156. [DOI:10.1006/cviu.1999.0832]

[38] Li X R, Hu Z Y. Rejecting mismatches by correspondence function[J]. International Journal of Computer Vision, 2010, 89(1): 1–17. [DOI:10.1007/s11263-010-0318-x]

[39] Liu H R, Yan S C. Common visual pattern discovery via spatially coherent correspondences[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 1609-1616.[DOI:10.1109/CVPR.2010.5539780]

[40] Liu H R, Yan S C. Robust graph mode seeking by graph shift[C]//Proceedings of the 27th International Conference on International Conference on Machine Learning. Haifa, Israel: ACM, 2010: 671-678.

[41] Lin W Y D, Cheng M M, Lu J B, et al. Bilateral functions for global motion modeling[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 341-356.[DOI:10.1007/978-3-319-10593-2_23]

[42] Bian J W, Lin W Y, Matsushita Y, et al. GMS: grid-based motion statistics for fast, ultra-robust feature correspondence[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 2828-2837.[DOI:10.1109/CVPR.2017.302]

[43] Chen F J, Han J, Wang Z W, et al. Image registration algorithm based on improved GMS and weighted projection transformation[J]. Laser & Optoelectronics Progress, 2018, 55(11): 111006. [陈方杰, 韩军, 王祖武, 等. 基于改进GMS和加权投影变换的图像配准算法[J]. 激光与光电子学进展, 2018, 55(11): 111006. ]

[44] Ma J Y, Zhao J, Tian J W, et al. Robust point matching via vector field consensus[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1706–1721. [DOI:10.1109/TIP.2014.2307478]

[45] Aronszajn N. Theory of reproducing kernels[J]. Transactions of the American Mathematical Society, 1950, 68(3): 337–404. [DOI:10.2307/1990404]

[46] Charles R Q, Su H, Mo K, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 77-85.[DOI:10.1109/CVPR.2017.16]

[47] Qi C R, Yi L, Su H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, CA: ACM, 2017.

[48] Deng H W, Birdal T, Ilic S. PPFNet: global context aware local features for robust 3D point matching[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018.[DOI:10.1109/CVPR.2018.00028]

[49] Zhou L, Zhu S Y, Luo Z X, et al. Learning and matching multi-view descriptors for registration of point clouds[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018.[DOI:10.1007/978-3-030-01267-0_31]

[50] Wang H Y, Guo J W, Yan D M, et al. Learning 3D keypoint descriptors for non-rigid shape matching[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018.[doi: 10.1007/978-3-030-01237-3_1]

[51] Georgakis G, Karanam S, Wu Z Y, et al. End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018.[DOI:10.1109/CVPR.2018.00210]

[52] Ren S Q, He K M, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [DOI:10.1109/TPAMI.2016.2577031]

[53] Wang Z H, Wu F C, Hu Z Y. MSLD:a robust descriptor for line matching[J]. Pattern Recognition, 2009, 42(5): 941–953. [DOI:10.1016/j.patcog.2008.08.035]

[54] Wang J X, Zhang X, Zhu H, et al. MSLD descriptor combined regional affine transformation and straight line matching[J]. Journal of Signal Processing, 2018, 34(2): 183–191. [王竞雪, 张雪, 朱红, 等. 结合区域仿射变换的MSLD描述子与直线段匹配[J]. 信号处理, 2018, 34(2): 183–191. ] [DOI:10.16798/j.issn.1003-0530.2018.02.008]

[55] Zhang L L, Koch R. An efficient and robust line segment matching approach based on LBD descriptor and pairwise geometric consistency[J]. Journal of Visual Communication and Image Representation, 2013, 24(7): 794–805. [DOI:10.1016/j.jvcir.2013.05.006]

[56] Wang L, Neumann U, You S Y. Wide-baseline image matching using line signatures[C]//Proceedings of the 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009: 1311-1318.[DOI:10.1109/ICCV.2009.5459316]

[57] López J, Santos R, Fdez-Vidal X R, et al. Two-view line matching algorithm based on context and appearance in low-textured images[J]. Pattern Recognition, 2015, 48(7): 2164–2184. [DOI:10.1016/j.patcog.2014.11.018]

[58] Fan B, Wu F C, Hu Z Y. Line matching leveraged by point correspondences[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 390-397.[DOI:10.1109/CVPR.2010.5540186]

[59] Fan B, Wu F C, Hu Z Y. Robust line matching through line-point invariants[J]. Pattern Recognition, 2012, 45(2): 794–805. [DOI:10.1016/j.patcog.2011.08.004]

[60] Lourakis M I A, Halkidis S T, Orphanoudakis S C. Matching disparate views of planar surfaces using projective invariants[J]. Image and Vision Computing, 2000, 18(9): 673–683. [DOI:10.1016/S0262-8856(99)00071-2]

[61] Jia Q, Gao X K, Fan X, et al. Novel coplanar line-points invariants for robust line matching across views[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 599-611.[DOI:10.1007/978-3-319-46484-8_36]

[62] Luo Z X, Zhou X C, Gu D X. From a projective invariant to some new properties of algebraic hypersurfaces[J]. Science China Mathematics, 2014, 57(11): 2273–2284. [DOI:10.1007/s11425-014-4877-0]

[63] Ouyang H, Fan D Z, Ji S, et al. Line matching based on discrete description and conjugate point constraint[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(10): 1363–1371. [欧阳欢, 范大昭, 纪松, 等. 结合离散化描述与同名点约束的线特征匹配[J]. 测绘学报, 2018, 47(10): 1363–1371. ] [DOI:10.11947/j.AGCS.2018.20170231]

[64] Matas J, Chum O, Urban M, et al. Robust wide baseline stereo from maximally stable extremal regions[C]//Proceedings of the 13th British Machine Vision Conference. Cardiff: BMVC, 2002: 1041-1044.

[65] Nistér D, Stewénius H. Linear time maximally stable extremal regions[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008: 183-196.[DOI:10.1007/978-3-540-88688-4_14]

[66] Elnemr H A. Combining SURF and MSER along with color features for image retrieval system based on bag of visual words[J]. Journal of Computer Science, 2016, 12(4): 213–222. [DOI:10.3844/jcssp.2016.213.222]

[67] Mo H Y, Wang Z P. A feature detection method combined MSER and SIFT[J]. Journal of Donghua University:Natural Science, 2011, 37(5): 624–628. [莫会宇, 王祝萍. 一种结合MSER与SIFT算子的特征检测方法[J]. 东华大学学报:自然科学版, 2011, 37(5): 624–628. ] [DOI:10.3969/j.issn.1671-0444.2011.05.017]

[68] Xu Y C, Monasse P, Géraud T, et al. Tree-based Morse regions:a topological approach to local feature detection[J]. IEEE Transactions on Image Processing, 2014, 23(12): 5612–5625. [DOI:10.1109/TIP.2014.2364127]

[69] Korman S, Reichman D, Tsur G, et al. FasT-Match: fast affine template matching[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 2331-2338.[DOI:10.1109/CVPR.2013.302]

[70] Jia D, Cao J, Song W D, et al. Colour FAST (CFAST) match:fast affine template matching for colour images[J]. Electronics Letters, 2016, 52(14): 1220–1221. [DOI:10.1049/el.2016.1331]

[71] Jia D, Yang N H, Sun J G. Template selection and matching algorithm for image matching[J]. Journal of Image and Graphics, 2017, 22(11): 1512–1520. [贾迪, 杨宁华, 孙劲光. 像对匹配的模板选择与匹配[J]. 中国图象图形学报, 2017, 22(11): 1512–1520. ] [DOI:10.11834/jig.170156]

[72] Dekel T, Oron S, Rubinstein M, et al. Best-buddies similarity for robust template matching[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 2021-2029.[DOI:10.1109/CVPR.2015.7298813]

[73] Oron S, Dekel T, Xue T F, et al. Best-buddies similarity-robust template matching using mutual nearest neighbors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(8): 1799–1813. [DOI:10.1109/TPAMI.2017.2737424]

[74] Wang G, Sun X L, Shang Y, et al. A robust template matching algorithm based on best-buddies similarity[J]. Acta Optica Sinica, 2017, 37(3): 274–280. [王刚, 孙晓亮, 尚洋, 等. 一种基于最佳相似点对的稳健模板匹配算法[J]. 光学学报, 2017, 37(3): 274–280. ] [DOI:10.3788/aos201737.0315003]

[75] Talmi I, Mechrez R, Zelnik-Manor L. Template matching with deformable diversity similarity[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 1311-1319.[DOI:10.1109/CVPR.2017.144]

[76] Talker L, Moses Y, Shimshoni I. Efficient sliding window computation for NN-based template matching[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 409-424.[DOI:10.1007/978-3-030-01249-6_25]

[77] Korman S, Soatto S, Milam M. OATM: occlusion aware template matching by consensus set maximization[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018.[DOI:10.1109/CVPR.2018.00283]

[78] Kat R, Jevnisek R J, Avidan S. Matching pixels using co-occurrence statistics[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018.[DOI:10.1109/CVPR.2018.00188]

[79] Han X F, Leung T, Jia Y Q, et al. MatchNet: unifying feature and metric learning for patch-based matching[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 3279-3286.[DOI:10.1109/CVPR.2015.7298948]

[80] Zagoruyko S, Komodakis N. Learning to compare image patches via convolutional neural networks[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 4353-4361.[DOI:10.1109/CVPR.2015.7299064]

[81] Fan D Z, Dong Y, Zhang Y S. Satellite image matching method based on deep convolution neural network[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(6): 844–853. [范大昭, 董杨, 张永生. 卫星影像匹配的深度卷积神经网络方法[J]. 测绘学报, 2018, 47(6): 844–853. ] [DOI:10.11947/j.AGCS.2018.20170627]

[82] Balntas V, Johns E, Tang L L, et al. PN-Net: conjoined triple deep network for learning local image descriptors[EB/OL].[2018-08-09] https://arxiv.org/pdf/1601.05030.pdf.

[83] Yang T Y, Hsu J H, Lin Y Y, et al.DeepCD: learning deep complementary descriptors for patch representations[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3334-3342.[DOI:10.1109/ICCV.2017.359]

[84] Tian Y R, Fan B, Wu F C. L2-Net: deep learning of discriminative patch descriptor in Euclidean space[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 6128-6136.[DOI:10.1109/CVPR.2017.649].