网刊加载中。。。

0引言随着计算机视觉技术的快速发展，利用视觉图像定位的理论研究和实际应用取得了巨大进步。其中，基于视觉的同步定位与地图构建(simultaneous localization and mapping，SLAM)技术引起了极大关注。视觉SLAM技术通过相机获取三维世界的二维图像信息，根据图像中提取的特征信息或像素灰度推断相机的位姿状态，同时构建出周围环境的地图。纯视觉导航定位技术是一种无源的导航定位方式，具有信息丰富、静止时无累积误差和成本较低等优点，但是存在一些视觉传感器的固有缺陷，如易受光照影响和运动物体的干扰和遮挡，单目时存在尺度不确定问题，快速运动时容易丢失等。惯性测量单元(inertial measurement unit，IMU)能够以较高的频率(100 Hz)敏感载体自身的角速度与加速度信息，再通过积分运算获得载体的位置姿态信息，是一种航迹推算方法，具有短时间内精度高、响应快速、可捕获载体快速运动信息、能够估计出载体的绝对尺度信息、实现全天候工作和不易受外界环境干扰等优点，属于无源导航定位方式，但是受自身温度、零偏、振动等因素的干扰，会产生累积误差。高精度的IMU价格昂贵。相机和IMU具有较好的互补性，并且尺寸小，价格低廉。从仿生导航角度来看，人和动物也是通过视觉和运动感知实现自身导航定位(Corke等，2007)，所以对视觉—惯性导航系统(visual inertial navigation system，VINS)的研究既有理论价值又有实用意义(吴禹彤等，2019)。VINS的基本框架如图 1所示。图1 VINS基本框架 The basic framework of VINSFig 1本文围绕视觉—惯性导航系统的初始化、图像处理、状态估计、地图构建与维护、信息融合、评测工具与方法以及与深度学习结合等关键性技术，综述该领域的发展现状与前沿进展，指出实际应用中面临的问题，对未来发展趋势及技术发展目标进行展望。1初始化和标定技术快速、准确且鲁棒地完成初始化过程对VINS系统至关重要。该技术负责VINS中初始参数的确定，如相机尺度、系统初始速度、重力方向、IMU的偏置以及相机和IMU之间的外参等。早期提出的VINS初始化过程具有闭合解。Kneip等人(2011)提出一种用三帧图像和一个特征点闭式求解相机尺度的方法，Martinelli(2014)提出一种忽略IMU偏置的初始化方法，Kaiser等人(2017)分析了IMU偏置对Martinelli(2014)方法的影响，发现加速度计的偏置对结果影响不大，但是陀螺的偏置影响较大，因此在Martinelli(2014)研究成果的基础上加入了标定陀螺偏置的方法。除了闭式求解的方法，VINS初始化还可以用优化迭代求解的方法实现。Mur-Artal和Tardós(2017b)基于ORB(oriented fast and rotated brief)特征的ORB-SLAM2(Mur-Artal和Tardós，2017a)实现VI-ORB(visual inertial ORB)，利用IMU预积分和单目ORB-SLAM估计的姿态之间构建约束，迭代优化求解IMU的初始状态参数；Yang和Shen(2017)利用SFM(structure from motion)构建约束，对相机与IMU之间的外参、重力方向和速度等初始参数优化迭代求解，在此基础上，Qin等人(2018)用松耦合的方法完成初始化过程，先用SFM求解相机位姿和特征位置，然后优化求解其他初始参数；Campos等人(2020)考虑了传感器测量的不确定性，将VINS的初始化过程建模为最大后验估计问题，优化求解初始参数。针对相机和IMU时间戳非对齐的问题，Ling等人(2018)和Qin和Shen(2018)将相机和IMU的非对齐误差建模成一个待优化的变量放入代价函数中迭代优化求解。VINS中相机和IMU的内参、外参以及时间戳的非对齐误差等也可以通过离线的方式完成标定(Rehder等，2016)。VINS的初始化过程通常无法在载体静止时完成，需要载体有缓慢平移和旋转运动，因此初始化的速度和精度是两个重要指标。VINS如何在静止和快速运动条件下完成初始化具有重要的应用价值，目前仍是难点问题。2视觉前端图像处理技术VINS中视觉前端的处理方法与视觉SLAM/视觉里程计类似，主要有特征法、光流法和直接法。特征法主要包括点特征、线特征和面特征。特征点是图像中比较有代表性的点，在相机视角发生少量变化后不会发生改变。常用的特征点提取方法都是人工设计的，如尺度不变特征变换(scale-invariant feature transform，SIFT)、加速稳健特征(speeded up robust features，SURF)和ORB特征等。具有代表性的基于特征点法的VINS是ORB-SLAM3(Campos等，2020)，由ORB-SLAM(Mur-Artal等，2015)和ORB-SLAM2(Mur-Artal和Tardós，2017a)发展而来。除了图像中的点特征以外，线特征和面特征作为图像中的特征信息，可以提高系统的鲁棒性。Meier等人(2016, 2018)提出一种用曲线特征代替传统点特征的视觉—惯性里程计(visual inertial odometry，VIO)方案，利用贝塞尔曲线表达曲线特征，提供相应的曲线匹配和曲线融合策略，与特征点的方式相比，大幅降低了系统中路标点的数量，提高了计算效率；Yu和Mourikis(2017)提出一种基于线特征的VIO，利用图像中具有明显梯度的区域构建线特征参数化方式和量测模型；He等人(2018)提出的PL-VIO(point-line visual inertial odometry)是一种同时使用了点特征和线特征的基于优化的单目VIO，利用普吕克坐标系和正交表达式对3维空间中的线特征进行参数化；Zou等人(2019)提出的StructVIO(structural visual inertial odometry)基于亚特兰大世界模型描述人造环境结构的规律性，为线特征的参数化方式提供了一种新思路。Li等人(2020)利用环境结构中的几何约束信息，提出一种共面点线特征的参数化方式，可以提高计算效率和精度，并在视觉SLAM系统和VIO系统中进行了验证；Li等人(2019)提出的PVIO(plane visual inertial odometry)利用环境中的平面特征信息实现快速定位，在基于优化的滑动窗口中加入关于平面距离的代价函数，同时具备完善的边缘化策略，是一个基于多平面先验信息的VIO系统。特征法具有较好的鲁棒性，对光照变化不敏感，但是一般只能建立环境的稀疏地图，在弱纹理和非结构化场景中难以稳定运行。光流法基于灰度不变假设，可以用来追踪图像中提取的特征点的运动方向和速度。KLT(Kanade-Lucas-Tomasi)光流跟踪方法在一些VINS方案中得到应用，如VINS-mono(Qin等，2018)、basalt(Usenko等，2020)、Kimera(Rosinol等，2020)等。光流法比较高效，可恢复稠密/半稠密的环境地图，但是易受光照变化的影响。直接法由光流法演变而来，同样是基于灰度不变假设，与光流法的主要区别在于直接法可以不提取图像特征信息，直接根据图像的像素灰度信息推断相机运动。应用直接法的VINS方案有ROVIO(robust visual inertial odometry)(Bloesch等，2017)、由DSO(direct sparse odometry)(Engel等，2018)演化而来的VI-DSO(visual inertial direct sparse odometry)(von Stumberg等，2018)等。直接法不需要特征匹配，效率高，在一些弱纹理环境中具有较好的鲁棒性，可构建稠密/半稠密的地图，但是对光照变化敏感。在同一场景中，采用不同的视觉前端处理方式，可能会有截然不同的运行效果，因此需要根据应用场景的特征和需求，设计不同的图像处理方式。3状态估计方法VINS系统的状态估计是整个系统的核心问题。主要分为两类，一类是基于滤波的方案，另一类是基于优化的方案。早期的VINS主要采用滤波的方法，以多状态约束卡尔曼滤波(multi-state constraint Kalman filter，MSCKF)(Mourikis和Roumeliotis，2007)为代表。随着优化的方法逐渐在SLAM领域展现优势，一些VINS方案开始采用优化的方法，具有代表性的是VINS-mono(Qin等，2018)。3.1基于滤波的VINSMSCKF是一种基于误差状态卡尔曼滤波(error-state Kalman filter，ESKF)的视觉—惯性紧耦合典型框架，主要贡献在于直接利用相机位姿对状态向量进行扩充，其框架影响深远并且沿用至今。后来基于滤波方法的VINS很多都是基于MSCKF的框架实现的，如MSCKF 2.0(Li和Mourikis，2013)，Open-VINS(Geneva等，2020)，MSCKF-VIO(Sun等，2018)，LARVIO(lightweight，accurate and robust monocular visual inertial odometry)(Qiu等，2020)等。标准的MSCKF由于扩展卡尔曼滤波(extended Kalman filter，EKF)线性化的方式将本不可观的航向信息变为“伪可观”，从而导致滤波估计不一致的问题，Huang等人(2008, 2009, 2010)对基于EKF的SLAM问题中的一致性进行分析和改进，提出FEJ(first estimated Jacobian)方法，通过约束线性化点的方式解决估计不一致的问题。Li和Mourikis(2013)采用FEJ方法解决MSCKF中估计不一致问题。Huai和Huang(2018)基于MSCKF将VINS表示在以机器人为中心的局部坐标系下，避免了世界坐标系下VINS系统可观性不一致问题。Geneva等人(2020)基于MSCKF提出Open-VINS，为从事视觉—惯性导航的研究者和使用者提供了一个平台，包括标准的MSCKF、FEJ的实现、在线标定IMU和相机的外参、标定补偿IMU和相机的时间偏移误差以及路标点的不同参数化方式等，并有对应的官方文档和详细的理论推导。Sun等人(2018)提出基于双目相机的MSCKF。Qiu等人(2020)基于MSCKF采用1维逆深度对特征点进行参数化，并将零速检测引入到算法中获得了更佳的算法表现。Brossard等人(2018)和Nguyen等人(2020a)分别将无迹卡尔曼滤波和容积卡尔曼滤波应用到VINS中以提升算法性能。基于滤波的VINS计算效率高、实时性好，但是线性化近似误差可能会导致滤波精度降低，另外滤波基于一阶马尔可夫假设，不便于处理数据关联的问题。3.2基于优化的VINS基于优化的方法也称为BA(bundle adjustment)，起源于摄影几何，在2000年引入SFM。不同于滤波的方法，BA的思想是将历史时刻中所有的状态都看成待优化的变量，将运动方程和观测方程看做是变量之间的约束，通过约束构造误差函数，然后通过最小化误差的二次型估计状态。目前优化的方法一般都是基于最大后验估计，将状态估计问题转化成非线性最小二乘的优化问题，然后用高斯—牛顿法或列文伯格—马夸尔特算法等进行优化求解。根据优化变量集合的不同，优化分为全局优化(global BA)和局部优化(local BA)。早期基于优化的VINS方案是Leutenegger等人(2015)提出的OKVIS(open keyframe-based visual inertial sLAM)，在待优化的代价函数中引入了IMU的误差项，后端采用滑动窗口的形式进行优化。Usenko等人(2020)通过重建非线性因子图，将回环约束加入到因子图中进行全局非线性优化。为了兼顾优化的实时性和精度，目前基于优化的VINS方案一般是结合了global BA和local BA的方式，如VINS-mono和ORB-SLAM3等。基于优化的方法在每次迭代更新时可以通过重线性化的方式减小线性化误差，容易获得更高精度，但代价是计算量增加。为了提高优化的效率，Kaess等人(2008)用因子图表示VINS中的优化模型，提出增量平滑与地图构建(incremental smoothing and mapping，iSAM)的方法，通过增量更新的方式提高优化效率，在此基础上利用贝叶斯树实现的iSAM2(Kaess等，2012)进一步加速了计算效率。类似的工作还有Liu等人(2018)提出的ICE-BA(incremental, consistent and efficient bundle adjustment)。基于优化的方法中，IMU的工作机制会给优化带来较大的计算负担，因为在迭代优化过程中，历史状态的更新会导致IMU的重新积分，产生大量重复计算。针对这个问题，Lupton和Sukkarieh(2012)提出IMU预积分的方法，将图像帧间的IMU数据统一处理，获得一个不依赖于前一帧的帧间位姿约束，即获得帧间位姿的相对变换关系。Forster等人(2015, 2017)将IMU预积分的方法拓展到了李代数上，已广泛应用到基于BA优化框架的VINS中。图 2按照时间节点列举了一些具有代表性的基于滤波和基于优化的VINS算法。图2 具有代表性的基于滤波和基于优化的VINS算法 Some representative filter-based and optimization-based VINS algorithmsFig 2目前，基于滤波和基于优化的VINS方案都在继续发展完善，并相互借鉴和补充，二者各有优劣，基于滤波的方法计算效率高，精度一般；基于优化的方法计算负担大，但精度较高。4地图的构建、维护和复用根据是否有建图需要，VINS可以分为VIO和VI-SLAM(visual-inertial SLAM)。其中VIO一般只考虑自身位姿的估计，不考虑周围环境的完整构建与维护，未将特征扩充到状态向量中进行估计，不具备回环检测功能，本质上是推位系统，无法消除累积误差。而VI-SLAM是一个完备的SLAM系统，同时定位和建图，估计和优化特征在3维空间中的位置信息，可实现回环检测。在VI-SLAM中，地图的构建、维护和复用是十分重要的。Lynen等人(2015)提出一种基于先验地图的大尺度场景下的VINS方案，利用先验地图保证估计的一致性。Schneider等人(2018)提出maplab，可以实现大尺度场景下的定位、建图、地图拼接和维护。Campos等人(2020)提出ORB-SLAM3，构建了多地图的机制，当跟踪丢失时会重新初始化新的地图，可以有效提高系统运行的鲁棒性，同时具备完善的地图拼接方法。建立维护局部或全局的地图，不仅可以刻画出周围环境的信息，还可以为载体的定位、路径规划、避障和控制等提供有效信息。5多传感器融合VINS在实际运行时比较依赖回环检测修正累积误差。在小范围场景中运行时，可以比较频繁地发生回环检测，容易获得较好的效果。ORB-SLAM3在德国慕尼黑工业大学发布的公开数据集TUM-VI(Technical University of Munich-visual Inertial)中的房间数据子集上的定位精度已经达到厘米级(Campos等，2020)。但是在大尺度场景中运行时，回环很有可能无法发生，累积误差无法消除，另外在一些动态环境、弱纹理和暗光环境中VINS的效果也不理想，因此有必要加入其他传感器保证系统的稳定运行。Surber等人(2017)利用全球定位系统(global positioning system，GPS)的定位信息辅助VIO完成定位和回环矫正；Qin等人(2019)提出一种基于优化的VINS与多传感器融合的框架VINS-Fusion，可以融合GPS等其他传感器的信息，具有较好的灵活性和扩展性；Lee等人(2020)用GPS信号辅助VIO，提出一种高效鲁棒的GPS-VIO系统，可以在线标定GPS与IMU之间的外参以及时间偏移误差，并且证明分析了系统分别在VIO参考系和GPS参考系下的可观性，其中在VIO参考系下该系统的可观性与纯VIO系统一致，不可观维度是4，而在GPS参考系下系统状态全部可观。Jung等人(2020)以车辆为研究对象，将轮速计和GPS信号融入VIO中，在EKF框架下重新设计系统模型，使用三轴陀螺仪、两轴加速度计和单轴轮速计传播状态，利用GPS信号实现了系统状态全部可观。Yu等人(2019)采用松组合的方式将GPS与多个相机形成的VINS进行融合，可以灵活配置相机数量，并且可以在运动状态下快速完成初始化过程。Liu等人(2020)采用紧组合的方式将GPS原始数据与VINS系统进行融合，使用的GPS原始数据包括伪距和多普勒频移的信息。Zuo等人(2019a)在MSCKF框架中加入激光雷达(laser radar，LiDAR)，形成了激光雷达—惯性—视觉融合的里程计(LiDAR inertial camera fusion，LIC Fusion)。在此基础上，Zuo等人(2020)提出一种基于滑窗滤波器的在线时空校准激光雷达—视觉—惯性里程计(LIC Fusion 2.0)，通过一种新的滑动窗口平面特征跟踪方法可以有效处理3维激光点云，特别是利用IMU数据对LiDAR点进行运动补偿后，通过滑动窗口提取和跟踪低曲率平面点。Zuo等人(2019b)将先验激光雷达地图融入基于MSCKF的VIO更新过程中，利用先验地图修正VIO的累积误差。Shao等人(2019)提出一种融合双目VIO和LiDAR的SLAM方案，并利用LiDAR辅助视觉完成回环检测，在隧道等恶劣环境下可以获得比纯激光方案(Zhang和Singh，2014)更好的建图定位效果。Nguyen等人(2020b)提出一种基于优化方法的多传感器融合方案，融合的传感器类型包括IMU、超宽带(ultra wide band，UWB)测距传感器、相机和激光雷达，可以有效减少导航定位过程中的累积误差和多传感器坐标系之间的非对齐误差。Jaekel等人(2020)提出一种多立体视觉的VINS框架，可以保证系统在剧烈运动或具有挑战性的场景中运行的鲁棒性。VINS与其他传感器的融合在一定程度上克服了本身的不足，扩大了VINS的应用场景和应用范围，但是传感器数量的增加会带来硬件同步、数据对齐和算法复杂度提升等问题。6非理想环境下的VINSVINS在简单环境中具有良好表现，然而对VINS有巨大应用需求的场景往往包含非理想环境。目前的VINS对环境变化的鲁棒性较差，无法满足应用需求，因此有必要研究非理想环境下的VINS算法。Gu等人(2019)考虑了水下折射率受环境因素影响发生变化的情况，提出一种可根据环境自动标定相机和IMU内外参数的方法。Hardt-Stremayr和Weiss(2020)研究了弱纹理条件下的VIO方案。Khattak等人(2019)提出一种利用热感相机和IMU融合的VIO方案，利用热感相机增强载体在暗光以及烟雾环境中的感知定位能力。Zhao等人(2020a)提出一种基于热感相机的VIO解决方案，针对光度变化和热感图像噪声较大等问题，提出一种新的热感特征提取和匹配网络，可以保证VIO系统在烟雾环境下仍然稳定运行。现阶段，在非理想环境中应用VINS要充分考虑环境对算法的影响，进而对传感器和算法做出针对性调整。非理想环境下的VINS作为长尾问题，需要进行长期研究。7基于学习方法的VINS基于深度学习的方法在VINS的某些环节中应用，解决了一些特定问题，在运行效率或者稳定性方面，相较于传统方法表现出一定优势。Clark等人(2017)提出的VINet模型将VIO建模为一个学习问题，首次用深度神经网络实现端到端的VIO框架。Han等人(2019)提出一种自监督的单目VIO深度学习网络DeepVIO，通过直接结合2维光学特征和IMU数据提供位姿估计结果。Almalioglu等人(2019)提出一种基于自监督学习的VIO和深度估计方法，通过对抗训练和自适应信息融合，无需相机和IMU的内外参数便能够给出载体的位姿信息和恢复出未标记场景的深度图。Shamwell等人(2020)利用无监督深度学习的方法，在不提供IMU内参或IMU与相机的外参的情况下运行VIO，可以实现对有尺度轨迹的无监督学习和在线矫正。Chen等人(2019)提出一种针对单目VIO鲁棒的端到端多传感器融合框架。Lee等人(2019)基于光流的神经网络实现了无需标定的VIO方案。Irmisch等人(2020)提出利用语义分割提取特征处理动态环境的VIO方法。Zhao等人(2020b)提出一种动态环境下的语义VIO，利用语义分割构造特征检测与提取模块，排除动态特征。Li和Waslander(2020)提出一种基于EKF的端到端可训练VIO方法，基于EKF框架利用IMU运动方程进行时间更新，在量测更新中融入来自网络的视觉相对位姿估计结果。Shan等人(2020)提出的OrcVIO(object residual constrained visual inertial odometry)通过卷积神经网络提取图像的语义特征及其协方差信息，可以联合估计自身运动及目标的位姿与形状信息。深度学习的图像特征提取和非线性学习能力为VINS的前端处理、状态估计和多传感器融合等处理模块提供了新的思路，借鉴融合深度学习新理论将促进VINS的发展。8评测工具与数据集随着VINS理论快速发展和应用日益广泛，出现了许多相关算法，用于评价VINS算法性能指标的工具和公开数据集也应运而生。8.1评测工具目前，主要采用EVO(evaluation of odometry and sLAM)(Grupp，2017)作为VINS算法的评测工具。它是用来评估里程计和SLAM系统量测数据及输出估计状态优劣的工具包，评价指标包括绝对位姿误差和相对位姿误差，兼容常见的数据格式和提供丰富的评测工具接口，并且支持较好的可视化操作。8.2数据集用于评价VINS算法的数据集在不断丰富和完善，常用的主要有KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)(Geiger等，2013)、EuRoC(European Robotics Challenge)(Burri等，2016)和TUM-VI(Schubert等，2018)等公开数据集。KITTI数据集是德国卡尔斯鲁厄理工学院和丰田技术研究院联合创办的无人车自动驾驶场景下的算法评测数据集，可用于评测视觉(惯性)里程计、目标检测和跟踪等计算机视觉技术在车载环境下的性能表现，测试场景包括市区、乡村和高速公路等真实环境。数据采集平台装配有2个灰度相机(FL2-14S3M-C)、2个彩色相机(FL2-14S3C-C)、4个光学镜头(edmund optics NT59-917)、1个64线激光雷达(velodyne HDL-64E)及GPS/IMU组合导航系统(OXTS RT 3003)，其中图像以10 Hz的频率采样及同步，IMU的输出频率为100 Hz。EuRoC数据集是瑞士苏黎世联邦理工学院制作的室内无人机双目+IMU数据集，包含苏黎世联邦理工学院的工厂和普通房间两个测试场景。数据采集平台搭载的双目相机型号是MT9V034，输出频率20 Hz；IMU型号是ADIS16448，输出频率为200 Hz；无人机飞行的轨迹真值由维肯的动作捕捉系统提供，频率100 Hz，精度可达毫米级。TUM-VI数据集是德国慕尼黑工业大学发布的用于评测视觉/惯性导航定位算法性能指标的手持数据集。测试场景丰富多样，包括普通房间的室内、走廊及办公室环境、大学建筑的中央大厅以及大学校园外等场景。数据采集平台搭载的双目相机(IDS uEye UI-3241LE-M-GL)提供20 Hz高动态范围和光度校准的图像，IMU(Bosch BMI160)以200 Hz的频率测量三轴加速度与角速度。对于轨迹真值，该数据集采用动作捕捉系统(OptiTrack Flex13)以120 Hz的频率获取3维空间中平台的6自由度位姿作为参考真值。除了上述3个公开数据集，用于评测VINS算法性能的数据集还有Malaga Urban(Blanco-Claraco等，2014)、UMich NCLT(Carlevaris-Bianco等，2016)、PennCOSYVIO(Pfrommer等，2017)、Zurich Urban MAV(Majdik等，2017)、ADVIO(Cortés等，2018)、Canoe(Miller等，2018)、AQUALOC(Ferrera等，2019)、UMA-VI(Zuñiga-Noël等，2020)和CUHK-AHU(Chen等，2020)等利用不同类型设备在不同应用场景制作数据集。评测VINS的数据集如表 1所示。表1 评测VINS的数据集数据集年份环境平台载体真值参考 KITTI 2013 市区、乡村及高速等公路环境汽车 GPS/IMU Malaga Urban 2014 城市道路汽车 GPS UMich NCLT 2016 室内外的校园环境平衡车 GPS/IMU/laser EuRoC 2016 工厂、室内无人机动作捕捉系统 PennCOSYVIO 2017 室内/室外场景手持设备带有标记的光学定位 Zurich Urban 2017 室外城市环境无人机 Pix4D软件处理结果 TUM-VI 2018 室内、走廊及校园的室外场景手持设备动作捕捉系统 ADVIO 2018 各种室内/室外的城市场景智能手机惯性导航系统、人工确定位置 Canoe 2018 河岸、水面场景船 GPS/IMU AQUALOC 2019 水下潜水器 SFM离线计算位姿轨迹 UMA-VI 2020 弱纹理和光照变化的室内外场景手持设备 SFM离线计算位姿轨迹 CUHK-AHU 2020 工厂物流、山丘及复杂城市环境汽车基于图的SLAM技术 Datasets of evaluating the VINSTable 19未来研究方向及发展趋势目前，VINS理论发展日趋成熟，最先进的开源算法在标准结构化场景中的定位精度达到了厘米级，可以满足绝大部分的应用需求。但是，VINS在实际场景中的表现尚未达到实用水平，主要表现在鲁棒性差和运行效率低两方面，导致这些问题的因素有很多，如相机的曝光时间不稳定、环境的光照强度发生变化、暗光照、弱纹理、动态物体的干扰和遮挡、烟雾环境、恶劣天气的影响、地图的长时间维护与更新、大尺度场景下运行带来的内存消耗和计算负担等。针对现有问题，VINS在未来的发展趋势主要有以下几个方面：从应用角度看，大范围、长时间和高质量的位姿估计将成为VINS发展的重要方向。目前，VINS在室内小范围场景中的运行效果较好，通过频繁的回环矫正可以及时修正累积误差。但是在室外大尺度和一些光照变化、动态物体干扰等复杂场景中无法保证稳定运行。针对这类应用场景，可以从以下几方面入手进一步改进完善：1)系统初始化效果的好坏往往直接决定了VINS的运行效果，室外和动态环境给VINS的初始化过程带来挑战，因此需要更加快速、准确的初始化过程，无需载体做特定的运动即可快速、准确地完成VINS的初始化和传感器内外参数的在线标定；2)设计更加高效、鲁棒和准确的视觉前端跟踪算法，以保证相机在极端运动条件下图像匹配的可靠性；3)在大尺度环境中运行VINS时，难以实现回环矫正，可以借助先验地图或引入额外传感器修正累积误差，可融合的传感器有GPS、磁力计、高度计、轮速计、热成像仪、激光雷达和事件相机等。从载体角度看，轻量化、高效的VINS将成为大规模、多场景应用的基础。目前绝大部分VINS方案在计算资源受限的移动端平台(如小型无人系统和AR/VR设备)难以实时运行，实时性和精度之间的矛盾突出。随着IMU理论的不断发展，以及IMU器件性能的提升，低功耗、高精度的IMU配合轻量化VINS算法框架，将为VINS在多样化终端的大规模部署提供支撑。从系统框架角度看，深度学习理论的不断发展将为VINS框架中的前端图像处理、位姿估计和多传感器融合提供新的思路，甚至将改变VINS系统固有的级联式处理框架，形成端到端、高效的系统框架。就目前而言，传统的VINS算法在一些恶劣环境，如弱纹理、暗光、烟雾环境、雷雨天气、水下和高动态场景中效果不佳，这些场景中面临的问题通过传统的方法往往难以处理。基于学习的方法在视觉前端有优异表现，可以利用图像中丰富的语义信息，对动态场景进行处理，乃至舍弃传统VINS框架，根据输入的图像直接估计相机位姿变化，即端到端的VINS，但是目前基于学习方法的VINS迁移泛化能力还有待提高，多场景之间的切换会显著降低VINS性能。随着深度神经网络架构设计理论和技术的不断发展，网络模型的迁移泛化能力不断增强，基于学习的VINS将对复杂多变的室外场景具备更强的适应能力。未来VINS的大规模应用主要取决于算法的以下特性：1)适应性。算法可以适应丰富的场景，如室内、城市、野外和水下场景等各种应用环境；2)鲁棒性。算法可以适应高动态复杂环境，如光照变化、天气变化、季节变化、弱纹理及动态场景、极端相机运动等；3)高效性。轻量、高效的VINS算法可以确保系统能够在计算能力受限的移动端部署，推动VINS实用化发展。