发布时间: 2020-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190441
2020 | Volume 25 | Number 7

遥感图像处理

迁移学习下高分快视数据道路快速提取

张军军^1,2, 万广通¹, 张洪群¹, 李山山¹, 冯旭祥¹

1. 中国科学院遥感与数字地球研究所, 北京 100094;

2. 中国科学院大学, 北京 100049

收稿日期: 2019-09-09; 修回日期: 2019-12-27; 预印本日期: 2020-01-03

基金项目: 中国科学院战略性先导科技专项（A类）地球大数据科学工程子课题项目：CASEarth小卫星产品服务研究（XDA19010401）；中国科学院遥感与数字地球研究所集成课题项目（Y6JD260057）

第一作者简介: 张军军, 1991年生, 女, 硕士研究生, 主要研究方向为深度学习及遥感图像处理。E-mail:zhangjunjun17@mails.ucas.ac.cn;
张洪群, 男, 正高级工程师, 主要研究方向为卫星数据预处理技术与系统。E-mail:zhanghq@aircas.ac.cn;
李山山, 男, 副研究员, 主要研究方向为高光谱图像处理及卫星数据处理。E-mail:liss@radi.ac.cn;
冯旭祥, 男, 副研究员, 主要研究方向为卫星数据预处理技术与系统。E-mail:fengxx@aircas.ac.cn.

中图法分类号: TP751.1

文献标识码: A

文章编号: 1006-8961(2020)07-1501-12

摘要

目的传统的道路提取方法自动化程度不高，无法满足快速获取道路信息的需求。使用深度学习的道路提取方法多关注精度的提升，网络冗余度较高。而迁移学习通过将知识从源领域迁移到目标领域，可以快速完成目标学习任务。因此，本文利用高分辨率卫星快视数据快速获取的特性，构建了一种基于迁移学习的道路快速提取深度神经网络。方法采用基于预训练网络的迁移学习方法，可以将本文整个道路提取过程分为两个阶段：首先在开源大型数据库ImageNet上训练源网络，保存此阶段最优模型；第2阶段迁移预训练保存的模型至目标网络，利用预训练保存的权重参数指导目标网络继续训练，此时快视数据作为输入，只做目标任务的定向微调，从而加速网络训练。总体来说，前期预训练是一个抽取通用特征参数的过程，目标训练是针对道路提取任务特化的过程。结果本文构建的基于迁移学习的快速道路提取网络，迁移预训练模型与不迁移相比验证精度提升6.0%，单幅尺寸为256×256像素的数据测试时间减少49.4%。快视数据测试集平均精度可达88.3%。截取一轨中7 304×6 980像素位于天津滨海新区的快视数据，可在54 s内完成道路提取。与其他迁移模型对比，本文方法在快速预测道路的同时且能达到较高的准确率。结论实验结果表明，本文针对高分卫星快视数据，提出的利用预训练模型初始化网络能有效利用权重参数，使模型趋于轻量化，使得精度提升的同时也加快了提取速度，能够实现道路信息快速精准获取。

关键词

高分辨率卫星; 快视数据; 道路快速提取; 迁移学习; 微调

Rapid road extraction from quick view imagery of high-resolution satellites with transfer learning

Zhang Junjun^1,2, Wan Guangtong¹, Zhang Hongqun¹, Li Shanshan¹, Feng Xuxiang¹

1. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China;

2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract

Objective Quick view data generated by high-resolution satellites provide real-time reception and full resolution for quick view imaging. Such imaging offers a timely source of data for practical applications, such as fire detection, moving window display, disaster observation, and military information acquisition. Road extraction from remote sensing images has been a popular research topic in the field of remote sensing image analysis. Traditional object-oriented methods are not highly automated, and road features require prior knowledge for manual selection and design. These conditions lead to problems in real-time road information acquisition. The popular deep learning road extraction method mainly focuses on the improvement of precision and lacks research on the timeliness of road information extraction. Transfer learning can rapidly complete the task in the target area through weight sharing among different fields and make the model algorithm highly personalized. A transfer learning deep network for rapidly extracting roads is constructed to utilize quick view data from high-resolution satellites. Method First, we propose a least-square fitting method of devignetting to solve the most serious radiation problem of TDICCD (time delay and integration charge coupled devices) vignetting phenomenon appearing in raw quick view data. The results of the preprocessing of the quick view data serve as our training dataset. Then, we choose LinkNet as the target network after comparing the performance among different real-time semantic segmentation networks, such as ENet, U-Net, LinkNet, and D-LinkNet. LinkNet is efficient in computation memory, can learn from a relatively small training set, and allows residual unit ease training of deep networks. The rich bypass links each encoder with decoder. Thus, the networks can be designed with few parameters. The encoder starts with a kernel of size 7×7. In the next encoder block, its contracting path to capture context uses 3×3 full convolution. We use batch normalization in each convolutional layer, followed by ReLU nonlinearity. Reflection padding is used to extrapolate the missing context in the training data for predicting the pixels in the border region of the input image. The input of each encoder layer of LinkNet is bypassed to the output of its corresponding decoder. Lost spatial information about the max pooling can then be recovered by the decoder and its upsampling operations. Finally, we modify LinkNet to keep it consistent with ResNet34 network layer features, the so-called fine tuning, for accelerating LinkNet network training process. Fine tuning is a useful efficient method of transfer learning. The use of ResNet34 weight parameter pretrained on ImageNet initializing LinkNet34 can accelerate the network convergence and lead to improved performance with almost no additional cost. Result In the process of devignetting quick view data, the least-square linear fitting method proposed in this study can efficiently remove the vignetting strip of the original image, which meets practical applications. In our road extraction experiment, LinkNet34 using the pretrained ResNet34 as encoder has a 6% improvement in Dice accuracy compared with that when using ResNet34 not pretrained on the valid dataset. The time consumption of a single test feature map is reduced by 39 ms, and the test Dice accuracy can reach 88.3%. Pretrained networks substantially reduce training time that also helps prevent overfitting. Consequently, we achieve over 88 % test accuracy and 40 ms test time on the quick view dataset. With an input feature map size of 3×256×256 pixels, the data of Tianjin Binhai with a size of 7 304×6 980 pixels take 54 s. The original LinkNet using ResNet18 as its encoder only has a Dice coefficient of 85.7%. We evaluate ResNet50 and ResNet101 as pretrained encoders. The Dice accuracy of the former is not improved, whereas the latter takes too much test time. We compare the performance of LinkNet34 with those of three other popular deep transfer models for classification, namely, U-Net; two modifications of TernausNet and AlubNet using VGG11 (visual geometry group) and ResNet34 as encoders separately; and a modification of D-LinkNet. The two U-Net modifications are likely to incorrectly recognize roads as background or recognize something nonroad, such as tree, as road. D-LinkNet has higher Dice than LinkNet34 on the validation set, but the testing time takes 59 ms more than that of LinkNet34. LinkNet34 avoids the weaknesses of TernuasNet and AlubNet and makes better predictions than them. The small nonroad gap between two roads can also be avoided. Many methods mix the two roads into one. The method proposed in this study generally achieves good connectivity, accurate edge, and clear outline in the case of complete extraction of the entire road and fine location. It is especially suitable for rural linear roads and the extraction of area roads in towns. However, the extraction effect for complex road networks in urban areas is incomplete. Conclusion In this study, we build a deep transfer learning neural network, LinkNet34, which uses a pretrained network, ResNet34, as an encoder. ResNet34 allows LinkNet34 to learn without any significant increase in the number of parameters, solves the problem that the bottom layer features randomly initialized with weights of neural networks are inadequately rich, and accelerates network convergence. Our approach demonstrates the improvement in LinkNet34 by the use of the pretrained encoder and the better performance of LinkNet34 than other real-time segmentation architecture. The experimental results show that LinkNet34 can handle road properties, such as narrowness, connectivity, complexity, and long span, to some extent. This architecture proves useful for binary classification with limited data and realizes fast and accurate acquisition of road information. Future research should consider increasing the quick view database. The pretrained network LinkNet34 trains on the expanded quick view database and then transfers. The "semantic gap" between the source and target networks is reduced, and the data distribute similarly. These features are conducive to model initialization.

Key words

high-resolution satellite; quick view data; fast road extraction; transfer learning; fine-tuning

0 引言

道路信息的快速获取对灾情分析、军事信息更新以及自动驾驶等极为重要。高分辨率卫星的飞速发展为快速获取高精度道路信息提供了基础条件。卫星快视数据是在接收原始数据的同时或接收完成之后，通过快视成像的方法(顾久祥等，2014)，快速生成的经过简单误差校正的可视图像。处理速度快，流程简便，较遥感卫星数据产品具有更高的机动性和更强的时效性，为快速获取感兴趣目标提供了最佳的数据源。

遥感影像道路提取的方法分为提取道路面积和提取道路中心线(史文中等，2001)两类。道路面积相对道路中心线能够反映更多的场景信息，应用较多, 是研究的重点。道路面积提取可以看做分割问题或面向像元的二分类问题。传统道路提取方法自动化程度不高，道路特征需要先验知识进行人工选择和设计，无法满足道路信息快速获取的需求。基于深度学习的道路提取方法，诸如He等人(2016a)提出的结合残差单元方法、Ronneberger等人(2015)提出的U-Net(unity network)方法以及Zhang等人(2018)提出的ResUnet(residual unity networking)深度学习网络对道路提取的方法、Zhou等人(2018)使用LinkNet(link network) (Chaurasia和Culurciello，2017)作为基础网络，增加空洞卷积，对全球卫星图像进行道路提取等方法，多关注对道路提取精度的提升，模型参数量大，难以满足对时效性需求较高的应用。

精简网络结构、减少参数和计算量、加速网络训练以及提高模型预测速度是构建快速处理深度网络的关键。SegNet(segmentation network)(Badrinarayanan等，2017)是相对较早的实时图像语义分割网络，通过最大池化索引将下采样的高分辨率学习参数保存，在解码器中直接通过索引上采样，不用重复学习。但上采样索引的仍是池化后的结果，难以恢复所有高分辨率特征。一般的神经网络卷积后接池化操作，在加深特征图通道的同时，导致计算量倍增。Paszke等人(2016)构建的轻量级网络ENet(effificient neural network)，尝试卷积与池化并行，实现了图像的实时分割，但提取精度相对较差。在编码器中，最大池化或卷积操作会降低图像的高频成分，产生钝化模糊块，一般的做法是使用最大池化索引(如SegNet)或全卷积(fully convolutional networks，FCN)(Shelhamer等，2017)恢复丢失的空间信息，但都会导致参数量和计算量的增加。LinkNet的跨越连接将编码器中对应结构中未经池化的部分，直接裁剪复制到解码器，上采样时能获得更多原始高分辨率图像特征。同时在整个网络中，前馈网络的权重参数直接用于上采样，无需重复学习最大池化和卷积丢失信息，做到了性能与参数量的平衡。

理论上，基于深度学习的网络模型能够通过提取遥感图像的高层次特征，表征出遥感场景间的细微差别，然而目前遥感领域并不具备足够的带标签的遥感图像用于训练。而迁移学习允许源领域和目标领域的数据分布不同，且专注目标任务训练，对目标数据集规模要求不高(甘俊英等，2019)。由于遥感图像与日常可见光图像的基本视觉模块(如边、角)相同，所以可将ImageNet数据库(Deng等，2009)上预训练的深度网络模型迁移至其他场景分类，该过程称为微调(fine-tuning)，可以解决样本过少带来的浅层参数难以学习、收敛速度过慢、过拟合等问题，是加速网络训练的有效方法。在汽车自动驾驶领域，Iglovikov和Shvets(2018)迁移预训练网络VGG(visual geometry group)用于分割汽车图像。在医学领域，Shvets等人(2018)迁移ResNet对手术图像进行语义分割。

为了充分发挥高分辨率快视数据能够快速获取的优势，从中快速提取道路场景，综合上述理论，本文构建了一个基于迁移学习的深度神经网络，提出了一种针对高分辨率快视数据的道路信息快速提取方法，分为快视数据获取和道路快速提取两个阶段。第1阶段先在大型数据库ImageNet上训练源网络ResNet，保存最优模型；第2阶段利用预训练权重指导目标网络LinkNet继续训练，将快视数据作为输入，完成提取道路的任务。整个迁移模型在快速训练的同时能够获得很高的提取精度，流程图如图 1所示。

图 1 快视数据道路提取流程图

Fig. 1 The flow chart of extracting road using high resolution satellite quick view imagery

1 高分辨率快视数据处理

1.1 辐射校正

卫星原始数据经过数据解析之后，快速生成用于临时存储、实时传输的快视数据，这是遥感数据可视化的初步结果。然而原始卫星快视数据辐射较差，最严重的是由于TDICCD(time delay integration charge coupled device)拼接造成的渐晕现象(苏婷等，2014)。如图 1左侧的整轨原始GF-2影像，在5片CCD(charge coupled device)拼接处表现为黑边，严重影响后续使用。本文应用最小二乘法，分段拟合出渐晕区灰度变化曲线，然后进行灰度补偿，最后通过拉伸改善整体图像质量，消除不同区域出现的渐变色效应。

快视数据的辐射处理过程与产品数据相比减少了复杂耗时的调制传递函数MTF(modulation transfer function)等步骤，只将不同CCD间的相对辐射调整为一致，仍具有纹理信息丰富、自相关性强等特点。

1.2 几何校正

快视数据几何处理过程包括CCD拼接、波段配准和系统级几何校正。其中系统几何校正是卫星地面预处理系统中的重要环节，功能是利用各种平台传感器参数以及轨道数据，实现遥感图像精确地理编码，生成带有地理信息的遥感数据。

2 道路快速提取

2.1 迁移学习系统

本文提出的整个道路提取迁移学习系统采用基于预训练网络的迁移学习方法，如图 2所示。首先，复用在源领域中训练好的部分网络，包括其结构和连接权重，迁移到目标网络的对应部分，然后目标网络根据预训练权重指导接着训练，是一个从泛化特征面向任务具体化的过程(Tan等，2018)。此方法将本文训练学习过程分为两个阶段：1)抽取通用特征参数。利用ImageNet训练源领域网络结构ResNet，保存此阶段最优模型；2)提取道路特征。使用上述预训练保存的权重参数指导目标网络LinkNet继续训练，将快视数据作为输入，仅针对目标任务定向微调。

图 2 基于预训练网络的迁移学习系统

Fig. 2 System of pre-trained network-based transfer learning

2.1.1 源领域

抽取通用特征参数的训练在源领域中进行。道路具有长连通性、场景复杂等特点，如果网络底层参数不够丰富、归纳学习能力不强，那么提取结果很容易出现断头不连通、忽略间隙将两条路混为一条等现象。本文使用的ImageNet数据集属于百万级大型数据库，在此基础上得到的预训练模型权重初始化目标网络，可以组合出更丰富的底层特征，使后期网络归纳学习能力更强。

迁移学习常用的预训练网络有VGG和ResNet。VGG常用的有11层和16层两种模型，适用于浅层网络学习。ResNet采用跨越式残差学习，在网络加深时，梯度稳定下降，仍具有很好的学习能力，常用于网络深度的扩展，是本文选择ResNet作为源网络的主要原因。ResNet残差学习的原理如下：对于给定由$N$幅图像组成的训练集${\mathit{\boldsymbol{D}}}=${$x_{i}$}$_{N}$，其中，$i$用于对训练实例进行索引，${\mathit{\boldsymbol{x}}}$为原始训练集。神经网络通过对样本数据集的不断学习得到映射函数$h({\mathit{\boldsymbol{x}}})$，使其给出${\mathit{\boldsymbol{x}}}$属于某个类的置信度或分数，从而进行下一步模型推理。一般神经网络如VGG等是对卷积网络堆叠层不断学习之后拟合出映射函数$h({\mathit{\boldsymbol{x}}})$。ResNet则跳过中间堆叠层，直接学习残差函数$f({\mathit{\boldsymbol{x}}})=h({\mathit{\boldsymbol{x}}})－{\mathit{\boldsymbol{x}}}$, 而且$f({\mathit{\boldsymbol{x}}})$相比$h({\mathit{\boldsymbol{x}}})$更容易优化(He等，2016b)，使得网络加深时仍具有很好的学习能力。本文使用ResNet的18、34、50、101层分别探究源网络的整个道路提取效果。对稍浅的18和34层残差网络只使用3×3卷积，对50和101层或更深的网络则使用1×1和3×3卷积，其中1×1卷积用于减少网络参数，两种模式如图 3所示。

图 3 ResNet两种不同的残差模块

Fig. 3 Different residual block of ResNet ((a) 34-layer residual block; (b) 50-layer residual block)

2.1.2 目标领域

在源领域中，残差神经网络ResNet可以在网络加深时仍具有很好的学习能力，但同时参数量会随之增加，使模型负担加重，训练速度变慢。本节的目标领域是面向目标任务道路快速提取的过程，更加注重模型速度问题。

本文选择LinkNet作为基础网络框架，如图 4所示。迁移时去掉预训练ResNet最后的全连接层，其余卷积层直接作为LinkNet的编码器。此部分结构随ResNet预训练网络层变化，可以迁移ResNet预训练结构至LinkNet编码器(图 4虚线红框部分)。LinkNet原始4个解码模块保持不变，用于特征图上采样。这样LinkNet编码部分相当于已经得到预训练权重，后续训练只需对快视数据进行定向微调，便可得到道路提取结果。

图 4 LinkNet迁移模型图

Fig. 4 Transfer model map of LinkNet

在图 4构建的LinkNet迁移结构中，为了实现道路的快速提取，使模型轻量化的核心操作有以下两点：1)迁移ResNet部分结构，直接作为LinkNet的编码器。在原始LinkNet的基础上并没有增加新的参数，但迁移的编码结构包括预训练权重，这部分参数不必重复学习。相比于直接从原始快视数据中学习权重参数，迁移结构省去了网络训练开始时对通用参数特征的学习。在整个LinkNet迁移结构中，将前馈网络的权重参数直接用于上采样，无需重复学习编码器中预训练权重参数，减少了网络参数规模，使得训练加快的同时精度也得到提升。2)LinkNet的跨越连接操作是减少参数使整个迁移模型轻量化的关键。图 4左侧的编码器中，最大池化或卷积操作会降低图像的高频成分，产生钝化模糊块，一般的做法是使用最大池化索引或全卷积恢复丢失的空间信息，但都会带来参数量、计算量的增加，而高分辨率特征并没有得到充分恢复。LinkNet的跨越连接操作将编码器的对应结构中未经池化的部分直接裁剪复制到解码器。相较于从池化部分中获取高分辨率原始信息，上采样部分能恢复更多的空间信息，使参数大幅度减少。

本文采用基于预训练网络的迁移学习，本质是共享预训练权重参数，因为源网络学到的“知识”是用大量神经元相互连接的权重表示。如果将不同数据集训练的前几层权重参数结果可视化，那么会得到相同的特征，这些特征不是面向具体任务，而是组成高级特征必需的边、角等基础几何形状(Yosinski等，2014)。遥感影像与ImageNet中自然影像道路拍摄方式不同导致数据分布不同，但具有通用特征，如边缘、纹理等。采用预训练网络迁移学习，使得目标网络具有更丰富的底层特征、更强的鲁棒性和泛化能力。图 5为在ImageNet上使用与不使用预训练的模型初始化的对比结果，数据来自Massachusetts roads数据集(Mnih，2013)。可以看到，预训练权重指导的网络在图 5(a)的步骤3已经完全排除背景信息，确定道路特征，提取速度非常快。而随机初始化的模型如图 5(b)的步骤7，仍有大量噪声存在，归纳道路特征的能力不强，学习速度缓慢。

图 5 使用和不使用预训练模型在Massachusetts roads数据集上的提取结果

Fig. 5 Results with pre-trained and without pre-trained model on Massachusetts roads data set ((a) pre-trained; (b) without pre-trained)

2.2 模型训练

为了获得目标迁移网络的最优模型，对本文构建的LinkNet迁移模型进行训练。以ResNet34预训练结构为例，输入图像大小为256 × 256 × 3，输出图像大小为256 × 256 × 1，过程如表 1所示。迁移预训练前33层至LinkNet编码器，原始LinkNet的4个解码单元保持不变，卷积Conv($in\_chnl$, $out\_chnl$, $ k$, $ s$, $p$)操作，$k$表示卷积核尺寸，$chnl$表示卷积核的通道数量，$s$为步长，$p$表示池化操作，$in$和$out$分别对应输入和输出。

表 1 道路特征提取过程
Table 1 The process of road extraction

下载CSV

模块	操作	数量
	输入尺寸(256×256×3)
	卷积层(3, 64, k=7, s=2, p=3)
残差初始模块	输出层(128×128×64=2, p=3)	1
	最大池化层 (64, 64, k=3, s=2, p=1)
	输出层64×64×64
预训练模块1	2@卷积层 (64, 64, k=3, s=1, p=1)	3
	输出层64×64×64
预训练模块2	2@卷积层 (64, 64, k=3, s=2, p=1)	4
	输出层32×32×128
预训练模块3	2@卷积层 (64, 64, k=3, s=2, p=1)	6
	输出层16×16×256
预训练模块4	2@卷积层 (64, 64, k=3, s=2, p=1)	3
	输出层8×8×512
	卷积层 (in_chnl, in_chnl/4, k = 1, s = 1, p=0)
解码模块1	转置卷积 (k=3, s=2, in_p=1, out_p=1)	4
	卷积层 (in_chnl/4, out_chnl, k=1, s=1, p=0)
	输出层128×128×64
解码模块2	转置卷积(64, 32, k=3, s=2)	1
	输出层257×257×32
解码模块3	卷积层(32, 32, k=3, s=1, p=0)	1
	输出层255×255×32
解码模块4	卷积层(32, 1, k=2, s=1, p=1)	1
	输出尺寸(256×256×1)
注：$n$@表示连续$n$次卷积。

训练目的是为了评估网络模型${\mathit{\boldsymbol{Y}}}({\mathit{\boldsymbol{W}}}, {\mathit{\boldsymbol{X}}}_{i})$，使得标签${\mathit{\boldsymbol{X}}}_{i}$和预测值${\mathit{\boldsymbol{Y}}}$之间误差最小, ${\mathit{\boldsymbol{W}}}$是通过误差反向传播不断学习的拟合参数。实验只有道路特征和非道路特征两种情况，本方案使用带有Dice相似性系数的二分类交叉熵(binary cross entropy，BCE)作为损失函数。Dice系数作为训练时的精度评估因子是为了评估预测结果${\mathit{\boldsymbol{Y}}}$和标签${\mathit{\boldsymbol{X}}}_{i}$的相似性，表示为${\mathit{\boldsymbol{C}}}({\mathit{\boldsymbol{X}}}_{i}, {\mathit{\boldsymbol{Y}}}_{i})$。整个损失函数计算过程为

$ \mathit{\boldsymbol{C}}\left({{\mathit{\boldsymbol{X}}_i}, {\mathit{\boldsymbol{Y}}_i}} \right) = \frac{{\sum\limits_i^N 2 \left| {{\mathit{\boldsymbol{Y}}_i} \cap {\mathit{\boldsymbol{X}}_i}} \right|}}{{\sum\limits_i^N {\left| {{\mathit{\boldsymbol{Y}}_i} + {\mathit{\boldsymbol{X}}_i}} \right|} }} $

(1)

$ \mathit{\boldsymbol{H}}(y) = \sum\limits_i^N {{y^{(i)}}} \log \;{\hat y^{(i)}} + \left({1 - {y^{(i)}}} \right)\log \left({1 - {{\hat y}^{(i)}}} \right) $

(2)

式中，$i$为$N$组特征图索引，$y$为二分类交叉熵${\mathit{\boldsymbol{H}}}(y)$的训练样本的概率分布。其中，$y_{i}$是激活函数输出的预测值，范围为[0，1]，$是值为1的概率，由式(1)和式(2)可得训练损失函数为

$ \mathit{\boldsymbol{L}}\left({{\mathit{\boldsymbol{X}}_i}, {\mathit{\boldsymbol{Y}}_i}} \right) = \mathit{\boldsymbol{H}}(y) + 1 - \mathit{\boldsymbol{C}}\left({{\mathit{\boldsymbol{X}}_i}, {\mathit{\boldsymbol{Y}}_i}} \right) $

(3)

3 实验结果与分析

本文快视数据处理在Windows系统的VS2013 C++环境下编译完成。道路提取实验在Linux系统的Pytorch框架下完成。Tensorflow用于数据处理及可视化结果，TensorBoardX监控训练。服务器硬件配置为Intel Xeon(R) CPU E5-2620 0 @ 2.00 GHz，使用GeForce GTX和TITAN XP两块GPU进行训练, 采用Python 3.6.6编程。主要设计以下4个对比实验：1)网络层不同时ResNet作为源网络的模型性能对比；2)目标网络LinkNet与其他两种在迁移学习中深度网络U-Net和D-LinkNet进行性能对比；3)采用迁移学习方法与未采用迁移学习Dice精度的提升情况；4)本文方法与TernausNet11等常用迁移模型的对比实验。

3.1 实验数据

实验选取2019年三亚卫星地面站接收的7景高分2号快视数据，大小为7 304 × 6 980像素，该尺寸为遥感产品数据常用规格。使用R、G、B 3波段多光谱数据，分辨率为4 m。从色彩抖动(亮度、对比度、饱和度)、翻转(水平、上下、随机旋转90°)、随机剪裁等方面对数据扩增，最终得到大小为256×256像素的10 230幅图像，使用Arcgis制作道路样本标签，该数据集称为QV(quick view)roads data。

道路分布特点如表 2所示。按道路的宽度、形状分布、场景组成等将道路分为简易道路、乡镇道路、县级及以上公路。其中简易道路多分布在山区以及农田地区，呈稀疏的细窄线状，样本相对较少，实验中对此种类型道路进行过采样，即在制作样本标签时，道路宽度设置比实际测量值增加1~4个像素。实际宽度大于6 m的县级以上公路多分布在城市或人居住地区，宽且密集，但行道树、房屋以及车辆等噪声增多，容易出现断头、缺块现象。乡镇道路相对于以上两种道路噪声少，分布均匀。

表 2 快视数据道路特点分析
Table 2 The characteristics of QV roads data

下载CSV

类型	示例	特征
县级及以上公路		沥青铺设、宽度大于6 m、面状分布、连接城市区域
乡镇道路		水泥铺设、弯曲程度小、细长条状、连接村镇
简易道路		没有经过硬化、宽度较窄、呈线状分布、在农田或者野外

3.2 评价函数

道路特征提取，只有道路特征与背景特征两种情况，属于二分类问题。精准度(precision)和召回率(recall)是二分类任务中最常用的评价指标，在图像分割领域称为正确率和完整度。在本文中，精准度是指预测结果及对应标签都为路的情况，召回率指预测结果的对应标签为路的情况。使用精准度和召回率PR曲线(precision-recall-curve)的盈亏平衡点(break-even point)作为评价道路提取精度的评判标准，即精准度$P(y, x)$等于召回率$R(y, x)$的平衡点，其中$y$，$x$分别对应预测值，原始标签值。计算方法为

$ P(y, x) = \frac{{TN}}{{TN + FN}} $

(4)

$ R(y, x) = \frac{{TN}}{N} $

(5)

式中，$N$为正样本个数，即标签为道路的样本；$TN$为预测结果中正样本识别为路的像素个数；$FN$为预测结果中负样本被识别为路的像素个数。

3.3 迁移模型LinkNet结果分析

3.3.1 源网络层数对迁移模型的影响

在选取ResNet预训练模型时，考虑到不同的预训练模型直接决定迁移模型的编码结构，进而影响道路提取的精度和速度。设计了ResNet的18、34、50、101层4种预训练模型的对比实验。图 6和表 3对应评价4种迁移模型的提取精度和速度。实验测试数据为QV roads data，单位为帧/ms。PR曲线的平衡点评价道路的精度，也即越靠近右上角精度越高。

图 6 不同ResNet卷积层作为源网络的精准度和召回率曲线

Fig. 6 Precision and recall curves of ResNet different convolutional layer as source network

表 3 不同ResNet预训练模型的提取时间
Table 3 Time spent of extraction by different ResNet pre-trained models

下载CSV

/ms
模型	测试时间
LinkNet18	26
LinkNet34	40
LinkNet50	71
LinkNet101	95
注：加粗字体为最优结果。

从图 6和表 3可以看出，使用ResNet101(深蓝色曲线)作为编码器时精准度在90 %以上，但用时最多，为95 ms，意味着网络层数加深时，会增加测试时间。ResNet50(绿色曲线)和ResNet34 (红色曲线)的精度接近，分别为88.8 %和88.3 %，但LinkNet34网络的优势是卷积层数少，整个模型更加轻量化，测试时间只有ResNet50的56.3 %，具有提取速度快、精度高的特性。使用ResNet18(浅蓝色曲线)作为编码器时，编码层仅18层，网络参数少，与其他结构相比提取速度快，但提取精度相对较差，精准度低于其他网络。

3.3.2 目标网络性能分析实验

首先设计了LinkNet与U-Net、D-LinkNet两种目标网络性能的对比实验，探究LinkNet提取道路特征的基础能力。通过模型的测试时间、参数数量(单位为百万位(million))、训练时GPU显存占有量以及Dice相似性系数等4项指标对比各个网络基础提取性能。测试特征图尺寸为256 × 256像素，GPU显存为两块显卡用量总和。结果如表 4所示。

表 4 常用目标网络性能
Table 4 Performances of popular target networks

下载CSV

模型	测试时间/ms	参数量 /百万	GPU显存 /MiB	Dice精度
U-Net	78	28.9	3 094	0.709
D-LinkNet	126	119	2 876	0.727
LinkNet	51	11.5	2 020	0.717
注：加粗字体为每列最优值

从表 4可以看出，LinkNet网络参数只有U-Net的40 %，训练时LinkNet的GPU显存占有率是U-Net的65 %。D-LinkNet的Dice精度为0.727，在3种模型中最高，但参数量是LinkNet的10.4倍，网络结构复杂，冗余较高。对比3种目标网络，LinkNet做到了网络性能与参数量的平衡。

3.3.3 迁移与不迁移预训练模型Dice精度变化

为验证LinkNet迁移与不迁移预训练模型的提升效果，设计了在权重初始条件不同情况下，Dice相似性系数随训练次数在QV验证集上的变化情况，实验结果如图 7所示。可以看出，没有添加预训练模型的Dice系数初始增加很缓慢，训练平稳后期Dice系数与使用预训练模型相差接近6.0 %，导致最终模型的预测归纳能力低于使用了预训练模型的结构。

图 7 Dice相似性系数在不同初始条件下的变化情况

Fig. 7 Dice coefficient changes under different inital conditions

3.3.4 与流行的迁移模型对比实验

为了验证本文构建的迁移模型LinkNet的有效性，将LinkNet34与其他几种使用预训练模型作为编码器的迁移模型进行提取效果的对比实验，各模型的组成结构如表 5所示。其中TernausNet11是U-Net对VGG11的微调结构，用VGG作为特征提取器。AlbuNet、D-LinkNet34和LinkNet34都使用预训练ResNet34作为特征提取器。源网络的权重参数均在ImageNet上训练得到。目标训练精度使用本文快视数据的测试集评定，特征图大小为256×256像素。

表 5 不同迁移网络结构组成
Table 5 Composition of different transfer networks

下载CSV

迁移模型	源网络	目标网络
TernausNet11	VGG11	U-Net
AlbuNet	ResNet34	U-Net
D-LinkNet34	ResNet34	D-LinkNet
LinkNet34	ResNet34	LinkNet

各迁移模型的实验评价指标如表 6所示，LinkNet 34测试时间最快，仅40 ms, 提取精度也相对较高。

表 6 不同迁移网络的实验结果
Table 6 Experimental results of different transfer networks

下载CSV

迁移模型	模型大小/MB	测试时间/ms	精准度/%
TernausNet11	262	46	84.9
AlbuNet	437	118	86.3
D-LinkNet34	356	99	90.4
LinkNet34	248	40	88.3
注：加粗字体为每列最优结果。

实验结果示例如图 8所示，为4幅代表快视数据道路特点的图像。可以看出，TernausNet11和AlbuNet的提取结果中有少量噪声，出现了断头现象，尤其是二者对应的第2行，道路分布在城镇居民区域，存在边缘模糊、绿化带定位不清晰现象。TernausNet11使用VGG11预训练模型初始化，意味着编码结构只有11层，相对LinkNet34等(编码结构有34层卷积层)网络层较少，特征参数也相对较少，模型训练快。D-LinkNet34能做到边角精确、轮廓清晰，在整幅道路完整提取的情况下连通性很好，与标签图很接近，但模型参数量相对较大，测试速度慢，大小为256×256像素的图像测试时间是LinkNet34的2.5倍。LinkNet34对道路上的绿化带遮挡的细节能够精准提取，对应的第2、3行显示对两条路中间宽度很小的绿化带亦能提取出来，而很多其他方法将其与两条路合并混为一条路。道路表面存在车辆等遮挡物时，提取结果也很完整，没有缺块现象，但对居民区复杂道路网等楼房遮挡严重的道路有断头现象。第4行农田周围等细窄的道路，以及有弧度的道路提取边缘清晰、完整，没有点状或短线状噪声，测试精度可达88.3 %。

图 8 不同迁移模型在QV roads data上的实验结果

Fig. 8 Experimental results of different transfer models on QV roads data((a) quick view data; (b) ground truth; (c) TernausNet11; (d) AlbuNet; (e) D-LinkNet34; (f) LinkNet34)

3.3.5 模型泛化能力测试

从取自高分2号的快视数据天津滨海新区辖区道路中截取大小为7 304 × 6 980像素的图像进行泛化测试，在54 s内提取完成，应用于整轨道路提取时，测试时间按景数倍增，提取结果与原图的叠加效果如图 9所示。

图 9 天津滨海新区测试结果

Fig. 9 Test results of Tianjin Binhai New Area

从图 9可以看出，本文方法道路特征提取完整，定位精细，尤其适用于乡村线状道路，以及乡镇以上面状道路的提取；由于道路表面存在的绿化带以及房屋遮蔽噪声等影响，对城市居民区复杂道路网提取效果相对较差。从整体来看，本文针对整轨快视数据提取道路的模型趋于轻量化，测试速度较快，且无需重复训练即可方便地嵌入其他需要道路提取的应用系统。迁移学习使得模型泛化能力增强，使用新数据提取道路时仍能得到很好效果，能够在快速提取道路的同时获得较高精度。

4 结论

针对道路提取存在的传统方法需要先验知识进行大量人工选择和设计、深度学习方法训练过程十分耗时等问题，本文利用高分辨率卫星快视数据实时传输、快速获取的特性，提出了一种迁移预训练网络的道路快速提取方法。核心主要有两点：1)采用基于预训练模型的迁移学习方法，避免了权重随机初始化存在的实验数据集相对较小，使得网络训练开始时浅层参数不易学习、收敛速度过慢等现象，解决了道路的边、角等基础特征不够丰富，在网络后期很难抽象出理想的高层特征等问题; 2)构建的道路提取深度网络LinkNet34在整个迁移结构中，前馈网络的权重参数直接用于上采样，无需重复学习编码器中预训练权重参数，使得模型趋于轻量化，训练加快的同时精度也得到提升。

实验结果表明，本文方法可以在快速提取道路的同时获得较高的精准度，充分发挥了快视数据的优势，能够满足对道路提取速度、精度要求较高的应用。本文方法迁移的是在ImageNet数据集上预训练的模型，而ImageNet数据集中包含的是自然影像，与遥感影像仍然存在一定的语义鸿沟，下一步将考虑在遥感数据集上预训练模型再进行迁移训练。

参考文献

Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet:a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]

Chaurasia A and Culurciello E. 2017. LinkNet: exploiting encoder representations for efficient semantic segmentation//Proceedings of 2017 IEEE Visual Communications and Image Processing. St. Petersburg, FL, USA: IEEE: 1-4[DOI: 10.1109/VCIP.2017.8305148]

Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2009.5206848]

Gan J Y, Qi L, Qin C B, He G H. 2019. Lightweight fingerprint classification model combined with transfer learning. Journal of Image and Graphics, 24(7): 1086-1095 (甘俊英, 戚玲, 秦传波, 何国辉. 2019. 结合迁移学习的轻量级指纹分类模型. 中国图象图形学报, 24(7): 1086-1095) [DOI:10.11834/jig.180499]

Gu J X, Yang R Z, Shi L, Wei H W. 2014. HJ-1C real-time image processing technology based on GPU. Journal of University of Chinese Academy of Sciences, 31(5): 708-713 (顾久祥, 杨仁忠, 石璐, 韦宏卫. 2014. 基于GPU的HJ-1C实时成像处理技术. 中国科学院大学学报, 31(5): 708-713) [DOI:10.7523/j.issn.2095-6134.2014.05.018]

He K M, Zhang X Y, Ren S Q and Sun J. 2016a. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

He K M, Zhang X Y, Ren S Q and Sun J. 2016b. Identity mappings in deep residual networks//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 630-645[DOI: 10.1007/978-3-319-46493-0_38]

Iglovikov V and Shvets A. 2018. TernausNet: u-net with VGG11 encoder pre-trained on imagenet for image segmentation[EB/OL]. 2018-01-17[2019-07-09]. https://arxiv.org/pdf/1801.05746.pdf

Mnih V. 2013. Machine learning for aerial image labeling[EB/OL]. 2013-08-09[2019-07-09]. https://www.cs.utoronto.ca/~vmnih/docs/Mnih_Volodymyr_PhD_Thesis.pdf

Paszke A, Chaurasia A, Kim S and Culurciello E. 2016. ENet: a deep neural network architecture for real-time semantic segmentation[EB/OL]. 2016-06-07[2019-07-09]. https://arxiv.org/pdf/1606.02147.pdf

Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]

Shelhamer E, Long J, Darrell T. 2017. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]

Shi W Z, Zhu C Q, Wang Y. 2001. Road feature extraction from remotely sensed image:review and prospects. Acta Geodaetica et Cartographica Sinica, 30(3): 257-262 (史文中, 朱长青, 王昱. 2001. 从遥感影像提取道路特征的方法综述与展望. 测绘学报, 30(3): 257-262) [DOI:10.3321/j.issn:1001-1595.2001.03.014]

Shvets A A, Rakhlin A, Kalinin A A and Iglovikov V I. 2018. Automatic instrument segmentation in robot-assisted surgery using deep learning//Proceedings of the 17th IEEE International Conference on Machine Learning and Applications. Orlando, FL, USA: IEEE: 624-628[DOI: 10.1109/ICMLA.2018.00100]

Su T. 2014. Research on the Registration and Mosaic Technology of TDICCD Stitching Images Based on Reflectors. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Science (苏婷. 2014.基于反射镜拼接的TDICCD图像配准与拼接技术研究.长春: 中国科学院研究生院(长春光学精密机械与物理研究所))

Tan C Q, Sun F C, Kong T, Zhang W C, Yang C and Liu C F. 2018. A survey on deep transfer learning//Proceedings of the 27th International Conference on Artificial Neural Networks. Rhodes, Greece: Springer: 270-279[DOI: 10.1007/978-3-030-01424-7_27]

Yosinski J, Clune J, Bengio Y and Lipson H. 2014. How transferable are features in deep neural networks?[EB/OL]. 2014-09-06[2019-07-09]. https://arxiv.org/pdf/1411.1792.pdf

Zhang Z X, Liu Q J, Wang Y H. 2018. Road extraction by deep residual u-net. IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753 [DOI:10.1109/LGRS.2018.2802944]

Zhou L C, Zhang C and Wu M. 2018. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, UT: IEEE: 192-196[10.1109/CVPRW.2018.00034]