Print

发布时间: 2019-04-24
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180467
2019 | Volume 24 | Number 4




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合KSW和FCNN的道路场景分割
expand article info 王云艳, 罗冷坤, 周志刚
1. 湖北工业大学电气与电子工程学院, 武汉 430068;
2. 太阳能高效利用及储能运行控制湖北省重点实验室, 武汉 430068

摘要

目的 随着自动驾驶技术不断引入生活,机器视觉中道路场景分割算法的研究已至关重要。传统方法中大多数研究者使用机器学习方法对阈值分割,而近年来深度学习的引入,使得卷积神经网络被广泛应用于该领域。方法 针对传统阈值分割方法难以有效提取多场景下道路图像阈值的问题和直接用深度神经网络来训练数据导致过分割严重的问题,本文提出了结合KSW(key seat wiper)和全卷积神经网络(FCNN)的道路场景分割方法,该方法结合了KSW熵法及遗传算法,利用深度学习在不同场景下的特征提取,并将其运用到无人驾驶技术的道路分割中。首先对道路场景测试集利用KSW熵法及遗传算法得到训练集,然后导入到全卷积神经网络中进行训练得到有效训练模型,最后通过训练模型实现对任意一幅道路场景图分割。结果 实验结果表明,在KITTI数据集中进行测试,天空和树木的分割精度分别达到91.3%和94.3%,道路、车辆、行人的分割精度提高了2%左右。从分割结果中明显看出,道路图像中的积水、泥潭、树木等信息存在的过分割现象有良好的改观。结论 相比传统机器学习道路场景分割方法,本文方法在一定程度上提高了分割精度。对比深度学习直接应用于道路场景分割的方法,本文方法在一定程度上避免了过分割现象,提高了模型的鲁棒性。综上所述,本文提出的结合KSW和FCNN的道路场景分割算法有广泛的研究前景,有望应用于医学图像和遥感图像的处理中。

关键词

图像分割; 道路分割; 全卷积神经网络; 深度学习; 遗传算法

Road scene segmentation based on KSW and FCNN
expand article info Wang Yunyan, Luo Lengkun, Zhou Zhigang
1. School of Electrical and Electronic Engineering, Hubei University of Technology, Wuhan 430068, China;
2. Key Laboratory of Solar Energy Efficient Utilization and Energy Storage Operation Control in Hubei Province, Wuhan 430068, China
Supported by: National Natural Science Foundation of China (41601394)

Abstract

Objective The advent of driverless cars has become a hot topic in today's society. Driverless aims to achieve a high degree of autonomous driving behavior through environmental awareness, such as in starting, braking, lane line tracking, lane changing, collision avoidance, and parking. Image segmentation of road scenes plays an important role in this technology. Studying the manner in which complex scenes and high-efficiency scene segmentation images in the environment of severe noise interference are achieved is essential. Traditional road segmentation generally uses a binocular stereo vision map and a motion indicator-based approach. For example, some researchers proposed a pedestrian detection based on binocular stereo vision and SVM(support vector machine) algorithm and used threshold segmentation to determine the coordinate position of a moving target. For the diversity of motion indicators, other researchers used the projection surface direction and object. Multiple motion indicators, such as altitude and feature tracking density, segment the road. However, these methods have high requirements on computing resources. For the current unmanned practicality requirements, a concise and resource-intensive method is required. Since 2012, deep learning has been gradually introduced into road scene segmentation. A scholar proposed a smart car steering study based on end-to-end depth learning and obtained good road feature coding through pretraining self-encoding. In recent years, AI technology has suddenly caught the interest of scholars. Computer GPU parallel operation, computational acceleration, storage space compression, and other technologies are studied and developed. Large amount of data and calculation are no longer restricted. Convolutional neural network (CNN) has become a research hotspot and has been widely used. Some researchers studied the deep learning algorithm of CNN to learn high-order features in a scene to achieve road scene segmentation. However, to some extent, although the computational strength is reduced, some problems of over-segmentation of complex scenes. Other researchers proposed the feature automatic extraction capability of deep structure using deep CNN for complex scene problems; it is a method of feature self-encoder versus feature similarity metric in source-target scenarios. However, these algorithms do not achieve the desired results for road marking, vehicle, and pedestrian segmentation accuracy. During rainy days, snowy days, and high-temperature weather, road surface often appears to be divided. With the continuous introduction of autonomous driving technology, the study of road scene segmentation algorithms in machine vision has become crucial. Most researchers in the traditional methods use machine learning to segment thresholds. The introduction of deep learning in recent years has caused the wide usage of neural network in this field. Method A road scene combining KSW(key seat wiper) and full CNN (FCNN) is proposed to address the problem of the traditional threshold segmentation method in terms of difficulty in extracting the road image threshold under multiple scenes and the training of data directly by deep neural network causing over-segmentation. The segmentation method, which combines the KSW entropy method and genetic algorithm, uses depth learning to extract features in different scenarios and applies it to the road segmentation of unmanned technology. First, the original test image of the road scene is converted into gray image, and the filtering effect is achieved by KSW genetic algorithm two-dimensional threshold segmentation; thus, the road water, road standard line, trees, and other scenes are clear in the image, and the preprocessing training set is obtained. Import pre-trained datasets into the FCNN framework After tens of thousands of training iterations, it learns and amends the weights, thereby resulting in an effective training model. Finally, the training model can be used to implement any road scene graph segmentation. Result Experimental results show that the segmentation accuracy of the sky and trees reached 91.3% and 94.3% in the KITTI dataset, respectively, and the segmentation progress of roads, vehicles, and pedestrians increased by approximately 2%. In comparison with the previous super parsing and boosting algorithms, the proposed algorithm can distinguish road segmentation lines and increase the segmentation accuracy of trees, vehicles, and pedestrians by approximately 20%. Comparing with the result of SegNet and ResNet depth networks, in the environment of roads and trees. The segmentation accuracy of road segmentation lines is relatively improved by approximately 5%. In comparison with the original image, the KSW two-dimensional threshold and genetic algorithm filter out the excessively bright part of the sun on the road and the overly bright part of the sky to prevent over-segmentation of the segmented image. Conclusion Segmentation result shows that the over-segmentation of water accumulation and mud on the road has been remarkably improved. In comparison with the traditional machine learning road scene segmentation method, the proposed method improves the segmentation accuracy to a certain extent. In comparison with the depth learning method, the proposed method is directly applied to the road scene segmentation. This method avoids the over-segmentation phenomenon to some extent and improves the model robustness. In summary, the proposed road scene segmentation algorithm combined with KSW and FCNN has broad research prospects and is expected to be applied to the processing of medical and remote sensing images.

Key words

image segmentation; road segmentation; full convolution neural network; deep learning; genetic algorithm

0 引言

无人驾驶汽车中的图像分割技术已成为当今社会的一大热点,无人驾驶的定义是通过环境感知实现高度自主驾驶行为:起步、制动、车道线跟踪、换道、避撞、停车等。道路场景图像分割在这项技术中有举足轻重的地位,研究如何实现在复杂场景、噪音干扰严重环境下得到高效场景分割图像对无人驾驶技术的发展具有重要意义。

传统道路分割一般采用基于双目立体视觉图和基于运动指标的方法。陈双玉等人[1]提出基于双目立体视觉和支持向量机(SVM)算法进行行人检测,利用阈值分割确定运动目标所在的坐标位置;针对运动指标多样性,Sturgess等人[2]以投影表面方向、物体高度、特征跟踪密度等多个运动指标对道路进行分割,但是上述方法对计算资源要求较高,针对现阶段的无人驾驶实用性要求,需要更加简捷且资源占用率更低的方法。自2012年起,深度学习被逐渐引入到道路场景分割中,邹斌等人[3]提出了基于端对端深度学习的智能车转向研究,通过预训练自编码来得到良好的道路特征编码;近几年AI技术引起广大学者的关注,计算机GPU并行运行、计算加速、储存空间的压缩等技术的不断研发,数据量过大、计算量大的环境要求已逐渐不再成为限制,卷积神经网络(CNN)重新成为大众的研究热点并得到广泛应用。Alvarez等人[4]基于CNN的深度学习算法来学习场景中的高阶特征以实现道路场景分割,虽然在一定程度上降低了计算强度,但也依然存在部分复杂场景过分割的问题;王海等人[5]针对复杂场景问题提出了利用深度卷积神经网络(DCNN)深度结构的特征自动抽取能力,以特征自编码器对源—目标场景下特征相似度进行度量的方法。曹风云等人[6]考虑到在图像分割过程中有效保持图像边界,提出了融合T节点线索的图像物体分割。但是, 这些算法对于道路标识、车辆、行人的分割精度并未达到理想结果,对于阴雨天、积雪天、高温天气的路面时常出现过分割现象。

针对道路分割算法高效性、准确性、鲁棒性等要求,本文引入Long等人[7]提出全卷积神经网络(FCNN)来解决复杂场景道路图像分割。相比传统的机器学习道路场景分割方法,本文引入了深度学习的方式来提取特征,使得特征表达更加充分。相比其他深度学习网络模型应用于道路场景分割方法,本文前期结合KSW遗传算法对数据进行预处理,避免了深度学习网络中的过分割现象。综上所述,本文创新点凸显在对类分割精度的提高以及对深度学习中的过分割现象的优化。

1 全卷积神经网络(FCNN)概述

全卷积网络是基于卷积神经网络用于图像分类实验提出的,卷积神经网络最经典的模型为AlexNet模型,Krizhevsky等人[8]提出的CNN结构用于图像的分类与回归实验,ImageNet模型最终输出的是长度为1 000的向量,用来表示输出图像中每一类物种的概率,实验结果为Cat类统计概率最高,其网络框架如图 1

图 1 CNN结构框架
Fig. 1 CNN structure frame

全卷积神经网络不再只局限于分类概率的求取,而是一种端对端的思想突破。相比早期的经典CNN中在卷积层后紧接着连接一个全连接层从而得到相对固定的特征向量来实现类别的区分,这种端对端的函数运算可实现输入图像不再是224×224像素的固定尺寸,而是可选取任意尺寸作为输入源,减少了大量数据处理的工作,它是在最后一个卷积层后连接反卷积层来实现上采样,使得输出数据可恢复为输入时的相同尺寸。上采样层是FCNN[9]网络提出的一个至关重要的网络层,它是端对端思想的一个重要体现。

卷积与反卷积(fractionally strided convolution)运算输入输出关系如下

$ o = \frac{{i + 2p - k}}{s} + 1 $ (1)

$ o' = s\left( {i' - 1} \right) + k - 2p $ (2)

式中,$s$为步长,$k$为反卷积核尺寸,$p$为每个维度相同的填充,$i$$o$为卷积运算的输入输出,$i′$$o′$为反卷积运算的输入和输出。

全卷积过程真正意义上实现了图像端对端的处理,它的处理过程精细到每个像素点的预测,而且不会对原始输入图像的空间信息造成破坏或者丢失,最后在上采样的feature map上进行按像素分类,其网络框架如图 2

图 2 FCNN结构框架
Fig. 2 FCNN structure framework

2 KSW-FCNN算法

KSW熵法及遗传算法需要确定初始种群大小后通过编码、选择、交叉、变异一系列生物遗传学原理来筛选出2维最优阈值,依据遗传变异的生物自然生成法则来实现中值滤波作用,获得较优秀的抗噪图像,该算法不仅能准确描述出图像像素以及该像素点在整个图像中的位置信息,并且能实现该像素点的灰度的特征表达。通过像素邻域灰度均值和像素灰度值实现2维矢量直方图的构建,算法最终推算出的2维矢量就是图像分割所需要的阈值,该方法的实施可较显著地减少噪声对图像分割产生的干扰。

KSW熵法及遗传算法中2维信息熵表达为

$ \mathit{\boldsymbol{H}} = - \sum\limits_i {\sum\limits_j {{\mathit{\boldsymbol{p}}_{i,j}}\ln {\mathit{\boldsymbol{p}}_{i,j}}} } $ (3)

式中,$p_{i, j}$为二元组在图像及其邻域中出现的概率。

总的信息熵表达式为

$ \mathit{\boldsymbol{H}}\left( {\mathit{\boldsymbol{s}},\mathit{\boldsymbol{t}}} \right) = \sum\limits_i {{\mathit{\boldsymbol{H}}_i}} $ (4)

式中,$ {\mathit{\boldsymbol{H}}}_{i}$为区域2维信息熵, $ s $为第1维矢量,$ {\mathit{\boldsymbol{t}}} $为第2维矢量。

此时适应度函数表达式选用图像的熵函数

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{H}}\left( \mathit{\boldsymbol{t}} \right) = {\mathit{\boldsymbol{H}}_A} + {\mathit{\boldsymbol{H}}_B} = }\\ {\ln \left( {{\mathit{\boldsymbol{p}}_t}\left( {1 - {\mathit{\boldsymbol{p}}_t}} \right)} \right) + \frac{{{\mathit{\boldsymbol{H}}_t}}}{{{\mathit{\boldsymbol{p}}_t}}} + \frac{{\mathit{\boldsymbol{H}} - {\mathit{\boldsymbol{H}}_t}}}{{1 - {\mathit{\boldsymbol{p}}_t}}}} \end{array} $ (5)

式中,$ {\mathit{\boldsymbol{p}}}_{t}$表示灰度值为0~1的概率之和,$ {\mathit{\boldsymbol{H}}}_{t}$为区域2维信息熵,$ {\mathit{\boldsymbol{H}}}_{A}$$ {\mathit{\boldsymbol{H}}}_{B}$表示选择前后的2维信息熵。

交叉变异过程为

$ \begin{array}{*{20}{c}} {E\left( {\mathit{\boldsymbol{H}},\mathit{\boldsymbol{t}} + 1} \right) \ge }\\ {N\left( {\mathit{\boldsymbol{H}},\mathit{\boldsymbol{t}}} \right)\frac{{f\left( {\mathit{\boldsymbol{H}},\mathit{\boldsymbol{t}}} \right)}}{{f\left( \mathit{\boldsymbol{t}} \right)}} - {p_c}\frac{{\delta \left( \mathit{\boldsymbol{H}} \right)}}{{l - 1}} - {p_{\rm{m}}}o\left( \mathit{\boldsymbol{H}} \right)} \end{array} $ (6)

式中,$p_\rm{c}$为交叉概率$,p_\rm{m}$为变异概率,$E$表示交叉变异后的信息熵,$N( {\mathit{\boldsymbol{H , t}}} )$为原始交叉熵,$o( {\mathit{\boldsymbol{H }}} )$为变异部分的交叉熵,$f( {\mathit{\boldsymbol{H , t}}} )$为原始数据源中的变异部分,$f( {\mathit{\boldsymbol{t }}} )$为原始整体数据,$l$为交叉因子。

FCNN算法通过卷积、池化、反卷积一系列深度学习过程对原始图像进行反复特征学习,提取出训练集中原始图像的细微特征作为分割依据,通过反复权值修改得到较优秀的分割模型。FCNN算法在制作训练集过程中引入KSW 2维阈值及遗传算法来降低初始样本中噪音、天气、人流等因素干扰,全卷积网络的引入使得输入图像可接受任意尺寸的数据源,具体算法如图 3所示。

FCNN算法中卷积过程为

$ \begin{array}{*{20}{c}} {B\left( {i,j} \right) = }\\ {\sum\limits_{m = 1} {\sum\limits_{n = 1} {\mathit{\boldsymbol{K}}\left( {m,n} \right) * \mathit{\boldsymbol{A}}\left( {i - m + 1,j - n + 1} \right)} } } \end{array} $ (7)

式中,$ {\mathit{\boldsymbol{K }}} $($m, n$)为卷积核,$ {\mathit{\boldsymbol{A }}} $为原始数据,*表示矩阵求和。

池化过程为

$ {\mathit{\boldsymbol{h}}_{m,j}} = \mathop {\max }\limits_{i \in {\mathit{\boldsymbol{N}}_m}} {\mathit{\boldsymbol{a}}_{i,j}},\;\;\;\;j = 1, \cdots ,k $ (8)

式中,$ {\mathit{\boldsymbol{H}}}_{m, j}$表示取最大池化后向量,$ {\mathit{\boldsymbol{a }}} _{i, j}$表示卷积后向量, $ {\mathit{\boldsymbol{N}}}_{m}$表示小于$m$的整数集合。

反卷积过程为

$ {{\mathit{\boldsymbol{\hat y}}}_1} = \sum\limits_{k = 1}^{{K_1}} {{\mathit{\boldsymbol{z}}_{k,1}}} \times \mathit{\boldsymbol{f}}_{k,1}^c $ (9)

式中,$ {\mathit{\boldsymbol{z }}}$为反卷积核,$ {\mathit{\boldsymbol{\hat y}}}_{1}$表示反卷积后向量,$ {\mathit{\boldsymbol{f }}} $表示池化后的向量, $c$表示移动步长。

本算法结合传统的2维阈值分割、遗传算法来实现样本数据的处理,初始样本为从KITTI数据集中挑选出的1 000幅不同场景、不同气候、不同地理环境下的道路图像,通过KSW 2维阈值分割及遗传算法对初始样本集进行分割得到训练数据。训练集和测试集构成FCNN网络的初始数据集,对训练集和测试集制作相应标签,然后设置初始学习率、激活函数、权重的参数来构建FCNN训练网络框架,通过反复更新学习得到理想分割模型。最后,利用理想分割模型对测试道路场景进行有效分割。

图 3 道路场景分割算法框架
Fig. 3 Road scene segmentation algorithm framework

3 实验分析

3.1 实验准备

为了快速搭建FCNN网络,本文采用目前较为流行的深度学习框架Caffe, 在实验中,为了提高实验网络的训练速度,采用单个GPU的计算模式,硬件上采用NVIDIA 1080卡,利用GUP加速模式运行。

实验数据选用由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的KITTI数据集,本实验从KITTI数据集中随机抽取乡村、市区和高速公路等类别的复杂场景图像各50幅组成原始训练集,选取数据集中每幅图像的内容最多包含10辆车和25个行人,并且包含各种不同程度的遮挡与截断效果。

3.2 实验参数设置

KSW熵法及遗传算法采用16位二进制来表示阈值矢量,前8位二进制码代表阈值$ s $,后8位二进制码代表阈值$ {\mathit{\boldsymbol{t }}} , $适应度函数表达式为

$ {\left( {{\mathit{\boldsymbol{s}}^ * },{\mathit{\boldsymbol{t}}^ * }} \right)^{\rm{T}}} = \arg \mathop {\max }\limits_{1 < \mathit{\boldsymbol{s}} < - 1} \mathop {\max }\limits_{1 < \mathit{\boldsymbol{t}} < L - 1} \left( {\mathit{\boldsymbol{H}}\left( {\mathit{\boldsymbol{s}},\mathit{\boldsymbol{t}}} \right)} \right) $ (10)

式中,$ {\mathit{\boldsymbol{s ^{*}、t^{*}}}} $分别表示满足适应度函数后的2维阈值,$ {\mathit{\boldsymbol{H }}} ({\mathit{\boldsymbol{s, t }}} )$表示初始2维阈值构成的向量。

改进遗传算法中初始种群数参数设置(population)为30,先将样本中适应度较大的成员按照比例(本文算法采用10 %)通过直接遗传的方式传到下一代实验样本,然后再根据轮赌法筛选剩余成员。这种方法不仅能确保选出最优个体,更重要的是反映了适应度高的个体繁殖后代概率大的物尽天择思想。由于前期我们期望快速获得新样本集,所以选取相对较大的交叉概率,后期由于个体慢慢趋于稳定,适度地减少交叉概率来满足我们的实验要求。具体交叉算子的设置为

$ {P_{\rm{c}}} = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 0.85\\ 0.65 \end{array}&\begin{array}{l} 0 < k \le 60\\ 60 < k \le 100 \end{array} \end{array}} \right. $ (11)

式中,$k$表示算法的搜索代数,$P_{c}$表示交叉算子。将进化过程分为前期、中期和后期3个阶段,每个阶段选用差异性的变异概率。前期变异概率相对较小,这样可在比较大的变异范围维持多样性并且不破坏好的模式;为了増加算法局部搜索的能力,中期大的概率在较小的范围内变异;后期采用中等的概率值来满足中等范围内变异。具体变异算子的设置为

$ {P_{\rm{m}}} = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 0.03\\ 0.05\\ 0.04 \end{array}&\begin{array}{l} 0 < k \le 30\\ 30 < k \le 85\\ 85 < k \le 100 \end{array} \end{array}} \right. $ (12)

式中,$k$表示算法的搜索代数,$P_\rm{m}$表示变异算子。FCNN的迭代优化算法中参数设置如表 1所示。卷积层中采用Relu函数做激活函数,此函数将线性变换的输出生成非线性变换

表 1 实验参数
Table 1 Test parameter settings

下载CSV
参数名 参数值
test_iter 736
display 20
average_loss 20
base_lr 1.00E-12
momentum 0.99
max_iter 100 000
weight_decay 0.000 5
snapshot 4 000

$ g\left( z \right) = \max \left\{ {0,z} \right\} $ (13)

池化层采用最大池化(max-pooling)的方法,即对邻域内特征点取最大特征提取。这种池化方式的误差主要来源于:1)邻域大小受限造成的估计值方差增大;2)卷积层参数误差造成估计均值的偏移。一般来说,平均池化(mean-pooling)能减小第1种误差,更多地保留图像的背景信息,max-pooling能减小第2种误差,更多地保留纹理信息,所以FCNN网络中选用max-pooling。

3.3 实验结果

本文利用KSW-FCNN算法模型分别对4个不同场景进行分割实验,分割结果如图 4图 5所示,平均精度对比如表 2所示。在图 4中,分别随机抽取4种道路场景图像进行KSW降噪处理,然后导入VOC2012训练的深度学习模型中进行测试,可分割出手动标注图像中的部分场景。图 5抽取图 4中场景用KSW-FCNN方法分割结果与手动标注结果进行对比, 证明实验的有效性。

表 2 类分割精度对比表
Table 2 Comparison of class segmentation accuracy

下载CSV
/ %
Suoer Parsing[10] Boosting[11] SegNet[12] ResNet[13] KSW-FCNN
天空 96.90 91.10 92.70 94.30 91.30
道路 95.90 92.90 89.70 93.40 94.30
树/草 67.10 67.30 86.30 87.30 85.20
车辆 62.70 71.10 79.60 84.40 85.60
行人 14.70 49.50 83.70 83 86.50
道路分割线 0 0 53.50 55.70 60.10
注:加粗字体为每类的最优分割结果。
图 4 4种场景分割效果图
Fig. 4 Four scene segmentation renderings((a) input images; (b) KSW noise-reduced images; (c)segmentation effect diagram; (d) true segmentation maps manually marked)
图 5 KSW-FCNN分割结果
Fig. 5 KSW-FCNN segmentation result((a)KSW-FCNN algorithm segmentation result; (b) manual segmentation result; (c) the segmentation effect after KSW-FCNN training 4 000 times)

表 2分别表示传统的机器学习分割方法、流行的深度学习算法与KSW-FCNN算法的类分割精度对比。传统机器学习中Suoer Parsing、Boosting算法虽然对天空、道路分割精度较高,但是无法分割出道路标识线;SegNet和ResNet深度学习网络对道路存在过分割现象,以致达不到理想分割精度,道路标识线仅能达到55 %左右的分割效果。本文算法能有效避免这种过分割现象, 同时提高道路标识线的分割结果。表 3表示本文算法的分割精度混淆矩阵,分别表示每一类的分割精度及被误分割的百分比。

表 3 类分割精度混淆矩阵
Table 3 Class segmentation precision confusion matrix

下载CSV
/%
天空 道路 树/草 车辆 行人 道路分割线
天空 91.30 0.50 5.30 2.10 0.20 0.60
道路 0.20 94.30 3.30 1.00 0.50 0.70
树/草 0.36 13.20 85.20 0.30 0.90 0.04
车辆 0.60 5.50 4.60 85.60 0.50 3.20
行人 0.70 3.50 6.00 3.20 86.50 0.10
道路分割线 0.30 26.00 12.10 0.30 1.20 60.10
注:加粗字体为每类分割正确的概率。

1) 相比原始图像,通过KSW 2维阈值及遗传算法,过滤掉了由于太阳光照过于强烈而被误分割的道路,防止分割图像的过分割现象。

2) 经过VOC2012数据集深度学习后得到的模型可准确分割出道路上的房屋、行人、车辆的轮廓,证明FCNN算法的可实施性,但是并未能识别出道路的具体宽度及树木位置。

3) 修改训练集为KSW 2维阈值及遗传算法过滤后图像得到的模型可准确分割出行人、道路标识线、房屋、树木、天空等目标,准确率得到可观的提高。

3.4 实验分析

对本文提出的方案和对比数据结果进行分析:

1) 对比经过KSW 2维阈值及遗传算法处理后的灰度图像与原图像,通过中值滤波效果排除恶劣环境对道路识别影响,防止了深度学习中的过分割现象。

2) 对比VOC2012训练数据集分割模型对原图分割结果与原图像,由于VOC2012数据集中包括了很多人物、车辆、房屋的样本,但是不包括道路、树木、天空等数据样本,所以得到的分割结果中能清楚辨识人、车辆、房屋等事物,证明FCNN网络用来训练模型的可行性很高。

3) 对比KSW-FCNN算法与其他深度学习网络得到的分割精度发现,本文算法在一定程度上提高了分割精度,排除了道路上一些噪音影响导致的过分割现象。

4 结论

本文提出了一种基于全卷积神经网络的道路场景分割算法。在采用深度训练前对训练集合利用KSW 2维阈值及遗传算法对原始图像进行处理,针对恶劣环境进行噪音滤波,然后采用FCNN深度训练模型得到有效分割网络。本文算法相比传统的机器学习算法,能够很好地分割出道路标识线,使得车辆在自动驾驶时对道路宽度判断更加精密。相比现在流行的深度学习网络分割算法,提前对数据预处理,弱化道路中泥潭、积水等因素的干扰,有效地避免了深度神经网络分割图像时的过分割现象。

本文算法在一定程度上提高了分割精度以及对道路标识线的识别能力,同时具有很高的鲁棒性,但是相比最新研究提出的深度学习神经网络来说,本文算法分割精度提高能力还是有局限性。后续本文算法将进一步运用到医学图像及遥感图像分割中,有效减少深度学习在这些重要图像领域的过分割现象。

参考文献

  • [1] Chen S Y, Wang H H, Wu Y T, et al. Approach of pedestrian detection based on binocular stereo vision and SVM algorithm[J]. Journal of Huazhong University of Science and Technology:Nature Science Edition, 2015, 43(S1): 140–143. [陈双玉, 王海晖, 吴云韬, 等. 基于双目立体视觉和SVM算法行人检测方法[J]. 华中科技大学学报:自然科学版, 2015, 43(S1): 140–143. ] [DOI:10.13245/j.hust.15S1034]
  • [2] Sturgess P, Alahari K, Ladicky L, et al. Combining appearance and structure from motion features for road scene understanding[C]//British Machine Vision Conference. London, UK: BMVA Press, 2009: 1-10.
  • [3] Zou B, Li C Q, Hou X J, et al. Research on automatic steering of intelligent vehicle based on end-to-end deep learning[J]. Application Research of Computers, 2018, 35(9): 2873–2876. [邹斌, 李超群, 侯献军, 等. 基于端到端深度学习的智能车自动转向研究[J]. 计算机应用研究, 2018, 35(9): 2873–2876. ] [DOI:10.3969/j.issn.1001-3695.2018.09.074]
  • [4] Alvarez J M, Lecun Y, Gevers T, et al. Semantic road segmentation via multi-scale ensembles of learned features[C]//European Conference on Computer Vision-ECCV 2012. Florence, Italy: Springer, 2012: 586-595.[DOI: 10.1007/978-3-642-33868-7_58]]
  • [5] Wang H, Cai Y F, Jia Y Y, et al. Scene adaptive road segmentation algorithm based on deep convolutional neural network[J]. Journal of Electronics & Information Technology, 2017, 39(2): 263–269. [王海, 蔡英凤, 贾允毅, 等. 基于深度卷积神经网络的场景自适应道路分割算法[J]. 电子与信息学报, 2017, 39(2): 263–269. ] [DOI:10.11999/JEIT160329]
  • [6] Cao F Y, Hu Y J, Wang H, et al. Image object segmentation algorithm by T junctions information[J]. Journal of Image and Graphics, 2018, 23(3): 428–433. [曹风云, 胡玉娟, 王浩, 等. 融合T节点线索的图像物体分割[J]. 中国图象图形学报, 2018, 23(3): 428–433. ] [DOI:10.11834/jig.170298]
  • [7] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3431-3440.[DOI: 10.1109/CVPR.2015.7298965]
  • [8] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 2012: 1097-1105.
  • [9] Liu Y P, Cai W L, Hong G B, et al. Automatic segmentation of shoulder joint in MRI by using patch-wise and full-image fully convolutional networks[J]. Journal of Image and Graphics, 2018, 23(10): 1558–1570. [刘云鹏, 蔡文立, 洪国斌, 等. 应用图像块和全卷积神经网络的肩关节MRI自动分割[J]. 中国图象图形学报, 2018, 23(10): 1558–1570. ] [DOI:10.11834/jig.180044]
  • [10] Tuo Q. Research on Image Threshold Segmentation Algorithm Based on Maximum Entropy and Genetic Algorithm[D]. Kunming: Kunming University of Science and Technology, 2016. [庹谦.最大熵结合遗传算法的图像阈值分割算法研究[D].昆明: 昆明理工大学, 2016.]
  • [11] Sun X F, Peng T Q. Fully convolutional networks for instance search[J]. Journal of Henan Institute of Engineering, 2017, 29(3): 65–71. [孙晓峰, 彭天强. 一种基于全卷积网络的目标检索方法[J]. 河南工程学院学报:自然科学版, 2017, 29(3): 65–71. ] [DOI:10.3969/j.issn.1674-330X.2017.03.015]
  • [12] Gao K J, Sun S Y, Yao G S, et al. Semantic segmentation of night vision images for unmanned vehicles based on deep learning[J]. Journal of Applied Optics, 2017, 38(3): 421–428. [高凯珺, 孙韶媛, 姚广顺, 等. 基于深度学习的无人车夜视图像语义分割[J]. 应用光学, 2017, 38(3): 421–428. ] [DOI:10.5768/JAO201738.0302007]
  • [13] Zhang J. Image Semantic Segmentation Method Based on Deep Learning[D]. University of Electronic Science and Technology, 2018. [张建.基于深度学习的图像语义分割方法[D].电子科技大学, 2018.]