技术领域
本发明涉及本发明属于交通信息融合技术领域,特别是涉及一种基于机器学习的城市快速路交通状态识别方法
背景技术
城市道路交通状态识别是现代智能交通系统的重要组成部分,可以有效解决城市中交通拥堵的问题。实现交通状态识别对智能交通系统的发展意义重大。不仅可以让交通部门了解具体的道路交通形势,对交通拥堵的地段采取措施,还可以通过智能交通系统将每个路段的交通情况及时反馈给人们,为人们出行路径的选择提供参考。同时识别路段交通状态还能够分析交通情况在时空上所发生的变化,指导城市规划部门路网的建设工作,促使城市路网的完善。
现有的方案中单纯使用聚类或者分类,数据量大且参数维度高,如果不对参数进行预处理就容易造成运算量大、程序运行时间长或分类结果不精准等问题,故需要提供一种新的技术方案以解决上述问题。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于机器学习的城市快速路交通状态识别方法。
本发明所采用的技术方案是:1、一种基于机器学习的城市快速路交通状态识别方法,包括以下步骤:
S1:获取影响高速公路交通状态的流量、速度、占有率参数数据;
S2:将一组含有速度、流量、占有率的交通流参数在空间坐标轴上表示出来,并随机选取若干个点作为初始聚类中心,并将数据集划分成4类,随机选取4个点为四类的初始聚类中心:
式中:每行代表一个聚类中心,
S3:对选取的聚类中心进行实数值编码,染色体表现形式为:S
S4:根据设定的种群规模大小生成若干条上述染色体,对每一条染色体进行适应度评价,且适应度函数为:
模糊C均值聚类法(FCM)目标函数值越小,个体适应度值越大,越适合作为父体,保留较高适应度的个体进行交叉、变异,解码得到新一代的聚类中心矩阵,再带入FCM的聚类中心迭代公式进行计算,得到第三代聚类中心矩阵;
S5;循环以上操作直至平均适应度之差小于某阈值或达到最大迭代次数,输出最优聚类中心以及隶属度矩阵;
S6:根据每个样本隶属于每一类交通状态的程度判断每个样本点属于何种交通状态,将数据集划分为四类,分别对应顺畅、平稳、拥挤、阻塞四种交通状态。
S7:交通状态识别决策。
进一步的,所述交通状态识别决策为:通过并行遗传模糊聚类和SVM的算法进行识别决策。
进一步的,所述并行遗传模糊聚类和SVM的算法进行识别决策的流程为:
S301:选取初始聚类中心;
S302实数编码;
S303计算个体适应度;
S304判断是否达到终止条件;如果达到,执行S309步骤,否则,执行305步骤;
S305选择、交叉、变异产生新种群;
S306解码;
S307使用模糊C均值聚类法迭代公式计算新聚类中心;
S308重复执行步骤S302至步骤S308;
S309最优个体解码;
S310根据模糊C均值聚类法迭代公式计算(U,V);
S311根据隶属度矩阵确定每个样本点属于何种类别;
S312得到四类交通状态数据集;
S313划分训练集和测试集;
S314使用训练集测试SVM模型;
S315得到支持向量机参数使用网格搜索法、遗传算法、粒子群算法优化;
S316对测试集进行测试并进行结果分析,得出交通状态。
与现有技术相比,本发明的有益效果是通过以并行遗传模糊聚类算法为基础对交通状态进行划分的方式,再利用SVM模型判别交通流数据,能够能够更加准确的获得某一路段上交通的实时情况,从而为人们的出行提供参考。
附图说明
图1为:本发明基于PGFCM和SVM的城市快速路交通状态判别模型流程图;
图2为:交通状态模糊聚类空间分布图
图3为:并行遗传模糊聚类的交通状态模糊聚类空间分布图
图4为:FCM算法收敛曲线
图5为:并行遗传模糊聚类算法收敛曲线
图6为:C,g参数等高线图
图7为:粒子群算法迭代适应度曲线
图8为:遗传算法迭代适应度曲线
具体实施方式
下面结合附图对本发明进一步说明。
本发明提供了一种基于机器学习的城市快速路交通状态识别方法,包括以下步骤:
S1:获取影响高速公路交通状态的流量、速度、占有率参数数据;
S2:将一组含有速度、流量、占有率的交通流参数在空间坐标轴上表示出来,并随机选取若干个点作为初始聚类中心,并将数据集划分成4类,随机选取4个点为四类的初始聚类中心:
式中:每行代表一个聚类中心,
S3:对选取的聚类中心进行实数值编码,染色体表现形式为:S
S4:根据设定的种群规模大小生成若干条上述染色体,对每一条染色体进行适应度评价,且适应度函数为:
模糊C均值聚类法(FCM)目标函数值越小,个体适应度值越大,越适合作为父体,保留较高适应度的个体进行交叉、变异,解码得到新一代的聚类中心矩阵,再带入FCM的聚类中心迭代公式进行计算,得到第三代聚类中心矩阵,
S5;循环以上操作直至平均适应度之差小于某阈值或达到最大迭代次数,输出最优聚类中心以及隶属度矩阵,
S6:根据每个样本隶属于每一类交通状态的程度判断每个样本点属于何种交通状态,将数据集划分为四类,分别对应顺畅、平稳、拥挤、阻塞四种交通状态。
S7:交通状态识别决策。
进一步的,所述交通状态识别决策为:通过并行遗传模糊聚类算法和SVM的算法进行识别决策。
进一步的,所述并行遗传模糊聚类算法和SVM的算法进行识别决策的流程为:
S301:选取初始聚类中心;
S302实数编码;
S303计算个体适应度;
S304判断是否达到终止条件;如果达到,执行S309步骤,否则,执行305步骤;
S305选择、交叉、变异产生新种群;
S306解码;
S307使用模糊C均值聚类法迭代公式计算新聚类中心;
S308重复执行步骤S302至步骤S308;
S309最优个体解码;
S310根据模糊C均值聚类法迭代公式计算(U,V);
S311根据隶属度矩阵确定每个样本点属于何种类别;
S312得到四类交通状态数据集;
S313划分训练集和测试集;
S314使用训练集测试SVM模型;
S315得到支持向量机参数使用网格搜索法、遗传算法、粒子群算法优化;S316对测试集进行测试并进行结果分析,得出交通状态。
实施例:
本实施例所使用的数据是上海市某城市快速路路段检测器所提供的数据,时间为2017年8月19日24小时的交通路参数(流量、速度、占有率),采集间隔时间为1分钟,共1440组。
表1交通流部分数据原始样本表
为确保聚类结果的可靠性,需要先保障所得到数据的质量,对各交通流参数进行预处理。处理内容主要为检测异常值与数据归一化[i]。即首先检测所有数据中是否存在异常值(缺失值),然后将所得到的数据进行归一化处理,将检测的三项指标转换为[0,1]范围内的常数,提升支持向量机分类和模糊C均值聚类算法的准确性。
表2数据归一化结果
4.2 FCM与PGFCM算法聚类结果对比
模糊C均值聚类法(FCM)算法
运算具体过程如下:
1)初始化参数:c=4,m=2,ε=1*10
2)更新聚类中心和隶属度矩阵;
3)终止条件t=30或两代聚类中心之差小于ε;
由此得到四种交通状态的聚类中心:
其中矩阵每一行分别表示畅通、平稳、拥挤、阻塞状态的聚类中心;矩阵中每列的元素为交通流量(Veh/1min)、速度(km/h)和占有率(%)。且四个类别样本在状态空间中的具体分布如图2所示:
(2)并行遗传模糊聚类(Parallel Genetic Fuzzy C-Means,PGFCM)算法运算时的具体过程如下:
1)遗传算法参数:种群数n=50,进化代数T=30,p
2)采用实数编码的方式对初始值进行编码;
3)种群初始化p(t);确定三参数的上下界,分别在三参数上下界中生成3个随机数作为1个初始聚类中心,本文聚类数为4,故执行4次生成四个聚类中心。将四个随机生成的初始聚类中心按实数编码组成一个染色体,随机生成50个。
4)适应度函数f=1/J
5)设计遗传算子
①综合应用适应度比例算法与精英保存两种方法;②采用基于最短距离基因匹配的算术交叉算子;③变异算子采用基本位变异;
6)解码得到第二代聚类中心矩阵,使用FCM迭代公式求解新一代聚类中心矩阵;
(7)如果当迭代次数达到了最大值,或是适应度变化很小或不再变化,此时算法运转结束,否则继续进行编码、适应度评估和遗传操作。
由此得到四种交通状态的聚类中心:
且四个类别样本在状态空间中的具体分布如图3所示:
由聚类中心矩阵可知运用PGFCM算法得到的类与类差距明显,这表示聚类效果好。
4.3并行遗传模糊聚类与FCM收敛能力、误判率比较分析
(1)收敛能力分析
参照图4-5
经计算发现改进的PGFCM算法在迭代5次后便会逐渐趋近最佳值,求得极值为50911.263,但是如果使用初始算法需要迭代到20次才慢慢接近目标值50912.649,收敛速度较慢,且目标函数未到最小值就已经收敛,而并行遗传模糊聚类算法求得的极小值比单纯使用FCM求得的极小值小的多,未陷入局部极小值。可以看出,并行遗传模糊聚类存在明显的效果,相比于FCM算法,并行遗传模糊聚类算法在收敛速度与寻优能力上都显现出了明显的优势。
(2)误判率分析
本文采用误判率交叉估计法对并行遗传模糊聚类和FCM进行误判率对比分析。设样本量为N,利用并行遗传模糊聚类和FCM将数据分成4类,记录每一类的样本总量n
1)从全部样本之中选择某个样本,并将其剔除出去,再用余下样本利用上述两种方法进行聚类,分别记录结果。将剔除的样本对得到的聚类中心和隶属度进行类别判断,确定属于何种类别;
2)重复第一步将每个样本剔除一遍。将剔除以后所的得到聚类结果和最原始的结果对比,如果存在结果不同的情况,那么则将该样本视为误判样本,记录样本量
(4-1)
两种聚类方法得到的结果如表3所示:
表3误判交叉估计对比表
由公式(4-1)可求得FCM的误判率为11.2%,而并行遗传模糊聚类误判率为5.3%,误判率比单纯使用FCM算法降低了一倍左右。说明改进的算法为分类模型提供了良好的数据基础。
4.3基于支持向量机(support vector machines,SVM)分类模型验证
(1)数据集划分
分别在四类数据集中随机选取60%的数据划分为训练集,另40%划分为测试集。用1、2、3、4分别代表状态一至状态四,称为标签。
表4支持向量机模型部分训练集和测试集
(2)两种聚类结果训练与测试对比分析
表5 PGM-SVM测试结果
表6 FCM-SVM测试结果
由于改进的PGFCM聚类结果类与类之间区分更明确,使用SVM进行分类时更容易得到分类边界,所以在测试时间和测试精度上都占有优势。
(3)支持向量机(Support Vector Machine,SVM)模型参数寻优
1)网格搜索法
参照图6:
利用该方法优化得到的结果为:C=5.278,g=0.035897时分类准确率最优为98.2638%。因为网格搜索法是针对搜索范围内所有参数,运算量巨大且受搜索步长影响。搜索步长较小时往往能得到很高的精度,若增大搜索步长很可能就略过了最优的参数组合,得到次优结果,分类准确度降低。对于城市快速路交通状态判别这样数据量大且需要快速得到结果的问题不是特别适用。
2)粒子群算法
参照图7:
图4-5为以粒子群算法为基础优化得到的结果。当C=0.5172,g=0.01时分类效果最优为97.7431%。采用粒子群算法对参数进行优化时很快能达到最佳适应度值,进化初期收敛速度极快,进化后期收敛速度变慢,同时,算法收敛精度相对较低。但综合考虑该算法适用于本文所研究的问题。
3)遗传算法
参照图8:
图4-6为以遗传算法为基础优化得到的结果。当C=0.96292,g=0.0038147时分类准确率最优为98.7269%。由于遗传算法的全局搜索特性,所以进化初期适应度有下降的现象。此方法得到的分类准确率最高,算法运行时间相对粒子群算法有所增加,适用于本文研究的问题。
4)三种优化方法准确率及测试时间对比
表7三种算法运行时间及分类准确率对比表
由表4-7可知遗传算法优化效果最好且时间相对较短即取C=0.96292,g=0.0038147,
4.4优化后的SVM模型的训练和测试
设定分类数目n=4、C=0.96292,g=0.0038147,使用SVM读取训练数据、训练标签。将测试集数据带入支持向量机进行训练,得出对应的交通状态预测标签值。表4-8为部分测试和预测两种标签值。
表8预测标签和测试标签
从截取分类结果看只存在一处测试标签与预测标签有偏差,分类准确率高达到98.61%。实验结果表明,本发明建立起的基于并行遗传模糊聚类和SVM的城市快速路交通状态判别模型判别准确率高。通过向SVM模型中输入交通流参数矩阵便能够完成实时判别,从而了解交通状态的实时情况,由此说明本文建立起的城市快速路实时交通状态判别方法是可行的。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明,因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
机译: 一种基于车辆群速度的交通状态测量方法
机译: 基于机器学习的医学识别方法和相关设备
机译: 基于机器学习的单元识别方法和装置