首页> 中国专利> 一种基于人车风险状态的人机共驾控制权决策方法

一种基于人车风险状态的人机共驾控制权决策方法

摘要

本发明涉及一种基于人车风险状态的人机共驾控制权决策方法,属于汽车辅助驾驶技术领域和自动驾驶技术领域,特别是涉及到一种基于人车风险状态的人机共驾控制权决策方法;包括基于人、车风险监测信息的智能体环境特征提取、基于完全信息静态博弈理论的强化学习风险决策框架以及对不同切换时机进行标定的控制权决策方法。本发明提出的人机共驾控制权决策方法,能够为智能车辆处于高度风险状态时及时切换控制权至自动驾驶系统提供理论支持,在特殊情况下由自动驾驶系统接管车辆并降低行车风险。

著录项

  • 公开/公告号CN113335291B

    专利类型发明专利

  • 公开/公告日2022-07-08

    原文格式PDF

  • 申请/专利权人 燕山大学;

    申请/专利号CN202110848303.9

  • 申请日2021-07-27

  • 分类号B60W40/00(2006.01);B60W40/09(2012.01);B60W50/08(2020.01);

  • 代理机构长春市吉利专利事务所(普通合伙) 22206;长春市吉利专利事务所(普通合伙) 22206;

  • 代理人石星星;李晓莉

  • 地址 066004 河北省秦皇岛市河北大街西段438号

  • 入库时间 2022-08-23 14:00:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-08

    授权

    发明专利权授予

说明书

技术领域

本发明属于汽车辅助驾驶技术领域和自动驾驶技术领域,尤其涉及一种基于人车风险状态的人机共驾控制权决策方法。

背景技术

人机共驾指驾驶人和智能系统同时在环,分享车辆控制权,人机一体化协同完成驾驶任务。相比于常见的ADAS功能,共驾型智能汽车由于人机同为控制主体,双方受控对象交联耦合、状态转移相互制约,具有双环并行的控制结构。人机共驾能够借助人的智能和机器智能各自的优势,通过人机智能的混合增强,形成双向的信息交流与控制,构成“1+1>2”的人机合作混合智能系统,不仅可促进汽车智能化的发展,同时将对我国汽车产业、人工智能产业的发展起到强有力的支撑作用。

由于从0级到4级(SAEJ3016为L1到L4级)自动化水平的智能汽车均需要人机协同驾驶,且车辆陷入风险状态的主要诱因是驾驶人的失误操作或风险驾驶行为,此类现象在步入完全自动驾驶时代之前将会长期存在。研究难点主要体现在当驾驶人掌管控制权时,如果其表现出了风险驾驶行为并且无视系统预警的条件下,需要制定一套能够合理、准确的人机共驾控制权切换策略,在风险场景中由系统接管车辆控制权以及时提升车辆安全性。

发明内容

本发明要解决的技术问题是为智能车辆处于风险行驶状态时的人机控制权分配问题提供理论依据与技术支持。具体地,针对智能车辆的人工驾驶模式,当驾驶人执行风险驾驶行为或恶意驾驶行为时,使车辆处于持续性的高风险状态,自动驾驶系统需要及时、有效的做出控制权切换决策,在合理的时机由自动驾驶系统掌控车辆以及时避免由驾驶人的不良驾驶行为引发的风险隐患。

为实现上述目的,本发明的一种基于人车风险状态的人机共驾控制权决策方法的具体技术方案如下:

本发明的前提条件是,(1)智能汽车配备驾驶人行为监测模块和车辆行驶风险状态监测模块,能够实时监测并量化驾驶人行为和车辆行驶状态的风险等级;(2)智能汽车具备高度自动驾驶能力且作用域较高,有应对风险驾驶场景的能力。

本发明的目的在于考虑驾驶人的情绪、心理状态、驾驶风格或驾驶经验等因素对驾驶安全的影响,当驾驶人有意或无意的持续执行风险驾驶任务并促使车辆风险持续升高时,智能汽车在预警被无视的情况下强制切换控制权至自动驾驶系统,使用智能车辆的自动驾驶模式及时降低车辆的风险等级。

本发明要解决的技术问题是提出一种人机共驾控制权决策方法。该方法融合了智能汽车的驾驶人风险行为监测信息和车辆行驶安全性信息并输入决策模型,决策模型经过综合风险评估后输出决策结果至驾驶人和控制系统,通过适当的预警或控制权切换的方式及时降低车辆整体风险等级。

本发明旨在构建基于驾驶人行为和车辆行驶状态综合安全性分析的强化学习模型,进而尝试探索风险驾驶场景中以人-车风险状态为评定依据的、以降低整体风险为目标的智能汽车控制权分配决策方法。本发明采用的技术方案是:

包括以下步骤,且以下步骤顺次进行:

步骤S1、建立基于人-车风险状态博弈关系的强化学习奖惩机制;

步骤S1-1、在已完成智能车辆(智能体)有能力预测驾驶人风险驾驶行为状态和车辆运行风险状态的基础上,使用马尔科夫决策过程处理人车风险监测结果,使其符合强化学习算法的运算规则;

步骤S1-2、针对强化学习算法框架中的奖励函数设定问题,以期望效用最大定理为准则,以效用(车辆整体安全性)最大化为目标,提出基于完全信息静态博弈的人-车风险状态博弈方法;

步骤S1-3、使用逼近理想解排序法(Technique for Order Preference bySimilarity to Ideal Solution,TOPSIS)计算得到的理想点相对距离作为策略收益的量化手段,基于使用熵权法(Entropy)计算得到的指标权值,以无风险驾驶状态的驾驶行为表征指标和时间裕度为负理想点,提取其他各风险等级的驾驶行为表征指标和时间裕度数据,分别计算以负理想点为基准的相对距离,得到考虑人-车风险博弈关系的效用矩阵;

步骤S2、提出基于强化学习算法架构的人机共驾控制权决策方法;

步骤S2-1、借助于马尔科夫决策过程的时序特征描述智能体的环境交互方式,将人、车风险监测结果嵌入强化学习算法架构;

步骤S2-2、提出基于强化学习算法架构的人机共驾控制权决策方法,通过全局寻优的方式遍历模型的系数(人、车风险权重和奖励函数的系数)和切换时机,使模型得到相对最佳的决策输出结果,兼顾最优的自动化系统切换时机;

至此,完成整个决策模型的构建。

具体构建步骤如下:

第一步,建立基于人-车风险状态博弈关系的强化学习奖惩机制。具体地,以人、车的风险状态作为局中人建立博弈关系,理论上车辆行驶过程中人、车风险状态预测模型会随着时间推进同时计算风险监测结果,所以两个局中人的信息是互相已知的,此为完全信息;此外,预测结果的历史序列不会再变化,此为静态博弈。综合以上论述,本发明的人-车风险状态博弈关系属于完全信息静态博弈。

分为以下步骤:

a)强化学习的奖励函数是指导智能体完成预期目标的关键,经典强化学习任务中一般根据达成目标的情况制定相应的奖惩值。本发明针对A2C算法框架中的奖励函数设定问题,在已完成智能体有能力预测驾驶人行为状态和车辆运行状态安全性的基础上,考虑人和车状态的相互作用关系,以期望效用最大定理为准则,以效用(车辆整体安全性)最大化为目标,提出基于完全信息静态博弈的人-车风险状态博弈方法。

b)提出基于熵权-TOPSIS方法的策略效用函数计算方法。为了避免指标维度不统一造成的量表混乱、确保以基准为中心,采用中间型指标处理方法对指标进行正向处理。采用经由TOPSIS法计算得到的理想点相对距离作为策略收益的量化手段,基于使用熵权法计算得到的指标权值,以无风险驾驶状态的驾驶行为表征指标和时间裕度为负理想点,提取其他各风险等级的驾驶行为表征指标和时间裕度数据,分别计算以负理想点为基准的相对距离。不同风险等级驾驶状态与负理想点的相对距离越大表明收益效果越好,反之则收益效果越差。具体的计算方法如下:

第一步,构建标准化评估矩阵,X是原始数据矩阵,m是指标的维度,n是指标的数目,x′

第二步,指标的特征比例计算。

第三步,指标的信息熵计算,

第四步,基于信息熵冗余的权重计算,w

第五步,指数的中间型化处理。

式中,x

第六步,归一化初始矩阵,z

第七步,各个风险等级和负理想点之间的相对距离(

式中,w

在构造效用矩阵时,设ρ和σ分别为人、车风险状态的效用值,u

表1.

当驾驶行为风险状态为RP

为了使车辆风险状态在任意驾驶行为风险状态时都有稳定的效用(即均衡博弈状态),则效用函数U(σ)的计算方法如公式(12),式中的效用值σ

上述完全信息静态均衡博弈得到的最优效用的含义为:以当前时刻和下一时刻的人-车风险状态为博弈局中人,考虑到本发明针对的车辆风险研究是由驾驶人行为主导的。因此,下一刻的驾驶行为风险等级无论是朝着相对更高或更低的方向发展,都应该在下一个环节促进车辆的风险状态朝着相对更安全的方向改变,以此得到效用函数U(σ)构建的A2C奖励函数能以车辆风险的均衡概率为参照点,通过对Actor策略进行奖励或惩罚的形式促使下一个状态朝向更安全(即效用更高)的方向发展。

第二步,提出基于强化学习算法架构的人机共驾控制权决策方法。具体地,强化学习的目标是通过与环境的交互获得奖励信号,并最大化未来的累计奖励期望,最后学习到一个好的策略,当某个动作会对最大化奖励带来正面影响时,这个动作将会被加强,当面临相同状态时,智能体会再次选择相同的动作;反之当动作带来负面收益时,这个动作将会被削弱。具体步骤如下:

a)本文提出的驾驶人行为风险预测方法和车辆风险预测方法所输出的信息均为MDP问题,在每一个时间段t,智能体接收到表示环境情况的向量s

其中,衰减系数γ用来区分即时奖励与未来回报的重要性,0≤γ≤1,当γ接近于0时,代表智能体更加看重当前的即时奖励;当γ接近于1时,代表智能体更加注重未来的奖励来做出决策;R

智能体和环境是强化学习模型必备的两部分,智能体提取环境中的信息后输出动作策略,执行动作A

b)以车辆整体安全性信息池(由人、车状态参数构成)作为强化学习的环境,智能体从环境中抽取有时序特征的数据展开迭代计算。以驾驶人风险评价等级为例,智能体需要采集以下特征:(1)正则化后的风险驾驶行为表征指标[p

RP=α·RP

式中,α和β是人、车状态对应的决策权重,α∈[0,1],β∈[0,1],车辆行驶过程中决策模型对车辆风险的重视程度应该高于驾驶人行为的风险,因此α<β,α和β的取值决定了最终决策结果效果,通过观测决策效果来迭代寻找α和β的最优取值。

c)以强化学习的优势演员评论家算法为例,建立决策模型,模型的内部架构如图4所示。

模型包含两个模块:(1)演员(Actor)网络的输出是人机共驾控制权决策结果,即动作空间的动作向量包含分别对于驾驶人行为和车辆风险状态的决策;(2)使用评论家(Critic)网络用来判断决策结果在给定环境下的效果。这两个网络模块均采用LSTM神经网络来处理智能体提取的序列特征;采用Leaky Rectifying Linear Unit作为激活函数,Actor网络和Critic网络的激活函数分别为公式(15)和(16),算法的原理和特征提取方法分别如图5和图6所示。

d)再将风险驾驶行为预测模型和车辆风险等级预测模型的监测结果(即驾驶人行为风险等级和车辆行驶风险等级)引入到Critic网络中,训练A2C模型;Actor网络的目标是最大化目标函数。

J(θ)=E[logπ(A|s,θ)·A

A

其中,A

TD

J(w)=[R

e)智能体提取环境空间的特征变量至动作空间,根据人、车的风险状态做出降低风险的决策结果

f)采用期望的效用函数来衡量综合行车安全性的效果,如公式(21),U(σ

E[U(σ

式中,μ∈[0,1]是奖励函数系数,是用于调节决策效果的关键参数之一,μ值决定了奖励R

本发明的一种基于人车风险状态的人机共驾控制权决策方法具有以下优点:针对驾驶人执行风险驾驶行为或恶意驾驶行为等情况,智能车辆能够在监测人、车风险状态的基础上,及时由自动驾驶系统接管车辆控制权,避免由人为因素造成进一步的损失。

附图说明

图1为本发明的总体技术路线。

图2为本发明的强化学习的马尔科夫链结构图。

图3为本发明的强化学习内部原理图。

图4为本发明的基于强化学习(演员评论家算法)的人机共驾控制权决策模型架构。

图5为A2C算法架构。

图6为算法的特征提取方式。

图7数据集的划分示意图。

图8为实施例1累计回报变化示意图。

图9为实施例1损失率变化示意图。

图10为不同人、车风险状态等级对应的控制权决策结果。

图11为控制权切换前后的风险走势示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能,下面结合图,对本发明一种基于人车风险状态的人机共驾控制权决策方法做进一步详细的描述。

本发明针对智能汽车人机共驾模式的控制权决策和切换时机选取问题,本发明提出了基于人-车风险状态的控制权决策方法,能够有效的输出合理决策结果并及时请求自动驾驶系统接管控制权,从根本上扼制由驾驶人风险驾驶行为引发的安全隐患。首先,以促进智能汽车的安全性最大化为目标,使用TOPSIS方法和完全静态博弈理论建立了人、车风险博弈模型,提出了相对效用最大化的策略函数并嵌入强化学习奖励函数中,推理了以最大化车辆安全性期望为导向的强化学习奖惩机制。其次,利用强化学习算法擅长解决序列决策问题的优势,提出了基于A2C算法的人机共驾控制权决策方法,通过调整人、车风险决策权重和奖励函数优化了决策模型的输出效果,使用模型性能评价指标对训练过程和结果的有效性进行了验证,通过仿真试验分析了切换时机对车辆安全性的影响,提出了能够及时有效的限制驾驶人风险行为并提升车辆安全性的控制权决策方法。

实施例1:模型的性能检验

算法试验在高性能计算机内实施,具体配置为:i7-7700K CPU,NVIDIA GTX_1080Ti GPU,32G内存。基于tensorflow-1.15.4编译环境,最大reward设置为500。模型的Actor网络和Critic网络采用LSTM,激活函数使用Leaky ReLU。训练参数包括:总迭代1000epoch,batch_size=64,Actor模型学习率=0.0005,Critic模型学习率=0.001,累进奖励参数gamma=0.99。模型依赖的库(包)文件包括numpy 1.18.1,pandas 1.0.1,scikit-learn 0.22.2.post1,gym-0.15.3,joblib-0.15.1,matplotlib 3.2.2。

表2.

使用4种评价指标来评价模型的有效性:(1)回报,迭代周期收益的几何平均;(2)累计回报,训练过程的回报积累总和;(3)周期性波动,迭代周期总体收益波动的标准差;(4)最大损失率,测试过程中的最大损失率。得到结果如表3所示文采用的A2C算法在收益指标、波动性指标和最大回撤率方面均优于PPO算法,展现出了模型的优越性。

表3.算法指标对比情况

建模完成后,观察模型的回测效果图,图8和图9为模型的累计回报和损失率曲线图,从曲线走势可以看出累计回报逐渐增长且稳定性有所提升,总体上受损失率逐渐下降低、回报进程稳健增长,符合以车辆安全性最大化的总体目标。总体而言,本文提出的基于A2C的算法模型性能较好,能够遵循以车辆安全性最大化为目标的决策过程。

智能体的决策模型提取环境空间的特征变量至动作空间,根据人、车的风险状态做出t时刻拟降低总体风险RP的干预性决策结果

具体地,经由驾驶行为风险监测模块和车辆行驶风险监测模块提取人、车状态的风险等级,输入至本发明提出的人机共驾控制权决策模型中,该模型以人、车风险状态判别结果作为博弈和奖惩机制的参考标准,计算整体的决策

为了便于统计决策

鉴于模型可调节参数符合条件α∈[0,1]、β∈[0,1]和μ∈[0,1],以二分法思想设定初始值并计算决策

从跟车场景的试验结果中选出几种典型的决策结果作为案例进行论述。图10为当α=0.2、β=0.8、μ=0.5时的决策结果分布图,用四种图标分别代表决策

具体地,图10的横轴为车辆风险等级,纵轴为驾驶人行为的风险等级,均分为1~6级,1级为最高风险,6级为最低风险。

最终经过遍历方式得到各参数组合对应的决策结果,选取当α=0.5、β=0.8、μ=0.8时的决策结果作为最终的模型参数,决策效果如图10,α和β取值实现了决策效果以车辆风险为主、兼顾驾驶行为风险状态的效果,能够在保持决策值分布较为理想的同时,有相对更好的灵敏度。

进一步,使用已建立好的人机共驾控制权决策模型的可行性进行测试,输入驾驶行为风险监测模块和车辆行驶风险监测模块的监测结果(即人、车风险等级)至决策模型中,决策模型在不同人、车风险等级时刻输出控制权决策结果,如图11。图11(a)和图11(b)为可视化的人、车的风险等级走势,当人、车风险处于高等级时,由图11(c)可以看出,控制权切换决策结果为由自动驾驶系统接管车辆控制权,切换后的车辆风险等级及时得到了抑制、安全性显著提高(图11(b))。

本发明提出的人机共驾控制权切换方法是在车辆处于高风险的特殊情况下,由自动驾驶系统强行接管驾驶权,在使用自动驾驶功能恢复车辆安全状态后,驾驶人仍可以按其意愿切换控制权。

以决策

在得到理想的决策模型后,进一步探索切换时机对切换控制权后降低行车风险的有效性测试,经过全局寻优遍历不同切换时机对应的结果,较为理想的切换效果如图11所示,决策模型在各个人、车风险状态阶段输出了合理的决策值,并在车辆处于高风险时及时输出了切换指令,系统接管后的车辆风险及时被降低,整体而言,实现了有效地在人、车状态处于高风险的情况下及时将控制权切换至自动驾驶系统,提升了车辆的安全性。

可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号