首页> 中国专利> 一种基于概率密度估计的逆强化学习方法

一种基于概率密度估计的逆强化学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

一种基于概率密度估计的逆强化学习方法，包括：初始化策略模型；获取专家示范；利用专家示范估计专家的状态分布概率密度；利用专家示范估计专家状态动作联合分布概率密度；利用策略与环境交互，收集策略状态样本；利用状态样本估计策略状态分布概率密度；利用专家状态分布概率密度以及专家状态动作联合分布概率密度还原奖励函数；利用PPO方法优化策略；重复上述步骤到模型收敛；保留模型参数，输出策略模型。该方法可以整合到各类现有的逆强化学习框架中，大大提高各类逆强化学习算法的效率；同时，可以显著降低各类逆强化学习框架的计算复杂度，提高逆强化学习框架的样本利用率，以及加快逆强化学习框架的收敛速度。

著录项

公开/公告号CN112990477A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人清华大学深圳国际研究生院;
展开▼

申请/专利号CN202110183966.3
发明设计人刘阳;袁博;
展开▼

申请日2021-02-10
分类号G06N20/00(20190101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44223 深圳新创友知识产权代理有限公司;
代理人王震宇
地址 518055 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
入库时间 2023-06-19 11:29:13

法律信息

法律状态公告日

法律状态信息

法律状态
2023-10-27

发明专利申请公布后的驳回 IPC(主分类):G06N20/00 专利申请号:2021101839663 申请公布日:20210618

发明专利申请公布后的驳回

相似文献

专利
中文文献
外文文献

1. 一种基于概率密度估计的逆强化学习方法 [P] . 中国专利： CN112990477A . 2021-06-18
2. 一种基于结合反馈的改进贝叶斯逆强化学习方法 [P] . 中国专利： CN109978012A . 2019-07-05
3. Probabilistic system i.e. Bayesian system, learning method for determining clinical therapy procedure of patient, involves changing probability distributions depending on quality criteria such that probabilities of edges are increased [P] . 德国专利： DE102007020334A1 . 2008-11-13

机译：概率系统，即贝叶斯系统，一种用于确定患者临床治疗程序的学习方法，涉及根据质量标准更改概率分布，从而增加边缘的概率
4. MoRPE: a machine learning method for probabilistic classification based on monotonic regression of a polynomial expansion [P] . 美国专利： US2014058987A1 . 2014-02-27

机译： MoRPHE：一种基于多项式展开的单调回归的概率分类机器学习方法
5. Device, program and method for estimating terminal position based on presence probability density considering radio wave attenuation [P] . 日本专利： JP2019082363A . 2019-05-30

机译：基于无线电波衰减的存在概率密度估计终端位置的装置，程序和方法