首页> 中国专利> 一种非线性离散时间系统的在线学习控制方法

一种非线性离散时间系统的在线学习控制方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了非线性离散时间系统的在线学习控制方法，包括行为策略选择步骤，最优Q‑函数定义步骤，评价网络和执行网络引入步骤，估计误差计算步骤，以及最后的最优权重计算步骤，当评价网络和执行网络的权重收敛之后，执行网络的输出即为最优控制器的近似值。本发明无需在策略评估和策略提高之间反复迭代，可实现对最优控制器的实时在线学习；采用离轨策略学习机制，有效克服了直接启发式动态规划方法对状态‑策略空间探索不足的问题，执行网络和评价网络可使用任意形式的激活函数，本发明可实现对最优控制器的在线学习，并且无需系统模型，仅需要行为策略产生的状态数据。

著录项

公开/公告号CN113485099A

专利类型发明专利
公开/公告日2021-10-08

原文格式PDF
申请/专利权人中国电子科技集团公司信息科学研究院;
展开▼

申请/专利号CN202011635930.6
发明设计人李新兴;查文中;王雪源;王蓉;
展开▼

申请日2020-12-31
分类号G05B13/02(20060101);
代理机构11226 北京中知法苑知识产权代理有限公司;
代理人李明;赵吉阳
地址 100086 北京市海淀区四道口北街36号院4号楼
入库时间 2023-06-19 12:49:58

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-22

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种非线性离散时间系统的在线学习控制方法 [P] . 中国专利： CN113485099A . 2021-10-08
2. 一种非线性系统最优控制器的在线学习方法 [P] . 中国专利： CN111142383A . 2020-05-12
3. Method for approximation of optimal control for nonlinear discrete time systems [P] . 美国专利： US8538901B2 . 2013-09-17

机译：非线性离散时间系统最优控制的逼近方法
4. METHOD FOR APPROXIMATION OF OPTIMAL CONTROL FOR NONLINEAR DISCRETE TIME SYSTEMS [P] . 美国专利： US2011196819A1 . 2011-08-11

机译：非线性离散时间系统最优控制的逼近方法
5. Method and apparatus for estimating state parameter in nonlinear discrete time system [P] . 美国专利： US7031890B2 . 2006-04-18

机译：非线性离散时间系统中状态参数的估计方法和装置