首页> 中国专利> 基于优胜劣汰的深度强化学习策略网络存储方法及设备

基于优胜劣汰的深度强化学习策略网络存储方法及设备

页面导航

摘要
著录项
法律信息
相似文献

摘要

一种基于优胜劣汰的深度强化学习策略网络的存储方法，该方法包括：获取当前训练周期的结果和策略网络；判断所述当前训练周期的结果是否满足策略网络测试要求；在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下，进行策略网络测试；获得该策略网络测试的结果；判断所述策略网络测试的结果是否满足保存要求；在判断所述策略网络测试的结果满足保存要求的情况下，保存所述策略网络以及所述策略网络测试的结果。

著录项

公开/公告号CN111582495A

专利类型发明专利
公开/公告日2020-08-25

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN202010320186.4
发明设计人赵江;李明君;蔡志浩;王英勋;
展开▼

申请日2020-04-22
分类号G06N20/00(20190101);
代理机构11668 北京航智知识产权代理事务所(普通合伙);
代理人陈磊;张桢
地址 100191 北京市海淀区学院路37号
入库时间 2023-12-17 11:49:32

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-25

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于优胜劣汰的深度强化学习策略网络存储方法及设备 [P] . 中国专利： CN111582495A . 2020-08-25
2. 一种基于深度强化学习的D2D网络中的缓存策略方法 [P] . 中国专利： CN109639760B . 2019.09.03
3. SPATIAL AND TEMPORAL ATTENTION-BASED DEEP REINFORCEMENT LEARNING OF HIERARCHICAL LANE-CHANGE POLICIES FOR CONTROLLING AN AUTONOMOUS VEHICLE [P] . 美国专利： US2020139973A1 . 2020-05-07

机译：基于时空注意的深度强化学习，用于控制自主车辆的分层车道变化策略
4. PARKING STRATEGY BASED ON DEEP REINFORCEMENT LEARNING [P] . 世界知识产权组织专利： WO2020056875A1 . 2020-03-26

机译：基于深度强化学习的停车策略
5. METHOD AND SYSTEM FOR ALLOWING THE USE OF DOMAIN NAME BASED NETWORK POLICIES STORED IN A SECOND DEVICE IN ENFORCING NETWORK POLICY AT A FIRST DEVICE [P] . 美国专利： US2017359447A1 . 2017-12-14

机译：允许在第二设备中使用存储在第二设备中的基于域名的网络策略来执行第一设备中的网络策略的方法和系统