首页> 中国专利> 利用策略模型辅助训练的GP世界模型及其训练方法

利用策略模型辅助训练的GP世界模型及其训练方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种利用策略模型辅助训练的GP世界模型及其训练方法，该GP世界模型包括用于训练世界模型的损失函数，所述的损失函数包括第一损失函数和第二损失函数，所述的第一损失函数为GP世界模型的自有损失函数，所述第二损失函数为策略模型的损失函数，训练方法包括：S1.世界模型利用损失函数更新模型参数；S2.策略模型利用损失函数更新模型参数，并保存本次训练中每一步的；S3.对取平均值作为后代入，用于下一次世界模型的训练。本发明提出通过策略模型辅助训练GP世界模型方法的训练机制，能够利用策略训练的稳定性来达到调制训练世界模型的目的，从而提高世界模型的训练效果和性能。

著录项

公开/公告号CN114492215A

专利类型发明专利
公开/公告日2022-05-13

原文格式PDF
申请/专利权人南湖实验室;
展开▼

申请/专利号CN202210404483.6
发明设计人葛品;吴冠霖;方文其;平洋;栾绍童;缪正元;戴迎枫;沈源源;金新竹;
展开▼

申请日2022-04-18
分类号G06F30/27;G06N20/00;G06Q50/30;
代理机构
代理人
地址 314000 浙江省嘉兴市南湖区七星街道香湖别墅29幢
入库时间 2023-06-19 15:18:12

法律信息

法律状态公告日

法律状态信息

法律状态
2022-05-31

实质审查的生效 IPC(主分类):G06F30/27 专利申请号:2022104044836 申请日:20220418

实质审查的生效

相似文献

专利
中文文献
外文文献

1. 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型 [P] . 中国专利： CN113205153A . 2021-08-03
2. 预训练语言模型的训练方法、语言模型的训练方法及装置 [P] . 中国专利： CN114757171A . 2022-07-15
3. 推荐系统训练方法、装置、计算机设备及存储介质 [P] . 世界知识产权组织专利： WO2020/143186A1 . 2020.07.16
4. 一种行业识别模型确定方法和装置 [P] . 世界知识产权组织专利： WO2020/143377A1 . 2020.07.16
5. 在虚拟场景中组合模型的方法、系统、设备和介质 [P] . 世界知识产权组织专利： WO2020/143250A1 . 2020.07.16