您现在的位置: 首页> 研究主题> 模仿学习

模仿学习

模仿学习的相关文献在1981年到2023年内共计438篇,主要集中在自动化技术、计算机技术、教育、经济计划与管理 等领域,其中期刊论文335篇、会议论文4篇、专利文献77049篇;相关期刊265种,包括父母必读、学前课程研究、小学教学参考等; 相关会议3种,包括第19届中国过程控制会议、2008中国仪器仪表与测控技术报告大会、第十二届中国智能机器人大会等;模仿学习的相关文献由783位作者贡献,包括于建均、阮晓钢、章宗长等。

模仿学习—发文量

期刊论文>

论文:335 占比:0.43%

会议论文>

论文:4 占比:0.01%

专利文献>

论文:77049 占比:99.56%

总计:77388篇

模仿学习—发文趋势图

模仿学习

-研究学者

  • 于建均
  • 阮晓钢
  • 章宗长
  • 肖晓晖
  • 俞扬
  • 姜冲
  • 崔友兴
  • 门玉森
  • 丁航
  • 乔健
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 丁开花; 李蕾
    • 摘要: 新入园的小班幼儿,与中大班哥哥姐姐进行“一对一”“二对一”的结对交往,在多种形式的“大带小”活动中体会兄弟姐妹之情,既能使小班幼儿感受到被关爱,并通过模仿学习获得生活自理能力,快速融入幼儿园的集体生活,有效缓解入园焦虑,又能使中大班幼儿增强责任心和榜样意识,主动帮助弟弟妹妹,在提高其同伴交往能力的同时,学会站在他人的立场上去想问题,懂得分享、谦让和关爱.
    • 黄艳龙; 徐德; 谭民
    • 摘要: 作为机器人技能学习中的一个重要分支,模仿学习近年来在机器人系统中得到了广泛的应用.模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中,其思路是先从少量示教样本中提取相应的运动特征,然后将该特征泛化到新的情形.本文针对机器人运动轨迹的模仿学习进行综述.首先详细解释模仿学习中的技能泛化、收敛性和外插等基本问题;其次从原理上对动态运动基元、概率运动基元和核化运动基元等主要的模仿学习算法进行介绍;然后深入地讨论模仿学习中姿态和刚度矩阵的学习问题、协同和不确定性预测的问题以及人机交互中的模仿学习等若干关键问题;最后本文探讨了结合因果推理的模仿学习等几个未来的发展方向.
    • 万宇婧
    • 摘要: 这部电影与《智能大反攻》有着类似的主题,但与之不同的是,这部电影的切入点是"青少年虚拟交友",讲述的正是中学生的社交困惑。对白内容贴近当下的网络生活,适合沉浸式模仿学习。《天赐灵机》是一部由萨沙·史密斯、怀·菲利普·维恩执导,扎克·加利费安纳基斯、杰克·迪伦·格雷泽、奥利维亚·科尔曼、艾德·赫尔姆斯担任配音的动画电影。2021年10月22日在美国上映。
    • 张明恒; 吕新飞; 万星; 吴增文
    • 摘要: 优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中,基于驾驶安全性、稳定性的车辆行驶性能要求,对强化学习模型中的奖励函数进行了针对性设计;通过引入模仿学习有效提升了强化学习过程中的学习效率;通过合理的增益调度器设计,保证了从模仿学习到强化学习的平稳过渡.实验结果表明,在稳定性上,智能体偏离道路中线的程度一直在30%内波动;在安全性上,智能体与周边其他车辆的安全距离基本保持在10 m以上;在模型泛化性方面,智能体在许多未训练过的复杂弯道也能很好地完成安全、平稳的驾驶任务;与原始DDPG(deep deterministic policy gradient)算法相比,该模型在学习速度上提升了约3.4倍,说明所提出的模型在保证自动驾驶系统可靠决策的同时有效提升了强化学习的效率,进一步实验证明其适用于不同的驾驶条件.
    • 郭策; 曾志文; 朱鹏铭; 周智千; 卢惠民
    • 摘要: 针对受限通信条件下机器人群集协同控制问题,提出基于图卷积模仿学习的分布式群集控制策略.该策略旨在实现群集内避障、速度一致性的基础上,提高群集鲁棒性,提升避免群集分裂的成功率.提出基于熵评价的群集鲁棒性量化评价指标,建立节点和链路重要性的均衡分布与群集鲁棒性的联系.提出重要度相关图卷积网络,用于实现受限通信条件下非欧氏数据的特征提取和加权聚合.采用图卷积模仿学习方法,根据提升群集鲁棒性的要求设计集中式专家策略,通过对集中式专家策略的模仿,得到分布式群集协同控制策略.设计仿真实验,证明所得的分布式策略基于受限通信条件实现了接近集中式的专家策略的控制效果.
    • 曾海; 许德章
    • 摘要: 上呼吸道口喉内腔曲折狭窄,机器人插管作业环境具有非结构特征,示教编程方法难以满足患者上呼吸道内腔形状特征的个性化,设计了一种7R双臂机器人,提出了一种基于模仿学习的气管插管机器人作业策略。首先,采用拟人插管技法,设计了一款用于插管作业的双臂协作机器人,用于模仿医务人员的双臂;建立了双臂协作插管机器人运动学模型,分析了运动学正解;运用蒙特卡洛法,分析了其协同工作空间。利用Qualisys高速相机运动捕捉系统,获取医务人员插管期间手臂末端的位姿变化;选用数值迭代逆运动学分析方法,求解获取关节角变化。利用运动捕捉系统获得样本数据,借助仿真软件分析,验证了非结构环境下插管作业策略规划的可行性。
    • 杨瑞阳; 金蓓弘
    • 摘要: 模仿学习是智能体从专家轨迹数据中学习获得尽可能靠近专家策略决策的智能学习方法。近年来,模仿学习已从早期的行为克隆发展到了逆强化学习、生成对抗模仿学习,以及多智能体模仿学习。而目前自动驾驶技术中传感器获取外界信息的能力与深度学习实现的感知环境能力都日趋完善,在决策部分,依靠基于规则的模型可应对大部分常见驾驶场景,但针对规则模型中不适用的极端场景,如何智能化实现安全决策,仍是当前研究的热点问题。本文综述了模仿学习在自动驾驶领域的代表性工作,详细讨论了它们的优势与不足并指出了它们未来的发展趋势。
    • 邢志伟; 张前前; 罗谦; 陈肇欣
    • 摘要: 针对机位再分配算法结果难以满足不同操作人员操作习惯的问题,提出一种符合实际业务人员操作习惯的机位再分配推荐算法。首先以航班特征属性和停机位的资源占用状态构建决策环境空间模型,将人工操作数据转换为多通道时空矩阵,再以卷积神经网络构建的生成对抗网络(generative adversarial network,GAN)拟合其序贯决策操作策略。仿真结果表明,可靠度在90%以上的调整动作占比最高达到84.4%。经过在三个数据集上的测试,模型对不同来源的操作数据具有较好的区分能力。对比不同扰动下的动态调整结果,算法能够得到航班—机位属性特征与原有人工操作属性特征接近的调整方案。
    • 魏鹏飞; 曾碧; 廖文雄
    • 摘要: 对话策略是面向任务的对话系统中的关键组件,给定当前对话状态输出下一个系统动作.近年来,对话策略学习已被广泛地描述为强化学习问题.一种常见的方法是让对话智能体与用户模拟器互动学习.然而,构建一个可靠的用户模拟器并不是一件容易的事,通常与构建一个好的对话代理一样困难.为了避免显式地构建一个用户模拟器,提出了一种PPO强化学习的多智能体对话策略学习方法,将系统端和用户端都构建为智能体.该方法主要通过两个阶段进行策略学习:1)阶段1是模仿学习,采用模仿学习中的行为克隆的方式,对系统策略和用户策略进行预训练;2)阶段2是多智能体强化学习,采用一种数据样本利用率更高以及鲁棒性更好的近端策略优化(PPO)算法,对系统端和用户端的对话策略进行学习.最后,在公开的多域多意图的面向任务的对话语料MultiWOZ上进行了实验,验证了方法的有效性,还分析了在复杂任务中的可伸缩性.此外,将学到的对话策略集成到ConvLab-2平台上进行整体效果评估.
    • 沈睿婷; 张雷
    • 摘要: 仿人机器人的模仿学习是指通过对人体行为动作序列的持续学习,识别人类动作特征,并据此生成仿人机器人自身运动序列,并执行相应的动作。文章针对仿人机器人模仿学习提出一种基于隐马尔可夫模型(HMM)的仿人机器人动作建模和生成的方法,实现对人体动作的持续学习。文章首先对人体动作数据通过向量的方法的进行匹配计算,转换成便于仿人机器人学习的关节角度,再用关节角度计算得到角速度与角加速度,从而得到完整动作数据。再利用隐马尔可夫模型对动作数据建模,完成新动作的动作识别,通过新动作与与原有动作对比相似性,证明向量方法的人体数据匹配计算的正确性,和基于隐马尔可夫模型建模及识别的有效性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号