首页> 中国专利> 基于主动学习和语义密度的目标语料库构建方法

基于主动学习和语义密度的目标语料库构建方法

摘要

基于主动学习和语义密度的目标语料库构建方法属于文本挖掘技术领域。命名实体识别是面向生物医学文献的文本挖掘技术中至关重要的一环,深度学习和其他学习算法在实体识别的能力很大程度上取决于目标语料库构建的性能。而主动学习则是通过未标记的数据进行筛选,可以利用少量的数据取得较高的学习准确度。提出了基于密度聚类的主动学习方法来构建目标语料库,密度聚类选择具有一定高密度的区域划分为簇,可以去除掉具有噪音的数据,再由主动学习方法来选取信息最丰富的样本,使用较少的训练样本来获得性能较好的目标语料库,最终我们通过上下文相似度曲线来观察目标语料库的性能。该方法可以有效减少训练时间的同时也能提高目标语料库的性能。

著录项

  • 公开/公告号CN109492098B

    专利类型发明专利

  • 公开/公告日2022-05-06

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201811239578.7

  • 发明设计人 高江帆;陈建辉;何小波;

    申请日2018-10-24

  • 分类号G06F16/35;

  • 代理机构

  • 代理人

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2022-08-23 13:36:36

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号