首页> 中国专利> 微博消息中命名实体识别方法及系统

微博消息中命名实体识别方法及系统

摘要

本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。

著录项

  • 公开/公告号CN103268339B

    专利类型发明专利

  • 公开/公告日2016-06-01

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201310182978.X

  • 申请日2013-05-17

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王勇

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2022-08-23 09:41:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-31

    专利实施许可合同备案的生效 IPC(主分类):G06F 17/30 合同备案号:2018110000033 让与人:中国科学院计算技术研究所 受让人:中科天玑数据科技股份有限公司 发明名称:微博消息中命名实体识别方法及系统 申请公布日:20130828 授权公告日:20160601 许可种类:普通许可 备案日期:20180807 申请日:20130517

    专利实施许可合同备案的生效、变更及注销

  • 2016-06-01

    授权

    授权

  • 2016-06-01

    授权

    授权

  • 2013-09-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130517

    实质审查的生效

  • 2013-09-25

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20130517

    实质审查的生效

  • 2013-08-28

    公开

    公开

  • 2013-08-28

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号