首页> 中国专利> 一种基于部分监督学习的中文概括性文本切分方法

一种基于部分监督学习的中文概括性文本切分方法

摘要

本发明属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。

著录项

  • 公开/公告号CN108009156B

    专利类型发明专利

  • 公开/公告日2020-05-19

    原文格式PDF

  • 申请/专利权人 成都信息工程大学;

    申请/专利号CN201711444997.X

  • 发明设计人 王亚强;何思佑;唐聃;舒红平;

    申请日2017-12-27

  • 分类号G06F40/289(20200101);G06K9/62(20060101);

  • 代理机构11246 北京众合诚成知识产权代理有限公司;

  • 代理人夏艳

  • 地址 610225 四川省成都市西南航空港经济开发区学府路一段24号

  • 入库时间 2022-08-23 10:58:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-19

    授权

    授权

  • 2018-06-01

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20171227

    实质审查的生效

  • 2018-05-08

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号