首页> 中文学位 >基于基因表达式编程的中文文本关键词提取算法研究
【6h】

基于基因表达式编程的中文文本关键词提取算法研究

代理获取

摘要

当前计算技术特别是因特网技术发展迅猛,信息技术正深刻地影响着人们的生活。Blog、电子文献以及数据内容形成了文本的数据海洋,亟需为用户提供高效的文本信息处理服务。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容,而文本关键词提取在上述方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是互联网上信息建库的一项重要工作。文本关键词的自动提取是信息检索和摘要生成的基础,在Web页检索、文档聚类、文档摘要提取、文本挖掘等方面都有广泛的应用。关键词提取(keywords extraction),其目的是自动生成准确反映文本主题的关键词,被认为是信息检索等技术的预处理过程。国外对该技术的研究比较早且比较深入,已经取得了不少研究成果;但中文关键词提取的研究相对落后,存在大量开发问题。虽然经过众多研究者的努力,取得了一定的进展,但仍然还有很多问题有待进一步研究和解决。
   首先,简要介绍了自然语言处理、文本信息预处理和特征项等相关知识,分析和比较了常用的关键词提取算法,讨论了用于英文关键词提取的GenEx系统、朴素贝叶斯提取算法以及处理汉语文本的PAT TREE、最大熵模型等相关工作,并进行了归类。
   然后,基于三个文本特征项,提出了考虑候选词权重计算的中文文本关键词提取算法TFLD(term frequency,location & distance algorithm),该算法基于词频、区域位置以及分词距离次序三种特征项属性。TFLD算法的关键是词语权重计算模型的构造。本文引入GEP技术来优化求解该计算模型,以GEP进化个体与训练样例间的关键词有序序列差异的总方差作为进化的适应度函数,通过GEP进化算法使得关键词提取算法词语权重公式的表达式结构满足优化阈值的约束。在对词语权重公式进行优化结构的基础上,引入了LMS(Least Mean Square)法则训练该关键词提取模型的调节因子。
   最后,TFLD算法与其他方法通过评价实验进行比较。结果表明,该方法有效提高了关键词提取的精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号