首页> 中文学位 >基于外在信息的关键词抽取问题研究
【6h】

基于外在信息的关键词抽取问题研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 引言

1.2.1 关键词抽取研究现状分析

1.2.2 外在信息的研究现状分析

1.3 本文动因及主要工作

1.4 本文组织结构

第二章 相关工作综述

2.1 关键词的候选词提取

2.1.1 候选词的提取过程

2.1.2 候选词提取过程的优化

2.2 关键词抽取方法综述

2.3 评价指标

第三章 基于外在信息的关键词抽取研究

3.1 问题描述

3.2 基于TextRank的关键词抽取算法设计分析

3.2.1 基于TextRank的关键词抽取算法设计

3.2.2 基于TextRank的关键词抽取实验分析

3.3 外在信息的统计方法分析

3.3.1 基于统计特征的算法设计

3.3.2 基于语义特征的算法设计

3.4 基于外在信息的关键词抽取模型设计分析

3.4.1 基于外在信息的关键词抽取模型设计

3.4.2 基于外在信息的关键词抽取实验分析

3.5 本章小结

第四章 基于外在信息的关键词抽取的扩展与应用

4.1 问题描述

4.2 候选词的聚类优化

4.3 候选词的评分计算优化

4.3.1 词包的评分计算分析

4.3.2 实验流程

4.3.3 实验结果

4.4 文本聚类的扩展分析

4.4.1 扩展分析

4.4.2 实验结果

4.5 基于外在信息的关键词抽取模型的具体应用

4.5.1 数据简介

4.5.2 实验平台展示

4.6 本章小结

第五章 结束语

5.1 工作总结

5.2 未来工作展望

参考文献

致谢

个人简历

展开▼

摘要

关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。
   针对如何优化关键词抽取方法的问题,本文首先分析了当前几种流行通用的算法,分析了其存在的问题,并验证了无监督的关键词抽取方法--TextRank算法的有效性,接着本文对实验结果进行分析,在此基础上本文进一步研究了如何有效利用外在信息,提出了基于外在信息的关键词抽取模型,进一步提升关键词抽取性能。具体来说,本文的主要研究内容有以下几个方面:
   本文介绍了TextRank方法的算法原理及流程,并同当前流行的基于监督的关键词抽取方法进行了简单的实验对比,验证了TextRank算法具有很好的性能。本文对实验结果进行分析,总结出TextRank算法的不足,提出了基于外在信息的关键词抽取模型,在基于外在信息关键词抽取模型中,关键词抽取被分为两个阶段,第一个阶段是外在信息的构建,本文利用了当前流行的文本相似度量方法,分别从基于统计特征和语义特征两个方面来构建外在信息;第二个阶段是关键词抽取阶段,本文将第一阶段的外在信息融入到TextRank算法中,构建了基于外在信息的关键词抽取模型,并给出实验结果,通过对实验结果进行对比分析,证明了该模型进一步提升了关键词抽取的性能。
   本文进一步分析了实验结果存在的问题,对外在信息模型进行进一步优化,首先在候选词提取处理上,本文利用聚类方法将描述不同主题的候选词划分到对应的主题集合中,然后利用外在信息模型进行关键词抽取,对抽取结果按照聚类结果进行划分,最后选取每一类别中评分最高的候选词作为中心关键词;接着我们对词包评分的计算进一步优化,对表述同一主题的词组进行整合,最后给出实验结果,对外在信息模型的优化进一步提升了该模型的性能,同时本文引入文本聚类的方法对该模型进行扩展。最后本文将该模型应用到科技论文的关键词抽取任务中,取得了不错的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号