基于外在信息的关键词抽取问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

关键词抽取是文本挖掘领域里一个重要的研究方向，目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。
　　针对如何优化关键词抽取方法的问题，本文首先分析了当前几种流行通用的算法，分析了其存在的问题，并验证了无监督的关键词抽取方法--TextRank算法的有效性，接着本文对实验结果进行分析，在此基础上本文进一步研究了如何有效利用外在信息，提出了基于外在信息的关键词抽取模型，进一步提升关键词抽取性能。具体来说，本文的主要研究内容有以下几个方面：
　　本文介绍了TextRank方法的算法原理及流程，并同当前流行的基于监督的关键词抽取方法进行了简单的实验对比，验证了TextRank算法具有很好的性能。本文对实验结果进行分析，总结出TextRank算法的不足，提出了基于外在信息的关键词抽取模型，在基于外在信息关键词抽取模型中，关键词抽取被分为两个阶段，第一个阶段是外在信息的构建，本文利用了当前流行的文本相似度量方法，分别从基于统计特征和语义特征两个方面来构建外在信息；第二个阶段是关键词抽取阶段，本文将第一阶段的外在信息融入到TextRank算法中，构建了基于外在信息的关键词抽取模型，并给出实验结果，通过对实验结果进行对比分析，证明了该模型进一步提升了关键词抽取的性能。
　　本文进一步分析了实验结果存在的问题，对外在信息模型进行进一步优化，首先在候选词提取处理上，本文利用聚类方法将描述不同主题的候选词划分到对应的主题集合中，然后利用外在信息模型进行关键词抽取，对抽取结果按照聚类结果进行划分，最后选取每一类别中评分最高的候选词作为中心关键词；接着我们对词包评分的计算进一步优化，对表述同一主题的词组进行整合，最后给出实验结果，对外在信息模型的优化进一步提升了该模型的性能，同时本文引入文本聚类的方法对该模型进行扩展。最后本文将该模型应用到科技论文的关键词抽取任务中，取得了不错的效果。

著录项

作者
王华章;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名黄亚楼;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
关键词抽取; 外在信息; 图模型; 共现关系; 文本挖掘;

相似文献

中文文献
外文文献
专利

1. 基于词汇链与互信息的关键词抽取研究 [J] . 任莉莉 ,方元康 . 池州学院学报 . 2013,第006期
2. 信息过滤中基于统计与规则的关键词抽取研究 [J] . 黄先珍 ,杨玉珍 ,刘培玉 . 计算机工程 . 2012,第002期
3. 国外在华发明专利格局与技术结构研究——基于1993～2007年国外在华发明专利数据的分析 [J] . 陈琼娣 ,余翔 . 情报杂志 . 2009,第006期
4. 结合词语分布信息的TFIDF关键词抽取方法研究 [J] . 徐振强 ,李保利 . 中原工学院学报 . 2014,第006期
5. 校外在线教育培训的法律问题研究 [J] . 李卓豫 ,薛雯洁 ,周海 . 青年与社会：上 . 2019,第033期
6. 基于信息内容的关键词抽取研究 [C] . . 中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会 . 2008
7. 基于序列模式挖掘的关键词抽取问题研究 [A] . 冯佳佳 . 2012

基于外在信息的关键词抽取问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅