基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本关键词自动提取算法可分为基于统计的方法,基于词语共现图的方法,基于词语网络的方法三种。基于统计中最基础的词频统计方法是选出文档中词频最高的几个词语作为关键词。该方法简单快速,但无法提取出含有文档中心内容但频率不高的词。基于词语共现图的方法需要设定的参数过多,常会造成边界上的取舍问题,算法的稳定性和精度很难控制。基于词语网络的方法是以文档词语网络模型的平均路径长度或聚类系数为关键词自动提取依据。平均路径长度或聚类系数理论以连通图为基础,故对非连通的文档模型,正确衡量顶点的重要性成为困难。随着网络技术发展,网页信息日益增多,为了管理网页信息,常需要对网页进行分类。人工分类已无法满足需求,很多的网页自动分类技术已被提出。网页分类技术主要应用于搜索引擎,信息检索,舆情内容监管,网站管理等方面。
　　本文针对文本关键词自动提取技术中存在的问题,结合网页分类的需求,研究了以下内容:1.基于词语网络模型的文本关键词自动提取;2.使用网页关键词进行特征选择对网页向量模型降维,再对网页进行分类。
　　主要取得了以下研究成果:
　　 (1)提出一种基于词语网络的文本关键词自动提取策略:修改平均路径长度和聚类系数理论,定义网络平均逆路径长度和有效聚类系数指标,使其适应非连通图。在词语网络关键词自动提取算法的关键节点选择步骤中使用节点删除指标来衡量词语重要性,综合考虑节点删除后对文档词语网络模型的两个新定义指标造成的损失。实验结果表明该指标比现有指标更好衡量词语网络节点的重要性。
　　 (2)提出基于词语相似度的中文分词策略:中文词语常有多词同义形象,词语相似度即为两个词语意义相同的程度。词与其本身相似度为1。本文根据实验结果给定一阈值,在分词过程中,如果两个或多个词语间相似度高于该阈值,就对其作为一个词进行处理。该分词策略能有效提高关键词自动提取的准确率。
　　 (3)使用网页的关键词进行特征选择,能有效降低网页文档向量模型的维数。在实验中与其他特征选择算法进行降维后的分类结果相比较,关键词特征选择具有一定的可行性。
　　本文在对词语网络指标新定义基础上选择关键节点使自动提取的关键词更准确。使用关键词来进行网页分类过程中的特征选择也使文档的向量空间模型降维过程损失的信息量更少,分类结果比较理想。

著录项

作者
温安国;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机应用技术
授予学位硕士
导师姓名李松年;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
词语相似度; 关键词自动提取; 词语网络; 中文网页分类;

相似文献

中文文献
外文文献
专利

1. 基于词跨度的中文文本关键词自动提取方法 [J] . 谢晋 . 现代经济（现代物业中旬刊） . 2012,第004期
2. 中文网页分类中的网页特征提取方法 [J] . 江祥奎 ,原思聪 . 电脑开发与应用 . 2005,第010期
3. 中文专利文档关键词自动提取方法研究进展 [J] . 马运运 ,孙志一 ,刘海波 . 世界科学技术-中医药现代化 . 2015,第001期
4. TFLD:一种中文文本关键词自动提取方法 [J] . 管瑞霞 ,陆蓓 . 机电工程 . 2010,第009期
5. 基于词共现矩阵的项目关键词词库和关键词语义网络 [J] . 王庆 ,陈泽亚 ,郭静 . 计算机应用 . 2015,第006期
6. 中文篇章中的关联词语及其引导的句子关系的自动标注——面向话语分析的中文篇章语料库的开发 [C] . 邹嘉彦 ,连兴隆 . 1998中文信息处理国际会议 . 1998
7. 基于关键词自学习的中文网页分类技术研究与实现 [A] . 鞠亮 . 2017

基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究

摘要

著录项

相似文献

相关主题

期刊订阅