基于基因表达式编程的中文文本关键词提取算法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

当前计算技术特别是因特网技术发展迅猛，信息技术正深刻地影响着人们的生活。Blog、电子文献以及数据内容形成了文本的数据海洋，亟需为用户提供高效的文本信息处理服务。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容，而文本关键词提取在上述方面有着广泛的应用，它不仅是进行这些工作不可缺少的基础和前提，也是互联网上信息建库的一项重要工作。文本关键词的自动提取是信息检索和摘要生成的基础，在Web页检索、文档聚类、文档摘要提取、文本挖掘等方面都有广泛的应用。关键词提取(keywords extraction)，其目的是自动生成准确反映文本主题的关键词，被认为是信息检索等技术的预处理过程。国外对该技术的研究比较早且比较深入，已经取得了不少研究成果；但中文关键词提取的研究相对落后，存在大量开发问题。虽然经过众多研究者的努力，取得了一定的进展，但仍然还有很多问题有待进一步研究和解决。
　　首先，简要介绍了自然语言处理、文本信息预处理和特征项等相关知识，分析和比较了常用的关键词提取算法，讨论了用于英文关键词提取的GenEx系统、朴素贝叶斯提取算法以及处理汉语文本的PAT TREE、最大熵模型等相关工作，并进行了归类。
　　然后，基于三个文本特征项，提出了考虑候选词权重计算的中文文本关键词提取算法TFLD(term frequency，location & distance algorithm)，该算法基于词频、区域位置以及分词距离次序三种特征项属性。TFLD算法的关键是词语权重计算模型的构造。本文引入GEP技术来优化求解该计算模型，以GEP进化个体与训练样例间的关键词有序序列差异的总方差作为进化的适应度函数，通过GEP进化算法使得关键词提取算法词语权重公式的表达式结构满足优化阈值的约束。在对词语权重公式进行优化结构的基础上，引入了LMS(Least Mean Square)法则训练该关键词提取模型的调节因子。
　　最后，TFLD算法与其他方法通过评价实验进行比较。结果表明，该方法有效提高了关键词提取的精度。

著录项

作者
管瑞霞;
展开▼
作者单位

杭州电子科技大学;

展开▼
授予单位杭州电子科技大学;
学科计算机应用技术
授予学位硕士
导师姓名陆蓓;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
基因表达式编程; 中文文本; 关键词提取; 文本信息处理; 贝叶斯提取;

相似文献

中文文献
外文文献
专利

1. 基于复杂网络的中文文本关键词提取研究 [J] . 赵京胜 ,张丽 ,肖娜 . 青岛理工大学学报 . 2018,第003期
2. 基于词或词组长度和频数的短中文文本关键词提取算法 [J] . 陈伟鹤 ,刘云 . 计算机科学 . 2016,第12期
3. 基于统计的行业中文文本关键词提取方法 [J] . 孙宏志 ,任丽妍 ,孙琪 . 电子制作 . 2015,第012期
4. 基于词序统计组合的中文文本关键词提取技术 [J] . 苏祥坤 ,吾守尔・斯拉木 ,买买提依明・哈斯木 . 计算机工程与设计 . 2015,第006期
5. 基于词跨度的中文文本关键词自动提取方法 [J] . 谢晋 . 现代经济（现代物业中旬刊） . 2012,第004期
6. 基于n-gram相邻字的中文文本特征提取算法 [C] . 王晔 ,黄上腾 . 第一届全国信息检索与内容安全学术会议 . 2004
7. 中文文本关键词提取和文本聚类中聚类中心点选取算法研究 [A] . 刘云 . 2016

基于基因表达式编程的中文文本关键词提取算法研究

摘要

著录项

相似文献

相关主题

期刊订阅