首页> 中文学位 >基于粗糙集的启发式属性约简特征选择方法研究
【6h】

基于粗糙集的启发式属性约简特征选择方法研究

代理获取

摘要

随着近年来互联网技术的日趋成熟和应用范围的不断扩大,以文本形式存在的网络资源开始与日俱增。面对海量的信息,人们出现了“信息迷失的现象”,将海量信息根据内容进行归类成为了必然的选择。
   自从1957年美国的H.P.Lulm首次展开对自动分类的研究以来,文本分类正在赢得越来越多研究人员的关注,关于文本分类的研究成果层出不穷,并已经被成功地应用于搜索引擎、信息过滤、数字图书馆、邮件分类等领域。作为文本分类的重要环节,特征选择对文本分类起着至关重要的作用。因此,如何利用高效的特征选择方法降低文本特征集维度,已经成为文本分类研究领域中一个重要的研究课题。
   本文在经典粗糙集理论的基础上,首先分析了粗糙集理论在特征降维方面的优势,给出了运用粗糙集理论进行特征选择的可行性分析。然后针对目前基于粗糙集的特征选择方法在处理不一致决策表、时间复杂度等问题上的不足,本文提出了基于粗糙集的启发式属性约简特征选择算法,并将其应用到特征选择中,不仅大大提高了文本分类的效率,同时也为特征选择研究增添了新的研究内容。最后在研究了改进的特征选择算法的基础上,通过与传统特征选取方法实验对比,表明该算法在不一致决策表中能较好地进行特征降维,获得较好的分类结果。
   结合粗糙集理论,本文讨论了文本分类特征选择中存在的问题,并对启发式属性约简特征选择进行了深入地研究,本文主要工作如下:
   1、讨论了选题的研究意义,阐述了粗糙集理论的基本概念,研究了影响文本分类的重要因素,分析了常见的文本分类特征选择方法的特点,详细介绍了当前基于粗糙集的特征选择方法;
   2、为了寻求更为高效的特征选择方法进行特征降维,本文在概述了基于粗糙集的文本分类基础上,尝试把粗糙集中的启发式属性约简算法引入特征选择中。在一致决策表中,本文在传统基于粗糙集的正域约简特征选择方法基础上,提出了启发式正域约简特征选择方法,用于特征降维;针对决策表不一致现象,本文引入粒度函数来度量不同属性集之间的差异,并给出了基于粒度函数的启发式属性约简特征选择算法,为文本分类特征选择提供了新的研究方向;
   3、通过对实验语料进行实验,本文验证了生成决策分类规则的有效性。实验发现,该算法不仅能较好地降低文本特征项集的维数,还能较好地改善分类的效率。实验结果表明将基于粗糙集的启发式属性约简方法应用到特征选择中是切实可行的。
   最后,本文对基于粗糙集的文本分类特征选择研究进行了总结,并对研究中某些尚待完善的地方,提出几点设想以供下一步研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号