首页> 中文学位 >基于样本重要性原理的KNN文本分类算法
【6h】

基于样本重要性原理的KNN文本分类算法

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引 言

1.1 研究的背景与意义

1.2 国内外研究现状

1.3 本文工作和论文结构

第二章 文本分类技术

2.1 文档的预处理

2.2 文档的表示模型

2.3 特征选择方法

2.4 分类算法

2.5 分类性能的评价标准

第三章 样本重要性原理与SI-KNN算法

3.1 样本重要性原理

3.2 KNN算法的研究分析

3.3 SI-KNN算法

第四章 实验设计与分析

4.1 实验设计

4.2 实验数据集

4.3 实验结果与分析

第五章 总结与展望

5.1 总结

5.2 未来工作

参考文献

致谢

在读期间公开发表论文(著)及科研情况

展开▼

摘要

随着信息技术的快速发展,互联网中的信息量正在迅猛增长。KNN分类技术对于组织和管理庞大而又杂乱无章的互联网数据,是一种非常有效地手段。传统的KNN分类方法通过寻找与待分类样本最近的K个近邻样本点,决策出待分类样本的类别。但是,该方法将所有样本等权重对待,而忽略了不同样本对于分类的贡献度问题。
  在许多问题中,不同样本点对于分类的作用是不一样的。例如:在SVM分类方法中,最优分离超平面的确定仅与支持向量有关,即类边界样本点。集成学习中,每次循环过程通过加强被错分样本的权重使得学习到的分类器更加关注被错分的样本。因此,不同样本在分类过程中应该被赋予不同的权重。基于这个思想,本文提出了一种样本重要性原理的加权方法。首先,在训练集上建立异类样本点之间的权重关系,权重的大小通过样本点之间的欧几里得距离表示;然后,根据样本间的权重关系可以得出样本点之间的转移概率,样本点之间的转移只能在异类的近邻样本之间进行;最后,根据随机游走算法,可以计算出所有样本点的边界值得分,边界值得分体现了样本点与分类边界的距离。得分越高,距离越远;得分越低,距离越近。距离分类边界越近的样本对于类别的表示能力应该更差,所以,利用边界值得分可以得出样本的重要性得分。样本的边界值得分越高,重要性得分就越低。最终,我们形成了一种基于样本重要性原理的加权方法。
  众所周知,KNN方法在不均衡数据中容易偏向大类,然而对样本点进行加权的方法就是常用的解决之道。为了验证样本重要性原理的加权方法的有效性,本文将其与KNN方法结合形成了基于样本重要性原理的加权SI-KNN分类方法,并分别在中英文语料上进行实验分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号