基于样本重要性原理的KNN文本分类算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的快速发展，互联网中的信息量正在迅猛增长。KNN分类技术对于组织和管理庞大而又杂乱无章的互联网数据，是一种非常有效地手段。传统的KNN分类方法通过寻找与待分类样本最近的K个近邻样本点，决策出待分类样本的类别。但是，该方法将所有样本等权重对待，而忽略了不同样本对于分类的贡献度问题。
　　在许多问题中，不同样本点对于分类的作用是不一样的。例如：在SVM分类方法中，最优分离超平面的确定仅与支持向量有关，即类边界样本点。集成学习中，每次循环过程通过加强被错分样本的权重使得学习到的分类器更加关注被错分的样本。因此，不同样本在分类过程中应该被赋予不同的权重。基于这个思想，本文提出了一种样本重要性原理的加权方法。首先，在训练集上建立异类样本点之间的权重关系，权重的大小通过样本点之间的欧几里得距离表示；然后，根据样本间的权重关系可以得出样本点之间的转移概率，样本点之间的转移只能在异类的近邻样本之间进行；最后，根据随机游走算法，可以计算出所有样本点的边界值得分，边界值得分体现了样本点与分类边界的距离。得分越高，距离越远；得分越低，距离越近。距离分类边界越近的样本对于类别的表示能力应该更差，所以，利用边界值得分可以得出样本的重要性得分。样本的边界值得分越高，重要性得分就越低。最终，我们形成了一种基于样本重要性原理的加权方法。
　　众所周知，KNN方法在不均衡数据中容易偏向大类，然而对样本点进行加权的方法就是常用的解决之道。为了验证样本重要性原理的加权方法的有效性，本文将其与KNN方法结合形成了基于样本重要性原理的加权SI-KNN分类方法，并分别在中英文语料上进行实验分析。

著录项

作者
万韩永;
展开▼
作者单位

江西师范大学;

展开▼
授予单位江西师范大学;
学科计算机科学与技术
授予学位硕士
导师姓名万剑怡;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
样本重要性原理; KNN文本分类算法; 权重关系;

相似文献

中文文献
外文文献
专利

1. 基于样本重要性原理的KNN文本分类算法 [J] . 万韩永 ,左家莉 ,万剑怡 . 江西师范大学学报（自然科学版） . 2015,第003期
2. 基于文本和类别信息的KNN文本分类算法 [J] . 艾英山 ,张德贤 . 计算机与数字工程 . 2009,第011期
3. 基于k-最近邻图的小样本KNN分类算法 [J] . 刘应东 ,牛惠民 . 计算机工程 . 2011,第009期
4. 基于K-均值聚类的小样本集KNN分类算法 [J] . 刘应东 ,牛惠民 . 计算机应用与软件 . 2011,第005期
5. 基于小样本集弱学习规则的KNN分类算法 [J] . 冷明伟 ,陈晓云 ,谭国律 . 计算机应用研究 . 2011,第003期
6. 基于加权修正的KNN文本分类算法 [C] . . 第二十五届中国数据库学术会议(NDBC2008) . 2008
7. 基于KNN的文本分类特征选择与分类算法的研究与改进 [A] . 黄娟娟 . 2014

基于样本重要性原理的KNN文本分类算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅