首页> 中文学位 >朴素贝叶斯分类的研究及应用
【6h】

朴素贝叶斯分类的研究及应用

代理获取

目录

1 绪 论

1.1研究背景与研究意义

1.2 国内外研究现状

1.3 本文研究的内容

2 基础理论及算法概述

2.1属性选择

2.1.1常见的属性选择算法

2.1.2常见的属性选择方法

2.2 分类方法

2.2.1朴素贝叶斯方法

2.2.2决策树

2.2.3随机森林

2.3主题模型

2.4 模型评价指标

2.5.1 文本数据预处理

2.5.2 文本数据的表示

3 加权的朴素贝叶斯分类器

3.1 TF-IDF加权法

3.2 DC-TF-IDF加权法

3.3 加权朴素贝叶斯分类器

4 朴素贝叶斯分类器的应用

4.1 试验流程

4.2数据来源及预处理

4.3.1 分词

4.3.2 主题确定

4.3.3 属性选择及模型训练

4.3.4 天猫女装评论数据的分类

4.3.5 模型的对比及确认

4.4影评的评分

5 结论和展望

5.1 主要结论

5.2后续研究工作的展望

参考文献

附录

A. 学位论文数据集

致谢

声明

展开▼

摘要

本文主要研究的是朴素贝叶斯文本分类方法,通过属性选择以及属性加权,不断调整模型中属性的权值,对传统的朴素贝叶斯方法进行改进。  研究度量属性之间相关性的不同方法,选用随机森林对属性进行选择,确定最终的属性子集。随后进行主题数量确定,因为评论的类别事前是不知道的,本文通过LDA主题模型,使用最大似然函数估计确定类别的最佳个数。然后进行属性加权,由于每一个属性对于各类别的影响是不一样的,因此也会针对不同类别的各个属性赋予一个权值。本文分别采用 TF-IDF 值和 DC-TF-IDF 值对属性进行加权,通过对比模型的微平均F1?评测值发现,无论是影评数据还是天猫的评论数据,TF-IDF加权朴素贝叶斯分类器都比DC-TF-IDF加权朴素贝叶斯分类器的微平均F1?评测值低一个百分点,所以最后选择 DC-TF-IDF加权朴素贝叶斯分类器,对影评数据和天猫某女装评论数据进行分类预测,同时计算影评各类别的评分和综合评分。  通过这种分类方法,对评论内容进行合理分类,提供更方便和清晰的评论内容给广大消费者,方便大家浏览和参考。

著录项

  • 作者

    周小燕;

  • 作者单位

    重庆大学;

  • 授予单位 重庆大学;
  • 学科 应用统计
  • 授予学位 硕士
  • 导师姓名 胥斌;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    朴素贝叶斯,文本分类,属性选择;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号