首页> 中文学位 >基于在线学习的垃圾邮件过滤技术研究
【6h】

基于在线学习的垃圾邮件过滤技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题研究的目的和意义

1.2 垃圾邮件过滤技术研究现状

1.3 本课题研究的主要内容

1.4 本文的组织结构

第2章 基于在线学习的垃圾邮件过滤概述

2.1 垃圾邮件过滤器系统框架

2.2 基于在线学习的垃圾邮件过滤模式

2.3 机器学习方法

2.3.1 朴素贝叶斯方法

2.3.2 逻辑回归方法

2.3.3 支持向量机方法

2.4 实验数据集及评价指标

2.5 实验结果及讨论

2.6 本章小结

第3章 面向邮件过滤的特征工程研究

3.1 邮件过滤的特征工程研究背景

3.2 邮件的特征提取

3.2.1 基于词的特征提取方法

3.2.2 基于字节级N-grams的特征提取方法

3.3 邮件的特征选择

3.3.1 基于信息增益的特征选择方法

3.3.2 基于贝叶斯统计的特征选择方法

3.4 实验及讨论

3.4.1 邮件特征提取实验

3.4.2 基于信息增益的特征选择方法实验

3.4.3 基于贝叶斯统计的特征选择方法实验

3.4.4 基于信息增益和贝叶斯统计的特征选择方法比较

3.5 本章小结

第4章 基于在线排序逻辑回归学习算法的垃圾邮件过滤技术研究

4.1 排序学习

4.2 1-ROCA与排序学习关系

4.3 基于在线排序的垃圾邮件过滤模型

4.3.1 基于排序策略的垃圾邮件过滤模型

4.3.2 在线顺序逻辑回归学习算法

4.3.3 基于样本的在线排序逻辑回归学习算法

4.3.4 提升在线顺序逻辑回归模型

4.4 实验及讨论

4.5 本章小结

第5章 噪声数据对邮件过滤器的影响研究

5.1 噪声邮件分析

5.2 过滤器模型

5.3 噪声数据对过滤器性能影响

5.4 实验结果及讨论

5.5 本章结论

结论

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

电子邮件给人们的生活和工作带来极大的便利,但大规模的垃圾邮件严重影响了邮件正常使用。垃圾邮件消耗大量网络资源,损害用户利益,还会被一些别有用心的人用来散播虚假消息,危害社会安定。因此,垃圾邮件过滤技术已经成为当前研究普遍关注的热点问题。
   本文研究了基于机器学习理论的垃圾邮件过滤技术。由于该过滤技术具有正确率高,成本低等特点,已成为解决垃圾邮件过滤问题的主流方法。本文的研究内容主要分为以下几个部分:
   首先,研究了基于在线学习的垃圾邮件过滤技术的框架和过滤模式,并实现了基于朴素贝时斯、基于逻辑回归和基于在线支持向量机等三种模型的垃圾邮件过滤器,并从过滤器消耗的时间和过滤性能等方面评价三种过滤器的优缺点。
   其次,研究了面向邮件过滤的特征工程,其中包括两部分内容:邮件的特征提取和特征选择。在特征提取部分,研究了基于词的特征提取方法和基于字节级n-grams的特征提取方法。在特征选择部分,研究特征选择方法,提出基于信息增益的特征选择方法和基于朴素贝叶斯统计的特征选择方法来解决在线支持向量机模型消耗时间过大的问题。同时,本文从过滤器核心评价指标1-ROCA的角度优化过滤器模型,提出了一种基于在线排序逻辑回归学习算法的垃圾邮件过滤器。
   最后,研究了含有噪声数据集对过滤器性能的影响。在实际系统中,用户给过滤器的反馈邮件不一定是完全正确的,必然存在噪声邮件。本文了创建了噪声邮件数据,分析了含有不同噪声数量的数据对过滤器性能的影响。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号