首页> 中文学位 >在线组合分类器应用于大规模垃圾邮件过滤的研究
【6h】

在线组合分类器应用于大规模垃圾邮件过滤的研究

代理获取

目录

文摘

英文文摘

致谢

图目录

表目录

1 绪论

1.1 垃圾邮件的危害及研究意义

1.2 研究背景和相关工作

1.3 本文的贡献

1.4 本文结构

2 Terminator的基本框架

2.1 邮件向量化

2.2 Result Scaling

2.3 Thick Thresholding

2.4 本章小结

3 单分类器介绍

3.1 Not So Naive Bayes

3.2 在线逻辑回归

3.3 Winnow

3.4 Passive-Aggressive

3.5 在线边界感知器算法

3.6 单分类器性能对比分析

3.7 本章小结

4 在线分类器组合

4.1 相关研究

4.2 在线权重投票

4.3 最佳分类器子集选取

4.4 本章小结

5 实验

5.1 实验设置

5.2 实验结果评判标准

5.3 实验数据集

5.4 网易垃圾邮件特征库

5.5 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间主要研究成果

展开▼

摘要

随着互联网的普及,垃圾邮件的泛滥在严重干扰了人们的正常工作和生活的同时消耗了大量的带宽资源。传统的反垃圾邮件的方案例如设置过滤规则或者对邮件地址应用黑名单或白名单不仅需要大量的人工介入并且过滤效果也不甚理想,尤其当面对新的垃圾邮件样本时完全无能为力。
   电子邮件本质上是一种结构化的文本,用机器学习的算法来进行邮件分类其实就是处理文本分类问题。同时由于处理过程需要随时学习新产生的垃圾邮件样本以提高准确性和鲁棒性,所以我们的算法模型必须具有很强的适应性,或者说必须是在线模型。本文将垃圾邮件过滤抽象成在线结构化文本的二分类问题。
   本文分析并实现了包括逻辑回归、朴素贝叶斯、感知器等先进的在线分类器,并且原创提出了一种新型的改进朴素贝叶斯分类器nsnb。nsnb具有过滤效果优秀以及轻巧快速等一系列特点。在此基础上,本文提出了一种新型的用于在线分类器集成的框架,通过综合八种不同的分类器的输出给出最终的判断。此集成框架规范了邮件数据的预处理过程,统一使用未解码的N-gram算法摈弃了传统的中文分词以及TF-IDF算法,同时对第一层分类器的挑选进行了严格的约束,并且针对问题的在线特性提出了thick thresholding和result scaling两项技术。本文还提出了名为在线权重投票的分类器集成算法并与其它集成算法进行了比较,同时还对最佳分类器子集的选择问题进行了深入的探讨。
   依据本文的理论成果,作者实现了名为Terminator的垃圾邮件过滤器。在实验数据集上的结果远远超过了目前最优秀的垃圾邮件过滤器,并且在合作者网易邮箱提供的数据上面也有非常好的表现。

著录项

  • 作者

    苏保君;

  • 作者单位

    浙江大学;

  • 授予单位 浙江大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 徐从富;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.098;
  • 关键词

    垃圾邮件过滤; 分类器; 在线算法; 电子邮件;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号