基于频繁模式挖掘的不良消息文本检测方法研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着微博，像新浪微博，腾讯微博等，即时通讯像QQ，MSN等，论坛BBS这一类平台的出现，使得如今的互联网中的消息文本越来越常见。这些消息文本在为我们带来了便利同时，却也带来了问题:不良消息文本。显然我们希望能够屏蔽这些不良消息文本，净化互联网环境。为了屏蔽它们首先需要分辨出那些消息文本是不良消息文本，这就涉及到不良消息文本的分类问题。如今基于统计学习的机器分类技术已经很成熟，但是由于消息文本的特征，使得已有的那些分类方法对消息文本进行分类时效果很差。所以这就给不良消息文本进行分类带来了新的挑战，而且随着消息文本在互联网中的大量增长，解决这个问题也越来越紧迫。
　　本文通过研究调查，设计了基于频繁模式挖掘的不良消息文本检测方法，提高了对不良消息文本的分类检测性能。为了设计出适合消息文本的分类方法，本文首先研究了消息文本的特征。然后介绍了一些典型的分类方法和应用。接着介绍了频繁模式的概念以及在消息文本的应用。最后在总结各个方面的研究结果后，提出了基于频繁模式挖掘的不良消息文本检测方法。
　　本文设计的方法主要包含两个过程，训练过程和分类过程。其中训练过程是指对不良消息文本训练集进行训练过程，提取不良消息文本（比如暴力消息文本）的频繁模式。在训练过程中，方法首先对不良消息文本进行预处理，接着进行频繁词项的提取，最后完成频繁字符串的发现，即频繁模式的提取。在分类检测过程中利用已经提取好的不良消息文本频繁模式，对新的消息文本进行分类，检测消息文本是否属于该不良消息文本的范畴。这其中包括消息文本预处理，消息文本与不良消息文本频繁模式子串判断和相似度计算这几个步骤。经过试验验证，我们可以发现该方法在不良消息文本分类的效果上与其它分类方法相比，有很好的提升。

著录项

作者
张健;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机技术
授予学位硕士
导师姓名张世永;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
频繁模式; 数据挖掘; 消息文本; 文本分类; 互联网;

相似文献

中文文献
外文文献
专利

1. 基于SQL的频繁模式挖掘的研究与实现 [J] . 李桂杰 ,张集祥 ,姜庆月 . 计算机应用与软件 . 2006,第007期
2. 基于API频繁模式挖掘算法的Android恶意应用检测方法 [J] . 梁俊鹏 . 重庆文理学院学报（社会科学版） . 2016,第005期
3. 基于权限频繁模式挖掘算法的Android恶意应用检测方法 [J] . 杨欢 ,张玉清 ,胡予濮 . 通信学报 . 2013,第S1期
4. 一种基于频繁模式有向无环图的数据流频繁模式挖掘算法 [J] . 任家东 ,王倩 ,王蒙 . 燕山大学学报 . 2011,第002期
5. 一种基于上三角频繁项集矩阵的频繁模式挖掘算法 [J] . 王文正 ,王文平 ,许映秋 . 微电子学与计算机 . 2010,第9期
6. 基于频繁模式挖掘的Web服务器入侵检测方法研究 [C] . 李晓华 ,董晓梅 ,于戈 . 第二届全国Web信息系统及其应用会议（WISA2005'） . 2005
7. 基于频繁模式的消息文本聚类研究 [A] . 胡吉祥 . 2006

基于频繁模式挖掘的不良消息文本检测方法研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅