首页> 中文学位 >基于频繁模式挖掘的不良消息文本检测方法研究与实现
【6h】

基于频繁模式挖掘的不良消息文本检测方法研究与实现

代理获取

目录

摘要

第一章 绪论

1.1 课题背景与意义

1.1.1 研究现状

1.1.2 课题的实际意义

1.1.3 课题的理论意义

1.2 论文主要工作

1.3 论文组织结构

第二章 不良消息文本检测的相关技术

2.1 消息文本概述

2.2 不良文本检测方法概述

2.3 消息文本中的频繁模式概述

2.3.1 关联规则中频繁模式基本概念

2.3.2 频繁项集挖掘经典算法介绍

2.4 文本分类概述

2.4.1 基于统计学习的文本分类

2.4.2 特征选择和计算

2.4.3 分类计算

第三章 基于频繁模式挖掘的不良消息文本检测方法设计

3.1 设计目标

3.2 总体设计思路

3.3 不良消息文本预处理

3.3.1 中国科学院计算技术研究所汉语词法分析系统

3.3.2 不良消息文本预处理策略研究

3.3.3 不良消息文本预处理中词性和命名实体的处理规则

3.3.4 不良消息文本预处理算法流程

3.4 不良消息文本频繁模式挖掘

3.4.1 消息文本频繁模式的基本概念

3.4.2 不良消息文本频繁模式提取研究

3.4.3 不良消息文本频繁项词集发现

3.4.4 不良消息文本频繁字符串模式提取

3.4.5 不良消息文本模式提取算法

3.5 不良消息文本分类检测

3.5.1 词语相似度计算

3.5.2 基于《同义词词林》词语相似度计算

3.5.3 消息文本与频繁模式字符串之间子串判断

3.5.4 消息文本与频繁模式字符串相似度计算

第四章 基于频繁模式挖掘的不良消息文本检测方法实现

4.1 实验开发和运行环境

4.2 不良消息文本检测方法流程图

4.2.1 不良消息文本预处理流程

4.2.2 不良消息文本频繁模式提取流程

4.2.3 不良消息文本分类流程

4.3 方法中关键数据结构

4.4 实验对比与分析

第五章 总结与展望

参考文献

致谢

声明

展开▼

摘要

随着微博,像新浪微博,腾讯微博等,即时通讯像QQ,MSN等,论坛BBS这一类平台的出现,使得如今的互联网中的消息文本越来越常见。这些消息文本在为我们带来了便利同时,却也带来了问题:不良消息文本。显然我们希望能够屏蔽这些不良消息文本,净化互联网环境。为了屏蔽它们首先需要分辨出那些消息文本是不良消息文本,这就涉及到不良消息文本的分类问题。如今基于统计学习的机器分类技术已经很成熟,但是由于消息文本的特征,使得已有的那些分类方法对消息文本进行分类时效果很差。所以这就给不良消息文本进行分类带来了新的挑战,而且随着消息文本在互联网中的大量增长,解决这个问题也越来越紧迫。
  本文通过研究调查,设计了基于频繁模式挖掘的不良消息文本检测方法,提高了对不良消息文本的分类检测性能。为了设计出适合消息文本的分类方法,本文首先研究了消息文本的特征。然后介绍了一些典型的分类方法和应用。接着介绍了频繁模式的概念以及在消息文本的应用。最后在总结各个方面的研究结果后,提出了基于频繁模式挖掘的不良消息文本检测方法。
  本文设计的方法主要包含两个过程,训练过程和分类过程。其中训练过程是指对不良消息文本训练集进行训练过程,提取不良消息文本(比如暴力消息文本)的频繁模式。在训练过程中,方法首先对不良消息文本进行预处理,接着进行频繁词项的提取,最后完成频繁字符串的发现,即频繁模式的提取。在分类检测过程中利用已经提取好的不良消息文本频繁模式,对新的消息文本进行分类,检测消息文本是否属于该不良消息文本的范畴。这其中包括消息文本预处理,消息文本与不良消息文本频繁模式子串判断和相似度计算这几个步骤。经过试验验证,我们可以发现该方法在不良消息文本分类的效果上与其它分类方法相比,有很好的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号