首页> 中文学位 >基于改进TCD图像检索和分类的钓鱼检测模型的研究
【6h】

基于改进TCD图像检索和分类的钓鱼检测模型的研究

代理获取

目录

声明

致谢

1绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 钓鱼网站检测

1.2.2 图像分类检索技术

1.2.3 网页分块算法

1.3 本文主要内容

1.4 本文组织结构

2相关技术

2.1 基元相关性描述子

2.2 网页DOM树

2.3 概率潜在语义分析

2.4 MapReduce简介

2.5 本章小结

3基于改进TCD特征空间转换的钓鱼网站检测算法

3.1 基本思想

3.2.1 改进的纹理特征提取方法

3.2.2 改进的邻域选择方法

3.2.3 双窗口相关性统计

3.3 特征计算复杂化及钓鱼检测设计

3.4 算法设计与实验分析

3.4.1 实验参数确定

3.4.2 改进TCD算子检索性能

3.4.3 钓鱼检测实验分析

3.5 本章小结

4基于结构化文档模型的钓鱼网站检测算法

4.1 基本思想

4.2 基于MABC的网页视觉分块

4.2.1 网页节点间关系

4.2.2 网页节点标签分析

4.2.3 节点的构造与归并

4.3.1 基于DOM分层结构的结构化文档

4.3.2 相关网站集

4.3.3 钓鱼网站检测设计

4.4.1 实验说明

4.4.2 实验数据集

4.4.3 综合相似度阈值确定

4.4.4 不同算法对比实验

4.5 本章小结

5基于改进TCD图像检索和分类的钓鱼检测模型

5.1 基本思想

5.2 基于改进 TCD 图像检索和分类的钓鱼检测模型

5.2.1 基于视觉分层的TCD算子

5.2.2 TCD-BOW

5.2.3 TCD-PLSA

5.2.4 图像检索与特征计算

5.3 钓鱼检测模型总体设计

5.3.1 钓鱼检测模型

5.3.2 视觉分块并行化设计

5.3.3 视觉分层TCD算子的并行化设计

5.3.4 TCD-PLSA的并行化设计

5.4.1 实验环境

5.4.2 实验数据集

5.4.3 参数确定

5.4.4 算法对比与分析

5.5 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

钓鱼网站检测已经形成钓鱼攻击和钓鱼检测相互博弈的局面。钓鱼检测的方向和技术因为钓鱼攻击技术的不断升级,需要寻求新的角度。在特征计算方面,钓鱼网站检测方法计算钓鱼网站与单一疑似目标网页的相似性,这一特点导致判断钓鱼网站的条件过于简单;在网页特征提取方面,钓鱼网站的检测不仅缺乏对网页和网页特征之间独立性的保证,而且特征提取也只是以网页本身为主。这两方面都造成钓鱼检测技术易于被反检测,从而降低了检测的效率和准确率。因此从基于人类视觉行为降低网页和网页特征的相关度的角度和从复杂化特征计算的角度,针对反检测展开对钓鱼网站检测的研究,主要内容如下: (1)提出基于改进TCD特征空间转换的钓鱼网站检测算法。对能够表达网页外部特征的基元相关性算子(Texton Correlation Descriptor,TCD)进行改进,使其更能契合钓鱼检测对特征的要求。首先改进基元相关性算子中底层纹理特征提取方法;其次提出结合基于位置加权的欧式距离和双十字窗口选择邻域的方法,改进特征相关性统计;然后基于空间关系将图像化网页的集合,映射到新的特征空间中,分离网页和网页特征之间的相关度从而达到反检测目的;最后利用大量图像化网页之间的相似关系进一步改进TCD算子。实验表明,将改进的TCD算子应用到钓鱼网站识别中,具有令人满意的稳定性和精确度。 (2)提出基于结构化文档模型的钓鱼网站检测算法。利用人类的视觉行为,网页内部代码特征与网页布局的关系,提出基于网页的主视觉区域的结构化文档DMVA(Document Based on Main Visual Area)模型检测钓鱼网站。首先提出子间归并算法(Merge Algorithm Between Child Nodes,MABC)生成网页的视觉分块和分层DOM树;其次结合用户的视觉行为和分层DOM树的分层结构,提取网页的主视觉区域;然后获取网页的分层主视觉区域中的文本信息,进而构造网页的DMVA对网页重构,降低网页和网页特征的相关度;最后提出相关网站集,计算待测网站DMVA和相关网站集中网页的DMVA的相似性,检测钓鱼网站。实验证明,基于DMVA模型的钓鱼网站检测算法具有较好检测准确度。 (3)提出基于改进TCD图像检索和分类的钓鱼检测模型。结合TCD算子表达网页外部特征的优势和DMVA文档包含网页内部特征的优势,首先将网页图像化;其次基于DMVA模型构造包含视觉信息的视觉分层TCD算子;然后构造TCD-PLSA四层概率潜在语义模型对网页分类;最终在相应分类中通过网页检索和特征转换,计算网页之间的相似性,判断待检测网站是否是钓鱼网站。TCD-PLSA模型的离线训练部分涉及的数据规模大,采用MapReduce对其进行并行化设计。实验证明基于改进TCD图像检索与分类的钓鱼检测模型具有良好的稳定性和钓鱼检测准确度。

著录项

  • 作者

    刘博文;

  • 作者单位

    中国矿业大学;

    中国矿业大学(江苏);

  • 授予单位 中国矿业大学;中国矿业大学(江苏);
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 林果园;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 自动化技术及设备;
  • 关键词

    改进; TCD; 图像检索; 分类; 钓鱼;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号