首页> 中文学位 >一种改进的概率潜在语义分析下的文本聚类算法研究
【6h】

一种改进的概率潜在语义分析下的文本聚类算法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 文本聚类分析概述

1.2 潜在语义分析概述

1.3 概率潜在语义分析简介

1.4 论文的研究内容与结构安排

2 文本聚类技术与潜在语义分析

2.1 文本聚类的关键技术

2.2 潜在语义分析

2.3 小结

3 基于概率潜在语义分析的文本聚类算法

3.1 LSA模型优缺点总结和PLSA模型的产生

3.2 概率潜在语义分析

3.3 概率潜在语义分析算法下的文本聚类

3.4 概率潜在语义分析的算法优势

3.5 PLSA模型参数更新的改进

3.6 小结

4 使用LSA初始化PLSA模型参数的文本聚类

4.1 引言

4.2 PLSA模型中EM算法的不足与当前方法的改进

4.3 使用LSA方法初始化PLSA模型参数

4.4 使用LSA初始化参数后的PLSA文本聚类主要步骤

4.5 小结

5 实验结果与分析

5.1 引言

5.2 实验主要流程

5.3 实验及效果评价分析

5.4 实验结果

5.5 小结

6 结 语

6.1 总结

6.2 进一步的研究拟开展的方向

致谢

参考文献

附 录

展开▼

摘要

自上世纪90年代,受互联网技术和数据库技术迅猛发展的影响,如何从海量的、以文本形式存在的数据中快捷地挖掘出所需信息业已成为当前理论研究的热点和难点。作为文本挖掘的重要分支,文本聚类技术对于互联网舆情监管、信息获取、信息过滤等信息安全领域的研究意义非凡。
  现行文本聚类算法多是基于“词袋”模型,其“要表达的”语义意义与“被阐述的”词法之间不满足非双射关系。PLSA模型是LSA模型的概率版演化,借助于坚实的数理基础成功解决了上述问题。但是,由于使用EM算法做最大似然估计,PLSA模型有时会出现过度拟合的现象;另外,PLSA模型参数的随机初始化也造成了处理效果上的波动。
  为弥补PLSA模型的上述两个不足,本文首先对EM算法进行改进来处理PLSA的过度拟合问题;然后通过LSA模型参数概率化来初始PLSA模型的参数;最后,将改进后的模型运用到文本聚类上。在此过程中,主要工作研究如下:
  ①对当前流行的聚类技术,尤其是向量空间模型,做了深入的研究。在分析当前聚类算法不足后,提出使用潜藏概念进行语义挖掘对信息处理研究的重要意义。
  ②结合“词袋”模型,在对LSA模型简要介绍后,本文使用实例详细分析了LSA模型是如何使用SVD分解来完成潜藏语义信息的挖掘的,然后对LSA模型的优点和不足做了总结。
  ③针对PLSA模型的过度拟合问题,对LSA模型和PLSA模型在算法基础上进行了比较,依据算法原理通过对EM算法的改进来克服PLSA模型的过度拟合问题。
  ④针对PLSA模型参数随机初始化的不足,文中使用LSA模型对PLSA模型进行了改进。首先详细分析了LSA模型与PLSA模型的关系和区别,然后对LSA模型的参数进行概率化处理,最后将处理的结果用以初始化PLSA的模型,从而弥补由随机初始化引起的不足。
  最后,将改进后PLSA模型应用文本聚类上,经实验求证后发现新算法更加真实的逼近真实语境,与经典的PLSA模型相比照,本文提出的技术加速了实验过程,并且在聚类准确度和互信息这两个聚类效果评价指标上都有所提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号