一种改进的概率潜在语义分析下的文本聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自上世纪90年代，受互联网技术和数据库技术迅猛发展的影响，如何从海量的、以文本形式存在的数据中快捷地挖掘出所需信息业已成为当前理论研究的热点和难点。作为文本挖掘的重要分支，文本聚类技术对于互联网舆情监管、信息获取、信息过滤等信息安全领域的研究意义非凡。
　　现行文本聚类算法多是基于“词袋”模型，其“要表达的”语义意义与“被阐述的”词法之间不满足非双射关系。PLSA模型是LSA模型的概率版演化，借助于坚实的数理基础成功解决了上述问题。但是，由于使用EM算法做最大似然估计，PLSA模型有时会出现过度拟合的现象；另外，PLSA模型参数的随机初始化也造成了处理效果上的波动。
　　为弥补PLSA模型的上述两个不足，本文首先对EM算法进行改进来处理PLSA的过度拟合问题；然后通过LSA模型参数概率化来初始PLSA模型的参数；最后，将改进后的模型运用到文本聚类上。在此过程中，主要工作研究如下：
　　①对当前流行的聚类技术，尤其是向量空间模型，做了深入的研究。在分析当前聚类算法不足后，提出使用潜藏概念进行语义挖掘对信息处理研究的重要意义。
　　②结合“词袋”模型，在对LSA模型简要介绍后，本文使用实例详细分析了LSA模型是如何使用SVD分解来完成潜藏语义信息的挖掘的，然后对LSA模型的优点和不足做了总结。
　　③针对PLSA模型的过度拟合问题，对LSA模型和PLSA模型在算法基础上进行了比较，依据算法原理通过对EM算法的改进来克服PLSA模型的过度拟合问题。
　　④针对PLSA模型参数随机初始化的不足，文中使用LSA模型对PLSA模型进行了改进。首先详细分析了LSA模型与PLSA模型的关系和区别，然后对LSA模型的参数进行概率化处理，最后将处理的结果用以初始化PLSA的模型，从而弥补由随机初始化引起的不足。
　　最后，将改进后PLSA模型应用文本聚类上，经实验求证后发现新算法更加真实的逼近真实语境，与经典的PLSA模型相比照，本文提出的技术加速了实验过程，并且在聚类准确度和互信息这两个聚类效果评价指标上都有所提升。

著录项

作者
朱俊;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名张玉芳;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本聚类算法; 语义分析; PLSA模型; EM算法; 信息处理;

相似文献

中文文献
外文文献
专利

1. 改进的概率潜在语义分析下的文本聚类算法 [J] . 张玉芳 ,朱俊 ,熊忠阳 . 计算机应用 . 2011,第003期
2. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉1 ,武斌1 . 兰州文理学院学报：自然科学版 . 2019,第004期
3. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉 ,武斌 . 甘肃联合大学学报（自然科学版） . 2019,第004期
4. 基于改进粒子群优化的文本聚类算法研究 [J] . 王永贵 ,林琳 ,刘宪国 . 计算机工程 . 2014,第011期
5. 改进性的文本聚类算法研究 [J] . 赵鸣 ,吴磊 . 长江大学学报（自然版）理工卷 . 2009,第002期
6. 一种改进的海上BDS/GPS/Galileo组合定位算法研究 [C] . Weiyi SHUAI ,帅玮祎 ,Xurong DONG . 第九届中国卫星导航学术年会 . 2018
7. 基于密度的改进K-Means文本聚类算法研究 [A] . 贾永娟 . 2014

一种改进的概率潜在语义分析下的文本聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅