基于约束主成份分析的文档聚类算法

摘要

在高维情形下,数据之间的差异往往被高维空间中的噪声所掩盖,从而近似于平均分布,因此常用聚类算法往往效果不佳。为了对高维数据进行有效聚类,通常先对数据进行维数约简处理,然后在低维空间中进行聚类。主成分分析是常用的维数约简方法,但其易丢失部分对聚类具有贡献的成份。为了在降维时能够保留对聚类具有贡献的成份,本文提出了维数约简和聚类同时进行的方法,此问题的求解可表示为约束优化问题,称之为基于约束主成份分析的聚类。进一步,应用矩阵变换理论给出问题的解析解,并给出了相应的迭代算法。在Reuter21578、20Newsgroups和WebKB文档集上的实验结果表明,本文方法与K均值聚类,非负矩阵分解聚类和谱聚类相比具有较好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号