首页> 中文期刊> 《长沙理工大学学报:自然科学版》 >XML文档聚类中基于语义的特征词权重计算方法

XML文档聚类中基于语义的特征词权重计算方法

         

摘要

在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于"频率因子"和"长度因子"的新权重方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号