首页> 中文学位 >基于多核技术的搜索结果聚类算法研究
【6h】

基于多核技术的搜索结果聚类算法研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 研究背景

1.2 国内外研究现状及水平

1.2.1 聚类分析技术

1.2.2 网络聚类引擎

1.3 本文的研究内容与意义

1.4 本文的组织结构

1.5 本章小结

第二章 相关技术基础

2.1 网络聚类引擎框架

2.1.1 获取搜索结果

2.1.2 输入预处理

2.1.3 聚类和标签化

2.1.4 可视化

2.2 Carrot2简介

2.2.1 Carrot2框架的结构

2.2.2 Carrot2的优点

2.3 向量空间模型

2.3.1 向量空间模型的定义

2.3.2 tf-idf权值

2.3.3 向量空间模型的不足

2.4 潜在语义索引技术

2.5 奇异值分解

2.6 多核多线程技术

2.6.1 多核处理器

2.6.2 多线程技术

2.6.3 多线程并行程序设计

2.7 BLAS与ATLAS

2.8 本章小结

第三章 Lingo算法的改进

3.1 引言

3.2 Lingo算法的原理

3.2.1 Lingo算法流程

3.2.2 算法代码

3.2.3 算法实例

3.3 改进Lingo算法的簇分值计算

3.4 实验与分析

3.4.1 实验配置

3.4.2 评价指标

3.4.3 实验结果与分析

3.5 本章小结

第四章 基于多核技术的Lingo改进算法

4.1 引言

4.2 并行化建立矩阵操作

4.2.1 建立矩阵的过程

4.2.2 并行化设计

4.3 优化向量相乘

4.3.1 向量乘法

4.3.2 优化的设计

4.4 多核Lingo改进算法实现

4.4.1 建立矩阵行向量的线程

4.4.2 计算簇分值的线程

4.4.3 线程池

4.5 实验与分析

4.5.1 实验配置

4.5.2 加速比性能定律

4.5.3 实验结果与分析

4.6 本章小结

第五章 总结与展望

5.1 本文的主要工作与贡献

5.2 进一步的研究工作

参考文献

致谢

攻读硕士学位期间参加的科研项目

攻读硕士学位期间发表/录用的学术论文

展开▼

摘要

网络聚类引擎将聚类技术融入到搜索引擎中,对搜索结果进行聚类,以主题簇的形式返回给用户,用户只需在少量的主题簇中筛选出感兴趣的主题,继而再深入查看内容是否有价值,这样可以极大地减轻用户的查找任务,是当前搜索引擎的研究热点。影响网络聚类引擎的用户体验有两点:一、是主题簇的最终显示方式,二、是响应用户请求的效率。本文对上述问题进行了研究,具体包括:
   (1)网络聚类引擎呈现主题簇的形式主要是文件夹树或其他的图形视图。只有客观地评价一个簇的重要性,才能使簇的排列合乎用户的期望。基于Lingo算法,提出了一种改进计算簇分值的方法,不仅考虑簇标签的分值和簇内文档的数量,还利用文档在搜索结果中的原有排名和在簇中的分值。实验结果表明,改进后的簇分值可以客观反映簇的相关性和权威性。
   (2)聚类算法是比较耗时的过程,需要提高算法的效率以满足用户对在线聚类的时间容忍度。随着多核处理器的快速发展和广为使用,针对Lingo算法的时间效率问题,在提出的Lingo改进算法的基础上,运用多线程技术,使用并行程序设计来实现其并行化,以利用多核的资源优势,从而提高改进算法的性能。实验表明所设计的并行Lingo算法有较好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号