首页> 中文学位 >基于LDA概率模型的科技文献主题演化挖掘技术研究
【6h】

基于LDA概率模型的科技文献主题演化挖掘技术研究

代理获取

目录

声明

致谢

摘要

引言

1 面向科技文献的主题演化挖掘概述

1.1 数字图书馆中的知识服务

1.2 国内外主题演化相关领域研究调研

1.2.1 信息检索领域:主题演化挖掘

1.2.2 科学计量学领域:科学地图与知识可视化

1.3 本文研究中的主题演化挖掘相关概念辨析

2 文本挖掘中的概率建模与主题模型

2.1 文本挖掘中的概率建模方法

2.1.1 基于MLE(最大似然)的概率模型方法

2.1.2 基于MAP(最大后验概率)的概率模型

2.1.3 基于Bayesian Network(贝叶鞭网络)的概率模型

2.2 PLSA概率主题模型

2.2.1 PLSA概率主题模型原理

2.2.2 基于EM算法的PLSA模型求解

2.2.3 PLSA模型分析

2.3 LDA 概率主题模型

2.3.1 LDA概率主题模型原理

2.3.2 基于MCMC方法的LDA模型求解

2.3.3 LDA模型分析

2.4 基于LDA概率主题模型的演化分析技术

2.4.1 概率主题强度演化分析

2.4.2 概率主题内容演化分析

2.4.3 典型LDA演化分析模型的比较分析

3 基于RRMF的相关科技文献推荐(相似度计算)模型与实证分析

3.1 科技文献的特点分析

3.2 科技文献中的相关文献关系建模

3.3 关系正则化子空间的构建

3.4 缺失链接数据的正则化空间推荐

3.5 实验设计与评估

3.5.1 数据集及其评估准则

3.5.2 非链接缺失情况实证分析

3.5.3 链接缺失情况实证分析

4 基于RRMF平滑关联的LDA主题挖掘模型与实证分析

4.1 科技主题演化的相关定义与分析

4.1.1 科技主题“动态性”的定义与分析

4.1.2 科技主题“演化”的定义与分析

4.2 基于RRMF平滑关联的LDA主题挖掘模型

4.3 实验设计与实证研究

4.3.1 实验数据处理

4.3.2 强度演化实证分析

4.3.3 内容演化实证分析

结论

参考文献

作者简介

学位论文数据集

展开▼

摘要

如何在海量科技文献环境下提供有效的知识服务,已经受到了国内外学者与企业界的高度关注与重视。为此,作为持有海量文献资源的数字图书馆,正在逐步发展为一个全球化的知识引擎,以提供各种基于科技文献的知识服务。其中为实现各种服务,解决“如何在海量信息环境下抓住科技发展的脉络,把握研究热点”便是一个核心和关键问题。由此,本文针对该问题研究了基于LDA概率模型的主题演化挖掘技术。文章总体的研究思路以科技文献中“主题”的建模为切入点,在此基础上研究如何实现对海量科技文献的动态“主题”自动发现及其在时间序列上的“演化”关联问题,以期实现揭示科学研究主题的演进过程与脉络目的。
   具体上,本文首先较为系统的分析了文本挖掘领域中的概率建模方法。然后,分别介绍了其中典型的PLSA与LDA主题模型,同时给出了基于LDA主题模型的演化挖掘建模典型思路。在此基础上,针对科技文献相比于其他文本数据所表现出的复杂引文关系,提出了一种基于RRMF矩阵分解的关系正则化子空间推荐算法,特别在算法中考虑到了如何把网络外的孤立数据纳入网络中进行推荐的问题,并且在CiteSeer数据集上证实了算法的良好性能。进一步,为了解决应用非概率依赖先离散化主题挖掘建模中的主题平滑问题,本文在第3章已验证的模型基础上,进一步提出了基于RRMF平滑关联的主题挖掘模型。在抽取的ArnetMiner数据集中,进行了2001年至2010年数据挖掘相关领域的主题演化实证分析,并且给出了与基于原始LDA演化模型的路径对比的案例讨论,验证了本文方法的有效性。最后,对全文工作进行了总结并提出了不足和未来改进之处。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号