基于LDA概率模型的科技文献主题演化挖掘技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

如何在海量科技文献环境下提供有效的知识服务，已经受到了国内外学者与企业界的高度关注与重视。为此，作为持有海量文献资源的数字图书馆，正在逐步发展为一个全球化的知识引擎，以提供各种基于科技文献的知识服务。其中为实现各种服务，解决“如何在海量信息环境下抓住科技发展的脉络，把握研究热点”便是一个核心和关键问题。由此，本文针对该问题研究了基于LDA概率模型的主题演化挖掘技术。文章总体的研究思路以科技文献中“主题”的建模为切入点，在此基础上研究如何实现对海量科技文献的动态“主题”自动发现及其在时间序列上的“演化”关联问题，以期实现揭示科学研究主题的演进过程与脉络目的。
　　具体上，本文首先较为系统的分析了文本挖掘领域中的概率建模方法。然后，分别介绍了其中典型的PLSA与LDA主题模型，同时给出了基于LDA主题模型的演化挖掘建模典型思路。在此基础上，针对科技文献相比于其他文本数据所表现出的复杂引文关系，提出了一种基于RRMF矩阵分解的关系正则化子空间推荐算法，特别在算法中考虑到了如何把网络外的孤立数据纳入网络中进行推荐的问题，并且在CiteSeer数据集上证实了算法的良好性能。进一步，为了解决应用非概率依赖先离散化主题挖掘建模中的主题平滑问题，本文在第3章已验证的模型基础上，进一步提出了基于RRMF平滑关联的主题挖掘模型。在抽取的ArnetMiner数据集中，进行了2001年至2010年数据挖掘相关领域的主题演化实证分析，并且给出了与基于原始LDA演化模型的路径对比的案例讨论，验证了本文方法的有效性。最后，对全文工作进行了总结并提出了不足和未来改进之处。

著录项

作者
张晴;
展开▼
作者单位

中国科学技术信息研究所;

展开▼
授予单位中国科学技术信息研究所;
学科情报学
授予学位硕士
导师姓名张志平,王莉;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类情报工作自动化、网络化;情报检索;
关键词
LDA主题模型; 关系正则化矩阵分解; 主题演化; 概率模型; 文本挖掘;

相似文献

中文文献
外文文献
专利

1. 基于LDA主题模型和生命周期理论的科学文献主题挖掘 [J] . 关鹏 ,王曰芬 . 情报学报 . 2015,第003期
2. 基于LDA模型的国内评论挖掘与情感分析领域主题分析与演化趋势 [J] . 徐恒 ,张梦璐 ,孙德厂 . 河南工业大学学报（社会科学版） . 2021,第002期
3. 基于LDA的国内外区块链主题挖掘与演化分析 [J] . 周健 ,张杰 ,屈冉 . 情报杂志 . 2021,第009期
4. 基于LDA的科研项目主题挖掘与演化分析——以NSF海洋酸化研究为例 [J] . 王文娟 ,马建霞 . 情报杂志 . 2017,第007期
5. 一种基于LDA的在线主题演化挖掘模型 [J] . 崔凯 ,周斌 ,贾焰 . 计算机科学 . 2010,第011期
6. 基于LDA的主题演化文本挖掘模型 [C] . 张才东 ,吴清强 . 2011年全国知识组织与知识链接学术交流会 . 2011
7. 面向专题情报服务的英文科技文献深度加工与主题演化研究 [A] . 吴洋 . 2016

基于LDA概率模型的科技文献主题演化挖掘技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅