首页> 中文学位 >基于名词短语提取与词条权重分析的话题提取算法研究
【6h】

基于名词短语提取与词条权重分析的话题提取算法研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 文本特征的研究现状

1.2.2 话题模型的研究现状

1.3 本文的研究工作和内容安排

1.4 本文的创新点

2 概率话题模型综述

2.1 基本概念

2.2 一元模型与一元混合模型

2.3 概率潜在语义分析

2.4 潜在狄利克雷分配模型

2.5 关联话题模型

2.6 动态话题模型

2.7 实验及结果分析

2.8 本章小结

3 引入名词短语的话题提取算法

3.1 名词短语提取的流程

3.2 词性标注

3.2.1 基于规则的词性标注方法

3.2.2 基于转换的错误驱动学习方法

3.2.3 基于统计的词性标注方法

3.2.4 基于规则和统计相结合的词性标注方法

3.3 句子语法结构分析

3.3.1 基于上下文无关文法(CFG)规则的分析方法

3.3.2 基于概率上下文无关文法(FCFG)规则的分析方法

3.4 实验及结果分析

3.4.1 实验设计

3.4.2 实验结果及分析

3.5 本章小结

4 基于词条权重的话题提取算法

4.1 基于评估函数的词条权重计算方法

4.2 基于语义网络的词条权重计算方法

4.2.1 基于网络连通性和聚集性的词条权重计算方法

4.2.2 基于概率转移的权重计算方法

4.3 实验结果及分析

4.4 本章小结

5 实验及结果分析

5.1 实验语料库

5.2 实验设计

5.3 实验结果及分析

5.3.1 话题呈现

5.3.2 话题模型性能分析

5.4 话题强度计算

5.4.1 基于话题支持文档数量进行话题强度计算

5.4.2 基于语料库中话题概率的话题强度计算

5.4.3 基于文本话题显著性的话题强度计算

5.5 本章小结

6 总结与展望

6.1 论文工作总结

6.2 未来工作展望

参考文献

攻读学位期间的研究成果

致谢

展开▼

摘要

近年来,随着互联网规模的不断增长,网络已经成为人们获取信息的主要渠道,然而,在信息爆炸的同时,也使人们在获取信息的时候变得更加无所适从。信息疲劳、信息焦虑与信息过剩成为我们在信息时代遇到的新的问题。如何有效的搜索、组织和呈现信息已经成为信息时代的一个亟待解决的问题。话题模型作为一种有效整合信息的手段,成为近年来自然语言处理领域的热点。
  本文主要针对概率话题模型,将名词短语提取和词条权重计算引入话题模型,以期望能够提高话题模型对语料库的拟合程度和泛化能力。
  首先,将名词短语提取引入了话题模型。通过词性标注、句法结构分析,提取文本中最短的名词短语。将文本中的名词短语视作一个整体进行分析,从而保证了名词短语中的单词由一个话题生成,即保证了语义相近的单词由同一个话题生成。
  其次,针对现实文本中噪声较大的问题,提出了一种基于语义网络的短语权重计算方法。通过构建文本的语义网络,借鉴马尔科夫随机游走的思想,计算节点到节点的转移概率。通过动态的去除节点的方法,计算网络中节点之间转移概率的变化,得出该节点在网络中的权重,即对应词条在文本中的权重。将加权后的文本作为话题模型的输入,能够有效提高话题模型的性能。
  最后,将名词短语提取与词条权重计算进行整合,先进行名词短语提取,然后计算文本中的词条权重,将处理后的文本输入话题模型,从而得到有意义的话题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号