基于名词短语提取与词条权重分析的话题提取算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着互联网规模的不断增长，网络已经成为人们获取信息的主要渠道，然而，在信息爆炸的同时，也使人们在获取信息的时候变得更加无所适从。信息疲劳、信息焦虑与信息过剩成为我们在信息时代遇到的新的问题。如何有效的搜索、组织和呈现信息已经成为信息时代的一个亟待解决的问题。话题模型作为一种有效整合信息的手段，成为近年来自然语言处理领域的热点。
　　本文主要针对概率话题模型，将名词短语提取和词条权重计算引入话题模型，以期望能够提高话题模型对语料库的拟合程度和泛化能力。
　　首先，将名词短语提取引入了话题模型。通过词性标注、句法结构分析，提取文本中最短的名词短语。将文本中的名词短语视作一个整体进行分析，从而保证了名词短语中的单词由一个话题生成，即保证了语义相近的单词由同一个话题生成。
　　其次，针对现实文本中噪声较大的问题，提出了一种基于语义网络的短语权重计算方法。通过构建文本的语义网络，借鉴马尔科夫随机游走的思想，计算节点到节点的转移概率。通过动态的去除节点的方法，计算网络中节点之间转移概率的变化，得出该节点在网络中的权重，即对应词条在文本中的权重。将加权后的文本作为话题模型的输入，能够有效提高话题模型的性能。
　　最后，将名词短语提取与词条权重计算进行整合，先进行名词短语提取，然后计算文本中的词条权重，将处理后的文本输入话题模型，从而得到有意义的话题。

著录项

作者
孙孟孟;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科信息与通信工程
授予学位硕士
导师姓名于慧敏;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
话题提取算法; 名词短语提取; 词条权重分析; 马尔科夫随机游走思想;

相似文献

中文文献
外文文献
专利

1. 基于多指标权重分析与正交试验优选中药复方提取条件 [J] . 李春红 . 江西医药 . 2018,第012期
2. 基于超图的汉越双语新闻话题要素提取 [J] . 涂子令 ,周枫 ,余正涛 . 计算机应用研究 . 2017,第008期
3. 微博话题识别中基于动态共词网络的文本特征提取方法 [J] . 商宪丽 ,王学东 . 图书情报知识 . 2016,第003期
4. 基于CRF模型的短文本信息流话题提取 [J] . 王宗尧 ,刘金岭 ,崔俊峰 . 淮阴工学院学报 . 2016,第005期
5. 基于特征词条本体的话题跟踪方法 [C] . 简旭文 ,马静 . 2014科技信息服务智库化学术年会 . 2014
6. 基于WSO-LDA的微博话题“主题+观点”词条抽取算法研究 [A] . 姚兆旭 . 2017

基于名词短语提取与词条权重分析的话题提取算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅