文本自动摘要和信息抽取方法及其应用研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着文本数据特别是网页信息的持续激增,如何快速、自动地抽取海量文本中蕴含的主要或重要信息,已成为人们关心的一个热点研究问题,由此刺激了面向文本的信息抽取技术的迅速发展。文本摘要技术能够抽取文本的篇章结构及主要信息,自动生成单篇文档或多篇文档的摘要,可以看成是信息抽取技术的一种。而通常意义上的信息抽取技术则主要是抽取文本中蕴含的用户所需的特定重要信息。
　　本文面向循证医学(EBM)网页并结合其它类型的训练文本,重点研究文本的自动摘要和信息抽取方法,主要针对信息抽取结果不理想、主题划分不明确、段落聚类算法对初始值敏感、聚类数目需要人工设定等问题,提出一系列新颖的研究方法和模型。
　　 (1)提出一种段落特征与隐马尔可夫模型相结合的信息抽取方法。该方法与其它信息抽取方法的不同之处在于以段落而不是单词为研究对象。网页上的信息经过预处理以后,以段落为单位,保存成文本序列,每一个段落要转换成特定的字符串,这些字符串做为隐马尔可夫模型中的可观察变量。实验表明,无论是准确率还是召回率,以段落为观察序列的信息抽取结果都要优于以单词为观察序列的信息抽取结果。
　　 (2)对文档进行主题划分,为摘要的生成做准备。主题划分的过程是将文本中的段落表示成向量空间模型,利用互信息计算连续段落的关联程度,将关联程度较弱的段落作为划分的边界。考虑到算法中人工定义参数会对划分结果造成一定程度的不利影响,所以本文采用遗传算法对主题划分过程中出现的参数阈值进行优化。实验表明,互信息与遗传算法相结合的主题划分方法在准确率上取得了较好的结果。
　　 (3)对单词-文档谱聚类方法的基本步骤进行分析,找出其对初始值敏感的根本原因,提出一种基于模糊K-调和均值的单词.文档谱聚类方法。该方法包括两个方面,一是从矩阵相似的角度对谱聚类中的Laplacian矩阵进行处理,使其满足对初始值不敏感的条件。二是通过加入模糊的概念,用模糊K-调和均值算法代替K-均值算法,使聚类结果对初始值不敏感。实验表明,基于模糊K-调和均值的单词-文档谱聚类方法不仅使聚类结果对初始值不敏感,而且在一定程度上改进了数据的聚类结果。
　　 (4)利用形态学的方法确定聚类数目,并对单词-文档谱聚类方法进行改进。确定聚类数目主要分三个步骤,第一步将单词-文档谱聚类方法中产生的矩阵转换成VAT灰度图,第二步利用灰度形态学、图像二值化、距离转换等图像处理技术对VAT灰度图进行过滤,第三步对过滤后的。VAT灰度图建立信号图,并进行平滑处理,通过平滑后的信号图的波峰波谷数目确定文档集的聚类数目。实验表明,该方法能够提高单词-文档谱聚类方法的聚类效果。
　　 (5)在LDA.主题模型的基础上,提出了基于主题融合的多文档自动摘要算法Titled-LDA。考虑到文档的标题信息对摘要形成有很强的指示作用,因此为每篇文档分别建立标题和正文的主题模型,并对两个模型进行融合。融合过程中,根据两种形态的信息熵,进行自适应不对称学习,从而对不同形态的主题分布进行加权处理,融合后的模型适当地关联了标题和正文的信息,因此有助于摘要质量的提高。实验表明,Titled-LDA方法在DUC标准数据集上取得了较好的效果。

著录项

作者
刘娜;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科计算机应用技术
授予学位博士
导师姓名鲁明羽;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.56;
关键词
文本数据; 自动摘要; 主题划分; 信息抽取方法; 隐马尔可夫模型;

相似文献

中文文献
外文文献
专利

1. 基于文本事件网络自动摘要的抽取方法 [J] . 杨竣辉 ,刘宗田 ,刘炜 . 计算机科学 . 2015,第003期
2. 基于改进的MMR算法的新闻文本抽取式摘要方法 [J] . 程琨 ,李传艺 ,贾欣欣 . 应用科学学报 . 2021,第003期
3. 一种基于混合神经网络的抽取式文本摘要方法 [J] . 林晶 . 怀化学院学报 . 2017,第005期
4. 文本摘要问题中的句子抽取方法研究 [J] . 张龙凯 ,王厚峰 . 中文信息学报 . 2012,第002期
5. 抽取式文本摘要新闻文本分类 [J] . 张丽杰 ,张甜甜 ,周威威 . 长春工业大学学报（自然科学版） . 2021,第006期
6. 文本摘要中的句子抽取方法研究 [C] . Zhang Longkai ,张龙凯 ,Wang Houfeng . 第十一届全国计算语言学学术会议 . 2011
7. 基于优化选择的抽取式自动文本摘要研究 [A] . 程艳芳 . 2020

文本自动摘要和信息抽取方法及其应用研究

摘要

著录项

相似文献

相关主题

期刊订阅