首页> 中文学位 >文本自动摘要和信息抽取方法及其应用研究
【6h】

文本自动摘要和信息抽取方法及其应用研究

代理获取

摘要

随着文本数据特别是网页信息的持续激增,如何快速、自动地抽取海量文本中蕴含的主要或重要信息,已成为人们关心的一个热点研究问题,由此刺激了面向文本的信息抽取技术的迅速发展。文本摘要技术能够抽取文本的篇章结构及主要信息,自动生成单篇文档或多篇文档的摘要,可以看成是信息抽取技术的一种。而通常意义上的信息抽取技术则主要是抽取文本中蕴含的用户所需的特定重要信息。
   本文面向循证医学(EBM)网页并结合其它类型的训练文本,重点研究文本的自动摘要和信息抽取方法,主要针对信息抽取结果不理想、主题划分不明确、段落聚类算法对初始值敏感、聚类数目需要人工设定等问题,提出一系列新颖的研究方法和模型。
   (1)提出一种段落特征与隐马尔可夫模型相结合的信息抽取方法。该方法与其它信息抽取方法的不同之处在于以段落而不是单词为研究对象。网页上的信息经过预处理以后,以段落为单位,保存成文本序列,每一个段落要转换成特定的字符串,这些字符串做为隐马尔可夫模型中的可观察变量。实验表明,无论是准确率还是召回率,以段落为观察序列的信息抽取结果都要优于以单词为观察序列的信息抽取结果。
   (2)对文档进行主题划分,为摘要的生成做准备。主题划分的过程是将文本中的段落表示成向量空间模型,利用互信息计算连续段落的关联程度,将关联程度较弱的段落作为划分的边界。考虑到算法中人工定义参数会对划分结果造成一定程度的不利影响,所以本文采用遗传算法对主题划分过程中出现的参数阈值进行优化。实验表明,互信息与遗传算法相结合的主题划分方法在准确率上取得了较好的结果。
   (3)对单词-文档谱聚类方法的基本步骤进行分析,找出其对初始值敏感的根本原因,提出一种基于模糊K-调和均值的单词.文档谱聚类方法。该方法包括两个方面,一是从矩阵相似的角度对谱聚类中的Laplacian矩阵进行处理,使其满足对初始值不敏感的条件。二是通过加入模糊的概念,用模糊K-调和均值算法代替K-均值算法,使聚类结果对初始值不敏感。实验表明,基于模糊K-调和均值的单词-文档谱聚类方法不仅使聚类结果对初始值不敏感,而且在一定程度上改进了数据的聚类结果。
   (4)利用形态学的方法确定聚类数目,并对单词-文档谱聚类方法进行改进。确定聚类数目主要分三个步骤,第一步将单词-文档谱聚类方法中产生的矩阵转换成VAT灰度图,第二步利用灰度形态学、图像二值化、距离转换等图像处理技术对VAT灰度图进行过滤,第三步对过滤后的。VAT灰度图建立信号图,并进行平滑处理,通过平滑后的信号图的波峰波谷数目确定文档集的聚类数目。实验表明,该方法能够提高单词-文档谱聚类方法的聚类效果。
   (5)在LDA.主题模型的基础上,提出了基于主题融合的多文档自动摘要算法Titled-LDA。考虑到文档的标题信息对摘要形成有很强的指示作用,因此为每篇文档分别建立标题和正文的主题模型,并对两个模型进行融合。融合过程中,根据两种形态的信息熵,进行自适应不对称学习,从而对不同形态的主题分布进行加权处理,融合后的模型适当地关联了标题和正文的信息,因此有助于摘要质量的提高。实验表明,Titled-LDA方法在DUC标准数据集上取得了较好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号