首页> 中文学位 >基于子主题增强的演化式多文档摘要生成方法研究
【6h】

基于子主题增强的演化式多文档摘要生成方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究内容

1.4 论文的组织结构

第二章 相关技术综述

2.1 文本摘要技术简介

2.1.1 静态文本摘要

2.1.2 动态文本摘要

2.2 图排序模型

2.2.1 HITS

2.2.2 PageRank

2.2.3 TextRank

2.3 概率主题模型

2.3.1 PLSA模型

2.3.2 LDA模型

2.3.3 HDP模型

2.4 自动摘要评价方法

2.4.1 内部评价

2.4.2 外部评价

2.5 本章小结

第三章 基于子主题增强的演化式多文档摘要生成方法

3.1 基于子主题增强的演化式多文档摘要生成方法

3.1.1 方法概述

3.1.2 基于HDP的子主题生成

3.1.3 基于子主题增强的演化式摘要生成

3.2 实验及结果分析

3.2.1 实验数据集及评价标准

3.2.2 实验结果及分析

3.2.3 实验效果举例

3.3 本章小结

第四章 演化式多文档摘要系统的设计与实现

4.1 系统的整体结构框架

4.2 系统模块设计与实现

4.2.1 新闻在线获取模块

4.2.2 文本预处理模块

4.2.3 子主题生成模块

4.2.4 演化式摘要生成模块

4.3 系统演示

4.4 本章小结

5.1 论文总结

5.2 工作展望

参考文献

攻读硕士期间参加的科研项目与取得的科研成果

致谢

展开▼

摘要

互联网的快速发展使人们的生活发生了巨大的变化,我们的生活被各种信息充斥着。各种媒体信息如文本、图像、音频、视频等每天都在大量地增加,而且随着时间的演化,相关的媒体信息也在不断地演化和更新。用户想要高效完整地获取自己感兴趣的信息,这无疑成为一大难题。因此,文本摘要就顺势而生了,它也是自然语言处理领域的热点研究课题。
  文本摘要可分为传统的静态文摘和考虑时序维度的动态文摘。传统的静态文本摘要只是针对于同一主题下同一时间段的媒体信息来生成摘要,但随着媒体信息的不断发展演化,信息具有明显的动态演化性。此时静态文摘并不能解决广大民众的需求,于是就出现了动态演化式文摘。动态演化式文摘是在静态文摘的基础之上引入了时间维度,它是针对同主题下不同发展阶段的媒体信息来生成摘要的,它不仅需要考虑摘要的主题相关性和冗余性,而且还要将文摘内容的连贯性和新颖性考虑在内,从而使得对应主题的文摘根据时间的变化而动态演化。
  本文提出了一种新的基于子主题增强的演化式多文档摘要方法,该方法不仅能考虑句子与句子之间的关系,还主动引入了每个时间段内的子主题对句子的影响,使得与重要子主题越相关的句子得分越高,通过句子与子主题的互强化来对句子进行主题层面的综合打分排序。在理论上此方法是可行的,其可行性在公开数据集Timelines17上得到了有效验证。
  在本文提出的方法之上,我们实现了一个演化式多文档摘要系统。该系统可以在新浪新闻首页在线获取用户所感兴趣的新闻,并且为每个新闻生成演化式的摘要,用户可通过查阅文章的摘要来了解新闻的动态演化过程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号