首页> 中文学位 >基于引用聚类的多文档自动文摘技术研究
【6h】

基于引用聚类的多文档自动文摘技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 自动文摘概述

1.3 国内外自动文摘研究现状

1.3.1 国外自动文摘的研究现状

1.3.2 国内自动文摘的研究现状

1.4 本文的组织结构及技术路线

1.4.1 组织结构

1.4.2 技术路线

第2章 自动文摘相关理论与方法

2.1 文摘的分类

2.2 单文档自动文摘的研究方法

2.2.1 基于形式特征的文摘方法

2.2.2 基于自然语言理解的文摘方法

2.2.3 基于信息抽取的文摘方法

2.2.4 基于文本篇章结构的文摘方法

2.3 多文档自动文摘的研究方法

2.4 自动文摘的评价方法

2.4.1 基于准确率和召回率的方法

2.4.2 基于Relative Utility的评价方法

2.4.3 DUC人工评价方法

2.4.4 基于ROUGE的自动评价方法

2.4.5 基于Pyramid的方法

2.4.6 基于Linguistic Quality的方法

2.5 向量空间模型

2.5.1 文本特征向量

2.5.2 基于VSM的文本相似度计算

2.6 本章小结

第3章 基于不同聚类指标的引用聚类

3.1 引言

3.2 相关研究工作

3.2.1 引用推荐相关研究

3.2.2 相似度/距离计算方法相关研究

3.2.3 引用上下文相关研究

3.2.4 共引分析相关研究

3.2.5 文本聚类的相关研究

3.3 文本表示方法

3.3.1 基于内容(摘要)的文本表示

3.3.2 基于引用上下文的文本表示

3.3.3 基于共引关联性的文本表示

3.4 文本相似度计算方法

3.4.1 传统的文本相似度计算方法

3.4.2 基于查询的文本相似度计算方法

3.5 文本聚类指标

3.6 文本聚类算法

3.6.1 常用的文本聚类算法

3.6.2 K-Medoids聚类方法

3.7 文本聚类的评价方法

3.7.1 聚类评价方法

3.7.2 常用的聚类评价指标

3.7.3 本文采用的聚类评价指标

3.7.4 实例分析

3.8 本章小结

第4章 基于查询的多文档自动文摘生成

4.1 引言

4.2 相关研究工作

4.3 句子重要性确定方法

4.3.1 常用的句子重要性确定方法

4.3.2 本文句子重要性确定方法

4.4 多文档文摘生成方法

4.4.1 基于LexRank的文摘生成方法

4.4.2 基于MMR的文摘生成方法

4.4.3 基于LexRankMMR的文摘生成

4.4.4 候选句子集选择方法

4.4.5 文摘长度确定方法

4.4.6 多文档文摘方法分类

4.5 文摘质量评价方法

4.5.1 生成段落与标准段落匹配方法

4.5.2 文摘质量评价方法

4.5.3 文摘质量评价实例

4.6 本章小结

第5章 基于引用聚类的多文档文摘生成实验

5.1 引用聚类实验

5.1.1 候选引用数据集

5.1.2 测试数据集

5.1.3 实验结果及分析

5.2 文摘生成实验

5.2.1 数据集

5.2.2 实验结果及分析

5.2.3 生成文摘实例

5.3 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

附录1 P、R、F1、RI聚类评价指标的主要实现代码

附录2 基于Precision和Recall的文摘质量比较

攻读学位期间公开发表论文和科研成果

致谢

作者简介

展开▼

摘要

互联网的普及带来了网络电子期刊文献的剧增,这给研究人员(尤其是初级研究人员)高效准确地从海量信息中挖掘所需要的信息带来了巨大挑战。因此,如何对领域知识进行自动概括以提高研究人员获取信息的效率变得日益重要。多文档自动文摘是自然语言处理中的一个重要研究课题,它可以实现对同一主题的多篇文献的汇总和压缩,通过提供一个简洁、全面的文摘,来减少研究人员阅读文献的时间并避免信息超载的发生。
  为了对研究人员所关心领域的相关文献进行概述,本文在现有的多文档文摘技术的基础之上,研究了基于引用聚类的多文档自动文摘技术,着重在引用聚类和文摘生成的研究。
  在引用聚类部分,基于向量空间模型,通过采用不同的文本表示方式和文本相似度计算方法,得到了引用聚类的六种聚类指标,即文献摘要相似性指标、基于查询的文献摘要相似性指标、文献引用上下文相似性指标、基于查询的文献引用上下文相似性指标、文献共引互信息指标以及文献共引位置临近性得分指标。在此基础上,根据文献的引用位置与其主题间的相关性特点,提出了一种基于引用位置距离的聚类评价方法,并基于该方法对六种聚类指标的聚类效果进行了比较。
  引用聚类的目的是为了对与研究人员信息需求相关的多篇文献按照主题的相似程度进行分组管理,为之后的研究做铺垫。
  在文摘生成部分,为了对主题簇中多篇文献的主要内容进行浓缩、提炼,采用不同的多文档文摘技术(LexRank、Query Sensitive LexRank、MMR以及LexRankMMR),根据句子的重要程度,从每个簇的候选句子集中抽取重要性高的句子生成不同长度的段落以对每个簇中的多篇文献进行概括描述。之后通过实验对生成段落的质量以及由生成段落组成的文摘的质量进行了评价。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号