基于引用聚类的多文档自动文摘技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的普及带来了网络电子期刊文献的剧增，这给研究人员（尤其是初级研究人员）高效准确地从海量信息中挖掘所需要的信息带来了巨大挑战。因此，如何对领域知识进行自动概括以提高研究人员获取信息的效率变得日益重要。多文档自动文摘是自然语言处理中的一个重要研究课题，它可以实现对同一主题的多篇文献的汇总和压缩，通过提供一个简洁、全面的文摘，来减少研究人员阅读文献的时间并避免信息超载的发生。
　　为了对研究人员所关心领域的相关文献进行概述，本文在现有的多文档文摘技术的基础之上，研究了基于引用聚类的多文档自动文摘技术，着重在引用聚类和文摘生成的研究。
　　在引用聚类部分，基于向量空间模型，通过采用不同的文本表示方式和文本相似度计算方法，得到了引用聚类的六种聚类指标，即文献摘要相似性指标、基于查询的文献摘要相似性指标、文献引用上下文相似性指标、基于查询的文献引用上下文相似性指标、文献共引互信息指标以及文献共引位置临近性得分指标。在此基础上，根据文献的引用位置与其主题间的相关性特点，提出了一种基于引用位置距离的聚类评价方法，并基于该方法对六种聚类指标的聚类效果进行了比较。
　　引用聚类的目的是为了对与研究人员信息需求相关的多篇文献按照主题的相似程度进行分组管理，为之后的研究做铺垫。
　　在文摘生成部分，为了对主题簇中多篇文献的主要内容进行浓缩、提炼，采用不同的多文档文摘技术(LexRank、Query Sensitive LexRank、MMR以及LexRankMMR)，根据句子的重要程度，从每个簇的候选句子集中抽取重要性高的句子生成不同长度的段落以对每个簇中的多篇文献进行概括描述。之后通过实验对生成段落的质量以及由生成段落组成的文摘的质量进行了评价。

著录项

作者
张琳;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科管理科学与工程
授予学位博士
导师姓名陈燕;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
引用聚类; 多文档自动文摘; 相似性指标; 文献共引;

相似文献

中文文献
外文文献
专利

1. 基于文本聚类的多文档自动文摘研究 [J] . 郭庆琳 ,吴克河 ,吴慧芳 . 计算机研究与发展 . 2007,第0z2期
2. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机（专业版） . 2017,第014期
3. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机：上半月版 . 2017,第005期
4. 基于Siamese LSTM的中文多文档自动文摘模型 [J] . 龚永罡 ,王嘉欣 ,廉小亲 . 计算机应用与软件 . 2021,第003期
5. 基于非完全吸收马尔科夫链的多文档自动文摘算法 [J] . 高晶 ,房俊 . 计算机科学 . 2013,第005期
6. 基于文本聚类的多文档自动文摘研究 [C] . 郭庆琳 ,吴克河 ,吴慧芳 . 第二届中国分类技术及应用学术会议 . 2007
7. 基于语义聚类的新闻多文档自动文摘 [A] . 王帆 . 2017

基于引用聚类的多文档自动文摘技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅