首页> 中文学位 >社区问答系统中非事实性问题的答案摘要算法研究
【6h】

社区问答系统中非事实性问题的答案摘要算法研究

代理获取

目录

声明

摘要

1.绪论

1.1.研究背景及研究意义

1.2.国内外研究现状

1.2.1.多文档摘要

1.2.2.社区问答系统检索

1.3.本文的主要工作

1.4.本文的组织结构

2.社区问答系统中答案摘要的基础知识

2.1.文档摘要的背景介绍

2.2.社区问答系统的背景介绍

3.答案摘要的算法描述

3.1.答案句子的短文本扩充

3.1.1.答案句子中的实体链接

3.1.2.基于问题答案对的句子排序

3.2.句子的向量化表示

3.2.1.基于文本的卷积神经网络模型

3.2.2.句子的特征向量生成

3.3.答案摘要的生成

4.实验设置情况介绍

4.1.实验中的一些研究问题

4.2.数据集基本情况描述

4.3.基准算法以及评价指标

4.4.参数设置

5.实验结果及分析

5.1.几种答案摘要算法的总体实验表现

5.2.短文本扩充的有效性分析

5.3.不同的句子表示方法的性能分析

5.4.答案摘要的长度分析

6.结论及未来工作

参考文献

致谢

攻读学位期间参与的科研项目和发表的学术论文

展开▼

摘要

最近几年,我们可以看到,社区问答系统中的用户数量正呈现出高速增长的态势。社区问答系统给用户提供了一个发布问题以及寻找答案的平台,而这个广大的平台中所包含的海量的问题与答案对数据,也逐渐成为了国内外科研人员的新的研究热点。此前已经有很多论文关注了社区问答系统场景下的多个研究课题,而在本学位论文中,我们关注的主要任务是社区问答系统中的答案摘要问题。虽然大多数之前的研究工作主要关注的是事实性问题,在本学位论文中,我们的工作重点则是非事实性问题。
  在事实性社区问答系统中,问题通常是寻求一个确定的答案,而问题的答案大多数都是单独的句子,与之不同的是,非事实性问题往往是在寻求看法、观点、意见,因此,非事实性问题通常需要用多个句子、甚至是整篇文章来作为答案。传统的多文档摘要任务主要是针对新闻文章,与之相比,在非事实性社区问答系统中的答案摘要就面临着其独特的挑战:答案句子的简短性、稀疏性,以及答案内容的多样性。为了解决这些挑战,我们提出了一个包含了三个核心要素的、基于稀疏编码的答案摘要策略:答案句子的短文本扩充,句子的向量化表示,以及稀疏编码优化框架。具体来说,通过实体链接和基于问题答案句子排序的策略,我们把一个问题下的每一个答案句子扩展成包含了多个维基百科句子组成的更复杂的表示。在此基础之上,每个句子都通过一个基于短文本的卷积神经网络模型被表示成一个特征向量。之后我们利用这些句子的向量表示,提出了一个稀疏编码的优化框架,通过同时考虑候选答案句子以及辅助的维基百科句子,来评估所有候选句子的独特性得分。在得到了这些候选答案句子的独特性得分之后,基于最大边界相关性算法,我们抽取出得分最高的答案句子,来产生最终的答案摘要。
  我们在本学位论文中的主要贡献是,通过处理非事实性问题中答案句子的简短性和稀疏性,以及答案内容的多样性这三个问题,我们解决了社区问答系统中非事实性问题的答案摘要问题。另外,我们在一个公开的基准数据集上进行了实验,并与一些当下最新的基准实验方法进行了比较,以评估我们提出的非事实性社区问答系统中的答案摘要方法的性能。相关实验结果不仅证实了我们提出的方法的有效性,而且相较于最新的研究方法,我们提出的方法在ROUGE评价指标上有着显著提升。此外,进一步的实验结果分析,也说明了我们提出的算法具有良好的稳定性和扩展性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号