首页> 中文学位 >面向问答系统的大规模文本数据挖掘关键技术研究
【6h】

面向问答系统的大规模文本数据挖掘关键技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 论文研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究工作

1.4 本文组织结构

2 基于朴素贝叶斯分类扩展模型的自动化文本目录整合算法

2.1 引言

2.2 模型及符号说明

2.3 文本分类问题

2.4 ACI算法

2.5 实验分析

2.6 本章小结

3 基于半监督机器学习的大规模图排序算法

3.1 引言

3.2 属性图模型

3.3 SSGR算法模型

3.4 SSP算法

3.5 实验分析

3.6 本章小结

4 面向查询的交互式问答文本自动文摘算法

4.1 引言

4.2 问题描述及定义

4.3 QCQAS算法框架

4.4 HFSS算法

4.5 实验分析

4.6 本章小结

5 总结与展望

5.1 主要工作总结

5.2 研究展望

致谢

参考文献

附录1 攻读学位期间发表的学术论文

附录2 攻读学位期间参与科研项目及科研经历

展开▼

摘要

随着信息化时代的来临,互联网中各种结构化(如web页面)以及半结构化(如电子邮件,XML网页)文本数据规模呈现指数级增长并伴着信息存储技术的飞速发展而累积了海量的文本数据。海量文本数据虽然蕴含着巨大的使用价值却给信息查询者快速定位查询信息带来了困难。传统搜索引擎技术虽然在一定程度上可以帮助人们快速检索出相关文档信息,但是由于其自身设计模式的局限性而引发的用户二次检索的弊端导致其不能真正意义上解决上述问题。因而,作为下一代语义搜索引擎重要研究方向的问答系统(Community-based Question Answering,cQA)引起了研究学者们的广泛关注。问答系统中的文本数据是建立在信息检索与信息抽取技术之上产生的,因而基于问答系统的文本数据挖掘比原始的互联网文本数据挖掘具有更广泛的研究价值。本文结合人工智能和自然语言处理技术,重点针对大规模cQA问答语料库文本数据挖掘相关关键技术展开研究。
  一般来说,单个cQA系统语料库中文本数据资源非常有限,而为了满足不同用户复杂的信息查找需求,通常需要将多个具有不同层次结构的问答语料库进行有效整合。在已有的文档目录整合算法中,大多只考虑了目标目录的层次结构或者是源目录中单个目录结构,而往往忽略了源目录中丰富的层次结构信息。因此,本文结合文本目录特殊的层次结构信息,着重讨论如何有效利用源目录树形结构中父子、兄弟等层次结构关系信息来提高文本目录整合精度,从而提出了一种具有较强泛化能力的自动化目录整合(Automatic Category Integration,ACI)算法来更多考虑源目录中隐式的层次结构信息,性能评测结果表明,ACI算法比以往的目录整合算法具有更高的目录整合精度。
  在文本数据挖掘中,最重要的一个研究课题是如何决定文本数据集中不同文本的重要性。在本文中我们考虑将单个文本数据抽象成单个图数据节点,则文本数据排序问题可转化为图数据节点排序问题。不同于传统的图数据节点排序问题,单个文本数据通常带有丰富的异质属性信息,并且文本数据之间也具有多种不同的隐式关联关系,但是现有的图排序算法往往忽略了上述丰富的异质属性信息而只考虑了简单的图结构信息。另一方面,cQA系统检索出的相关文本数据集规模通常较为庞大,已有图排序算法大都受限于过高的算法时间复杂度而不能处理大规模的图数据排序问题(少数几种除外,如PageRank算法)。针对以上问题,本文提出了一种半监督图排序(Semi-Supervised Graph Ranking,SSGR)算法模型来有效利用上述丰富的异质属性信息进行更高精度的图数据排序。为了验证SSGR算法模型的有效性,本文还提出了一种基于SSGR算法模型的半监督图排序(Semi-Supervised Pagerank,SSP)算法,该算法利用参数化图模型来编码图数据中丰富的异质属性信息并引入约束变量作为损失函数来保证图排序结果与外部先验知识保持一致。实验结果显示,SSP算法较以往的图排序算法具有更加优良的排序性能。
  cQA系统平台为了解决社区协作机制缺乏实时性的问题,通常会提供类似搜索引擎的检索功能来帮助人们快速获取信息。但是,cQA系统检索模式返回给用户的是与之查询相关的问答文本列表,这不可避免的带来了用户二次检索的困扰。针对该问题,本文首次提出利用自动化文摘的方式处理cQA系统检索出的文本数据集,并将该问题形式化定义为普聚类的优化问题。但是,一般普聚类问题的算法时间开销与自身规模(这里是指问答文本个数)呈指数级比例关系(通常为O(n3))。因此,为了有效降低生成文本摘要的计算时间复杂度,本文提出了一种面向查询的交互式问答文本摘要(Query-oriented Community-based Question Answering Summarization,QCQAS)算法框架,该框架能够在有效保留原问答文本集中重要文本数据的前提下,将问答文本数据集的规模从n降低到K(K?n,经实验得出K取100较为合适)。另外,在QCQAS算法框架础上本文还设计了一种新的基于异质属性的对称自动化文摘(Heterogeneous Features Symmetric Summarization,HFSS)算法。HFSS算法能够利用问答文本独特的属性特征从cQA系统的海量文本库中快速准确的抽取与用户提交查询相关的重要内容,其性能评测结果显示,HFSS算法自动生成的文本摘要质量优于其他自动化文摘算法(平均高出8%以上)。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号