面向问答系统的大规模文本数据挖掘关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息化时代的来临，互联网中各种结构化（如web页面）以及半结构化（如电子邮件，XML网页）文本数据规模呈现指数级增长并伴着信息存储技术的飞速发展而累积了海量的文本数据。海量文本数据虽然蕴含着巨大的使用价值却给信息查询者快速定位查询信息带来了困难。传统搜索引擎技术虽然在一定程度上可以帮助人们快速检索出相关文档信息，但是由于其自身设计模式的局限性而引发的用户二次检索的弊端导致其不能真正意义上解决上述问题。因而，作为下一代语义搜索引擎重要研究方向的问答系统（Community-based Question Answering，cQA）引起了研究学者们的广泛关注。问答系统中的文本数据是建立在信息检索与信息抽取技术之上产生的，因而基于问答系统的文本数据挖掘比原始的互联网文本数据挖掘具有更广泛的研究价值。本文结合人工智能和自然语言处理技术，重点针对大规模cQA问答语料库文本数据挖掘相关关键技术展开研究。
　　一般来说，单个cQA系统语料库中文本数据资源非常有限，而为了满足不同用户复杂的信息查找需求，通常需要将多个具有不同层次结构的问答语料库进行有效整合。在已有的文档目录整合算法中，大多只考虑了目标目录的层次结构或者是源目录中单个目录结构，而往往忽略了源目录中丰富的层次结构信息。因此，本文结合文本目录特殊的层次结构信息，着重讨论如何有效利用源目录树形结构中父子、兄弟等层次结构关系信息来提高文本目录整合精度，从而提出了一种具有较强泛化能力的自动化目录整合（Automatic Category Integration，ACI）算法来更多考虑源目录中隐式的层次结构信息，性能评测结果表明，ACI算法比以往的目录整合算法具有更高的目录整合精度。
　　在文本数据挖掘中，最重要的一个研究课题是如何决定文本数据集中不同文本的重要性。在本文中我们考虑将单个文本数据抽象成单个图数据节点，则文本数据排序问题可转化为图数据节点排序问题。不同于传统的图数据节点排序问题，单个文本数据通常带有丰富的异质属性信息，并且文本数据之间也具有多种不同的隐式关联关系，但是现有的图排序算法往往忽略了上述丰富的异质属性信息而只考虑了简单的图结构信息。另一方面，cQA系统检索出的相关文本数据集规模通常较为庞大，已有图排序算法大都受限于过高的算法时间复杂度而不能处理大规模的图数据排序问题（少数几种除外，如PageRank算法）。针对以上问题，本文提出了一种半监督图排序（Semi-Supervised Graph Ranking，SSGR）算法模型来有效利用上述丰富的异质属性信息进行更高精度的图数据排序。为了验证SSGR算法模型的有效性，本文还提出了一种基于SSGR算法模型的半监督图排序（Semi-Supervised Pagerank，SSP）算法，该算法利用参数化图模型来编码图数据中丰富的异质属性信息并引入约束变量作为损失函数来保证图排序结果与外部先验知识保持一致。实验结果显示，SSP算法较以往的图排序算法具有更加优良的排序性能。
　　cQA系统平台为了解决社区协作机制缺乏实时性的问题，通常会提供类似搜索引擎的检索功能来帮助人们快速获取信息。但是，cQA系统检索模式返回给用户的是与之查询相关的问答文本列表，这不可避免的带来了用户二次检索的困扰。针对该问题，本文首次提出利用自动化文摘的方式处理cQA系统检索出的文本数据集，并将该问题形式化定义为普聚类的优化问题。但是，一般普聚类问题的算法时间开销与自身规模（这里是指问答文本个数）呈指数级比例关系（通常为O(n3)）。因此，为了有效降低生成文本摘要的计算时间复杂度，本文提出了一种面向查询的交互式问答文本摘要（Query-oriented Community-based Question Answering Summarization，QCQAS）算法框架，该框架能够在有效保留原问答文本集中重要文本数据的前提下，将问答文本数据集的规模从n降低到K（K?n，经实验得出K取100较为合适）。另外，在QCQAS算法框架础上本文还设计了一种新的基于异质属性的对称自动化文摘（Heterogeneous Features Symmetric Summarization，HFSS）算法。HFSS算法能够利用问答文本独特的属性特征从cQA系统的海量文本库中快速准确的抽取与用户提交查询相关的重要内容，其性能评测结果显示，HFSS算法自动生成的文本摘要质量优于其他自动化文摘算法（平均高出8％以上）。

著录项

作者
魏巍;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机软件与理论
授予学位博士
导师姓名李国徽;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
文本数据挖掘; 问答系统; 人工智能; 自然语言处理;

相似文献

中文文献
外文文献
专利

1. 面向大规模网络数据的社会化问答系统 [J] . 张积宾 ,徐志明 ,王恒 . 哈尔滨工业大学学报 . 2008,第012期
2. 面向自动问答系统的短文本相似度计算 [J] . 黄震 . 信息技术与信息化 . 2020,第011期
3. 浅析大规模文本数据挖掘技术在媒体中的创新应用 [J] . . 中国传媒科技 . 2007,第011期
4. 面向5G物联网的大规模MIMO物理层安全通信关键技术研究 [J] . 王毅 ,王雨晗 . 电子世界 . 2019,第004期
5. 面向5G的大规模MIMO关键技术研究分析 [J] . 王茜竹 ,邱聪聪 ,黄德玲 . 电子技术应用 . 2017,第007期
6. 面向甚大规模集成电路超深亚微米工艺的性能驱动总体布线关键技术研究 [C] . 经彤 ,鲍海云 ,许静宇 . 2000年中国博士后学术大会 . 2000
7. 面向非结构化文本的问答系统中答案抽取技术研究 [A] . 麻俊满 . 2019

面向问答系统的大规模文本数据挖掘关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅