首页> 中文学位 >基于实时Twitter流的文本检索研究
【6h】

基于实时Twitter流的文本检索研究

代理获取

目录

声明

第 1章绪论

1.2研究现状

1.3 本文的主要工作

1.4本文的文章结构

第2章相关算法基本原理

2.1特征提取方法

2.2相似度量指标

2. 3 深度学习

2. 4 强化学习

2. 3深度强化学习

第3章 基于Twitter流的实时检索框架

3.2 兴趣域介绍

3.4 文本过滤

3.5 文本预处理

3.7 冗余过滤

3.8本章小结

第4章基于相似度量方法的匹配模型

4.2建模

4.3评估指标及实验结果

4.4本章小结

第5章基于深度强化学习的匹配模型

5.2 文本流动作设计

5.3 文本流状态设计

5.4 回报函数设计

5.5 Q-Iearning

5.6 DQN算法模型

5.7 实验

5.8 本章小结

第6章总结与展望

6.2 展望与进一步的工作

参考文献

附录六第四章模型详细评估结果

攻读学位期间取得的研究成果

致谢

展开▼

摘要

信息检索是从信息资源中获得与特定信息需求相关联的信息资源的活动⑴。检索可以基于全文或基于内容索引,主要用于减少“信息量过载”问题。通过信息检索,可以把分散的信息聚集在一起,这样用户就可以方便的访问网络中预期的资源。随着社交网络^变为大众生活的一部分,当前一些主要社交平台如:Facebook,Twitter,Weibo等,会产生大量的文本信息。如何从实时社交流信息中快速有效地检索信息吸引了国内外文本检索研究学者的兴趣,目前已经成为了短文本信息检索的热点和重点,诸如国际著名信息检索评测会议TREC,2015年将这一问题加入其在线评测任务中。本文的课题来自于2017年参加的TREC2017 RTS任务。 本文的核心问题,即社交平台用户给出检索目标信息(包括主题核心关键词、主题描述信息、预期检索描述),要求在社交媒体文本流中实时检索出和主题相关的推文。对于这一问题,本文首先设计了一套基于推特流的实时检索框架,针对其中的文本匹配模型又分别在基于相似度的方法和基于深度强化学习的方法上进行了研究实践。在相似度量的方法上,使用了我们已参加过TREC2017 RTS任务测评的方法[54],利用多种不同的度量方式并组合特征提取方法,以静态过滤阈值进行过滤。在基于深度强化学习的方法上将实时检索看作是序贯决策问题,训练出最优决策策略,针对当前推文执行挑选出(相关〕或者跳过(不相关)动作。 本文主要工作如下: (1)设计和构建了一套基于Twitter流的实时文本检索框架,并对框架中模块的作用和实现做出了阐述。 (2)对于框架中的核心文本匹配模型,采用基于相似度度量的方法并结合静态阈值对其进行建模,通过实验验证有效性。 (3)改进了基于深度强化学习的文本匹配模型,以卷积神经网络(CNN)作为策略网络的基本架构,并结合了Double-DQN和Duling-DQN训练出相似文本最优决策模型。

著录项

  • 作者

    熊俊杰;

  • 作者单位

    上海师范大学;

  • 授予单位 上海师范大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 陈海光;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    实时; 文本;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号