首页> 中文学位 >面向证券应用的WEB主题观点挖掘若干关键问题研究
【6h】

面向证券应用的WEB主题观点挖掘若干关键问题研究

代理获取

目录

摘要

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 存在的主要问题

1.3 本文主要贡献

1.4 文章组织结构

第二章 相关理论及研究综述

2.1 观点挖掘研究

2.1.1 基本概念

2.1.2 研究内容

2.1.3 研究综述

2.2 文本分类研究

2.2.1 研究概述

2.2.2 特征选择

2.2.3 分类模型

2.2.4 评价指标

第三章 面向文本主题的观点挖掘模型

3.1 问题提出

3.2 相关工作

3.3 LDA主题模型

3.3.1 文档生成过程

3.3.2 参数推理

3.3.3 MCMC Gibbs抽样

3.4 文档主题观点模型(Document-Topic-Opinion)

3.4.1 DTO模型结构

3.4.2 文档生成过程

3.5 DTO模型参数推理

3.5.1 基于MCMC Gibbs抽样的DTO参数推理

3.5.2 DTO-Gibbs抽样算法

3.6 实验设计

3.6.1 实验数据集

3.6.2 数据预处理

3.6.3 情感词表及使用

3.6.4 观点分类实验

3.6.5 主题观点挖掘实验

3.7 实验结果分析

3.7.1 实验参数设置

3.7.2 观点分类结果分析

3.7.3 主题观点挖掘结果分析

3.7.4 主题个数对挖掘结果的影响

3.8 本章小结

第四章 基于DTO模型的主题观点量化方法

4.1 问题提出

4.2 相关工作

4.3 DTOV主题观点量化模型

4.3.1 相关定义

4.3.2 文档主题观点分布

4.3.3 文档主题观点量化

4.4 实验设计

4.4.1 分类特征抽取

4.4.2 分类模型选择

4.5 实验结果分析

4.5.1 Pos-DTOV与Neg-DTOV分类效果对比

4.5.2 情感词典对分类结果的影响

4.5.3 同类方法实验结果对比

4.6 本章小结

第五章 基于主题观点集成模型的股市波动预测

5.1 问题提出

5.2 相关工作

5.3 Online DTO模型

5.4 TOVA文档主题观点集成模型

5.4.1 基本思想

5.4.2 加权集成模型

5.4.3 主题权重及计算方法

5.4.4 文章权重及计算方法

5.5 基于ATOV的股市波动预测

5.5.1 SHCOMP-Trend

5.5.2 股市波动预测主要步骤

5.6 实验及结果分析

5.6.1 证券情感词典

5.6.2 实验数据集

5.6.3 实验参数

5.6.4 实验结果及分析

5.7 本章小结

第六章 基于多任务学习的文本多分类模型

6.1 问题提出

6.2 相关理论

6.2.1 单任务学习

6.2.2 多任务学习

6.2.3 模糊集理论

6.3 MDDD文本分类模型

6.3.1 基本思想

6.3.2 文本分类步骤

6.4 实验设计

6.4.1 实验数据集

6.4.2 评估方法

6.4.3 实验参数设置

6.4.4 对比实验介绍

6.5 实验结果和分析

6.5.1 MDDD与SVM分类结果对比

6.5.2 不同组合的分类结果对比

6.5.3 新浪财经文本的多分类结果分析

6.6 本章小结

第七章 总结和展望

7.1 全文概括总结

7.2 全文工作评价

7.3 后续工作展望

参考文献

参与科研项目

发表文章目录

致谢

声明

展开▼

摘要

受有效市场假说的影响,证券行业不断重视对互联网文本数据的研究。但随着互联网技术的发展,尤其是近年来涌现出各种社交网络平台,互联网上的文本数据发生很大变化,开始出现大量带有感情色彩的主观性信息。这些主观性信息的内容涉及社会生活中的各种热点话题,因此在证券行业拥有巨大的应用空间。然而,主观性信息在文本中的表现形式与客观性信息不同,一般比客观性信息更加复杂,因此利用传统的文本挖掘方法已经无法解决这类信息的挖掘问题。在这种背景下,以挖掘文本中主观性情感信息为研究目标的观点挖掘技术应运而生。
  互联网观点挖掘研究不仅具有巨大的学术价值,其挖掘结果还能帮助解决许多行业的应用需求,因此该领域的研究不仅受到学术界的广泛关注,还吸引了众多行业的注意。其中,在证券行业就出现利用社交网络情感信息预测股市波动的应用案例。相对之前的方法,这些基于观点挖掘的应用取得了一定的成效,但总体来看,其应用效果仍无法令人满意。这是因为目前的观点挖掘研究仅注重对观点信息的挖掘,忽视了观点与主题内容的联系,然而证券行业对信息的需求,不仅包括互联网上的观点信息,还同时希望把握其中蕴含的主题。因此,现有的观点挖掘方法也难以很好的满足证券行业对信息的需求。
  针对这一问题,本文提出了一种面向Web文本主题的观点挖掘研究,简称主题观点挖掘研究。围绕这一研究,我们分别对主题观点挖掘、主题观点量化、主题观点集成,以及主题观点分类等若干关键问题展开深入分析,并提出相应的解决的方法。此外,为了验证本文方法的有效性,我们不仅在实验中验证了本文方法解决现有观点挖掘任务的能力,还专门将挖掘模型应用到的股市波动预测应用中。实验结果不仅证明了本文方法的有效性,还发现了许多有意思的结论。总体来看,本文研究工作有如下几个方面的创新:
  1.针对现有方法在挖掘观点信息时忽略了主题信息这一不足,本文首先提出一种文档主题观点挖掘模型(Document-Topic-Opinion,简称DTO模型)。该模型在标准LDA模型关于文档(Document)、主题(Topic)和词汇(Word)的三层结构基础上,进一步引入观点(Opinion)的概念,是一种四层贝叶斯概率生成模型。从机器学习的角度看,DTO模型是一种非监督的学习模型。由于DTO模型中未知参数间存在耦合关系,无法通过形式化推理求解模型的未知参数,本文提出采用MCMC Gibbs抽样的方法实现对未知参数的近似估计。实验结果表明,DTO模型具有较强的主题和观点挖掘能力,利用该模型不仅可以取得较高的文档观点分类准确率,还能挖掘出带有情感倾向性的主题内容。
  2.针对现有观点量化方法的不足,本文在DTO模型基础上,首先提出主题观点分布的假设,假设文本的观点信息是在多个隐含主题上的多项分布。依据这一概率假设,本文进一步提出了主题观点的量化表达模型,即文档主题观点向量模型(Document-Topic-Opinion Vector,简称DTOV模型)。利用DTO模型,可以将文档观点(Article Opinion)与文档主题观点关联起来,最终实现对DTOV模型的量化计算。以DTOV为分类特征的情感分类实验结果表明,DTOV具有较好的主题观点量化能力。
  3.针对现有观点集成方法的不足,本文首次提出一种基于文档权重(Article-Weight)和主题权重(Topic-Weight)的主题观点集成模型(Topic-Opinion Vector Aggregation Model,简称TOVA模型)。该模型通过集成文档集合中所有文档的主题观点,为整个文档集生成一个主题观点集成向量(Aggregative Topic-Opinion Vector,简称ATOV)。利用TOVA模型,可以同时挖掘出互联网上多个热点话题的舆情信息,具有较高的应用价值。为了验证观点集成模型的有效性,本文利用DTO模型对中国最大的互联网门户网站新浪财经每日发布的股票相关文本信息进行主题观点挖掘,为每篇互联网财经文档生成一个对应的DTOV,然后再利用TOVA模型整合每天所有的DTOV,最终得到每天的主题观点集成向量ATOV。ATOV可以看作是每日互联网上围绕热点主题的观点信息,为了迸一步验证其对股市波动的预测能力,我们将每日生成的ATOV作为特征数据,利用文本分类方法对上证综指隔日波动方向进行预测。实验结果验证了ATOV对股市波动的预测能力,同时也反映出TOVA模型较强的观点整合能力。
  4.针对现有方法对文本多分类模型研究的不足,本文在正则化理论和模糊集理论的基础上,首次提出了一种多数据域描述(Multiple Data Domain DescriptionModel,简称MDDD模型)的文本多分类方法。MDDD模型本质上是一种多任务学习算法,该模型继承了多任务学习方法的优势,在建立训练模型时,能整体考虑各个分类的相互关联,因此克服了单任务集成分类模型这方面的不足。为了验证方法的有效性,我们将该模型分别应用到文档多分类,及序列数据多分类问题中,以此为基础的上证综指隔日趋势波动预测和文本多分类的实验结果很好的证明了MDDD模型的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号