首页> 中国专利> 一种应用于金融Web领域的文本情感倾向分析方法

一种应用于金融Web领域的文本情感倾向分析方法

摘要

本发明公开一种应用于金融Web领域的文本情感倾向分析方法,对Web金融文本信息筛选数据来源并进行数据获取,根据Web金融文本特点构建金融情感词典,设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web进行文本情感倾向分类,本发明分类准确率高、分类速度快,且本发明能通过对Web金融文本的情感倾向分类有效的分析金融市场整体情绪,对金融趋势预测具有重要的帮助和指导意义。

著录项

  • 公开/公告号CN105022725A

    专利类型发明专利

  • 公开/公告日2015-11-04

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201510406228.5

  • 发明设计人 严勤;丁聪;吕勇;夏阁;

    申请日2015-07-10

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构南京苏高专利商标事务所(普通合伙);

  • 代理人李玉平

  • 地址 211100 江苏省南京市江宁区佛城西路8号

  • 入库时间 2023-12-18 11:38:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-24

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2015104062285 申请日:20150710 授权公告日:20180420

    专利权的终止

  • 2018-04-20

    授权

    授权

  • 2015-12-02

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20150710

    实质审查的生效

  • 2015-11-04

    公开

    公开

说明书

技术领域

本发明涉及一种利用金融情感词典和中文语法特征对Web金融文本进行情感倾向分析的,属于自然语言处理和机器学习技术领域。

背景技术

随着互联网和信息技术的发展,Web信息量得到了前所未有的增长,越来越多的机构和个人通过互联网途径以各种方式表达对各种事物观点、态度和立场,如豆瓣影评、新闻评论、社交网站等。海量的Web观点信息对于电子商务、市场预测等各个方面有重要的意义以及巨大的商业价值,而金融行业Web信息量是互联网信息增长最快,受影响最大的行业,对Web金融文本信息进行情感倾向分析以进行更加深入的研究已经成为国内外热门研究课题。

文本情感倾向性分析属于文本情感分析[1]的一部分,如今已是自然语言处理和机器学习领域的研究热点。通过情感倾向性分析,可以掌握文本的褒贬性倾向。在金融领域,新闻舆情被认为是反映国家宏观政策的执行情况,体现市场和行业景气程度和投资者的交易热情的重要指标。而要有效利用Web金融信息来进行各种分析,就必须将文本信息数字化。文本倾向性分析,计算文本的情感倾向值是分析文本褒贬性和将文本信息数字化的有效手段之一。

通过计算文本的情感倾向值来分析文本的情感倾向,是文本情感倾向性分析的主要方法。其中具有代表性的工作是,Turney等[2]运用点互信息和潜在语义分析的方法计算目标词汇和种子词的关联度,进而分析目标词汇的倾向性。香港城市大学的Yuen等[3]在Turney的工作基础上,对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等[4]利用Hownet提供的语义相似度和语义相关场,计算目标词汇与已标注褒贬性的种子词间的相似度,提出了词语倾向性的判断方法。从已有的研究成果可以发现,文本倾向性分析已引起了研究者的普遍关注,但在金融领域应用尚未展开,金融信息文本的倾向性分析对于金融市场的研究有举足轻重的影响,但却还没有被众多学者所涉足。

文本情感分析技术在金融领域应用较少,究其原因主要包括以下几点:(1)国内文本情感倾向分析研究起步较晚。(2)中文汉语本身的博大精深。(3)各学 科交叉导致研究复杂,研究者需要具备自然语言处理技术、计算机技术、金融专业知识等多方面综合能力。综合上述因素,本文研究了Web金融信息的情感倾向的计算方法以及其在金融市场预测中的应用。

参考文献: 

[1]Zhao Y Y,Qin B,Liu T.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848. 

[2]Turney P D.Thumbs Up or Thumbs DownSemantic Orientation Applied to Unsupervised Classification of Reviews[J].Proc Annual Meeting of the Association for Computational Linguistics,2002:417--424. 

[3]Yuen R,Chan T,Lai T et al.Morpheme-based Derivation of Bipolar Semantic Orientation of Chinese Words.In:Proceedings of the 20th International Conference on Computational Linguistics(COLING’04).Geneva,Switzerland,2004.1008-1014. 

[4]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,(1):14-20.

发明内容

发明目的:为了提高Web金融文本情感倾向分类的准确率,本发明提供一种应用于金融Web领域的文本情感倾向分析方法。采用人工标注和现有词典扩展的方法构建金融情感词典,即包括极性词典、主观词典、修饰词典和连词词典,通过分析金融情感词汇的不同使用以及中文语法特征,设计了无关信息清理算法和Web金融文本情感倾向分析方法,无关信息清理算法剔除主题无关文本信息,保证金融文本情感倾向分类数据的有效性。

技术方案:一种应用于金融Web领域的文本情感倾向分析方法,包括以下几个步骤:

步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据;

步骤B、对获取的Web金融文本数据进行文本预处理;

步骤C、根据情感分类特征,结合人工标注和现有词典扩展的方法构建金融情感词典,并采用多人标注取众数的方法确定情感词汇的情感倾向和强度;

步骤D、提出无关信息清理算法,依据主题相关和主题无关关键词对Web金融新闻的无关信息进行识别清理;

步骤E、根据金融情感词典的不同使用以及中文语法特征,提出Web金融文本情感倾向分类算法,对Web金融文本信息进行情感倾向分类,即将Web金融文本情感倾向分为正面情感、负面情感和中立情感。

作为本发明的一个优选方案,设计多线程网络爬虫程序获取Web金融文本数据,步骤A包括以下步骤:

步骤A1、筛选Web金融数据网站来源,分别获取所研究的金融主题新闻版块的URL链接并初始化种子URL列表;

步骤A2、循环从种子URL列表获取URL,下载种子URL新闻主页面源代码,若主页面有金融新闻更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列,队列管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码;

步骤A3、利用页面抽取技术解析新闻页面源代码,抽取需要的字段,包括新闻标题、新闻正文、发布时间、新闻来源等。Web金融数据存储时,若该新闻URL已存在数据库,则无需存储该条新闻,否则存入数据库。

作为本发明的一个优选方案,分析Web金融文本的特点,构建金融情感词典,步骤B包括以下步骤:

步骤B1、利用中文标点符号将所获取的Web金融文本信息,分解为语义停顿的短字符串,去乱码符号和web转义符号,利用“。……;”将文档分割成短字符串,删除“”所在的句子,数学符号“.%/等”保持不变。

步骤B2、将去除杂乱符号的新闻构建成包含title和content的json字符串以方便后续分别对title和content分别进行处理,中文文档经标点处理后被分解成语义独立的句子,句子被分解成语义停顿的短字符串,然后利用最大正向匹配法分词技术以及金融情感词典进行中文分词预处理,情感词典构造如步骤C。

作为本发明的一个优选方案,分析Web金融文本的特点,构建金融情感词典,步骤C包括以下步骤:

步骤C1、利用人工标注方式收集金融情感词汇,主要包括两种方式:1)利用现有的证券领域操作词汇表,人工提取其中具有情感倾向的词语。2)利用网络爬虫从金融网站抓取大量金融新闻文本信息,经多人标注抽取其中情感词汇。

步骤C2、利用HowNet、哈工大《同义词词林》公共情感词典进行补充和扩展,将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工筛选与金融领域相关的极性词对极性词典进行补充,利用HowNet的中文程度级别词语对修饰词典进行补充,利用HowNet的主张词语扩展主观词典等。

步骤C3、对情感词汇进行情感倾向和情感强度标注,情感词汇的属性主要有三个:词汇本身、倾向、情感强度。词汇的情感倾向和情感强度均没有权威的可参考的标准,主要依靠人对词汇的认识,故采用多人标注取众数的方法确定各个词汇的情感倾向和情感强度。

作为本发明的一个优选方案,分析金融主题无关信息的特点,设计无关信息清理算法,步骤D包括以下步骤:

步骤D1、收集与所研究主题相关的相关关键词,如对于黄金市场主题而言,“金价”、“伦敦金”、“金银”等均为黄金市场相关关键词,主题相关关键词数量较少,故采用人工标注方式收集。

步骤D2、收集与所研究主题无关但经常同时出现的无关关键词,如对于黄金市场主题而言,“黄金装备”、“黄金地段”、“装备”和“游戏”等关键词均与黄金主题无关的,故采用人工标注方式收集。

步骤D3、若金融新闻文本中匹配到主题无关关键词,则认为该条新闻与金融主题无关,标记该条新闻为无关信息,并进行剔除。

步骤D4、对于主题相关新闻,若金融新闻文本中某个句子匹配到主题相关关键词且至少匹配一个极性词才认为该句为金融主题相关句,否则为无关句。

作为本发明的一个优选方案,结合金融情感词典的使用不同以及中文语法特点,设计Web金融文本情感倾向分类算法,步骤E包括以下步骤:

步骤E1、文本预处理。利用中文标点符号预处理方法对待测文档进行文本断句,将文本分解成各个独立的句子。

步骤E2、分句输入。将第i个句子利用最大正向匹配法分词技术进行中文分 词作为后续处理的输入,i=i+1,其中i从1递增值分句总数n。

步骤E3、无关信息清理。利用无关信息清理算法进行判断,若判断为无关新闻,则返回文档为无关信息;若判断为无关句,则跳过该句并转到步骤E2,否则转入步骤E4。

步骤E4、主观句识别。利用主观词典匹配句中主观词,若匹配失败,则跳过该句并转至步骤E2,否则转至步骤E4。

步骤E5、连词词汇的处理。连词词汇的出现通常会改变句子的情感重点,例如“虽然你对我很好,但是我不会喜欢你。”句子的情感重点为后半句,若在情感分析时考虑该部分连词语句的特点,可以有效提高情感分析的效率和准确率,利用连词词典匹配句子连词,若匹配成功,则转至连词词汇处理即根据不同连词搭配分情况区分转折关系,确定句子有效语义是在前半句还是后半句,否则转至步骤E6。

步骤E6、句子情感值计算。分别利用极性词典、修饰词典识别句中的情感极性词和修饰词,各个极性词为独立情感分析单元,其情感值计算如表1所示。

表0情感分析单元情感值计算

表0中,n表示句中情感词的个数,T()表示情感强度,w表示句中匹配的情感极性词,factor表示情感极性词窗口范围内匹配的修饰词,factori表示情感词w窗口内匹配的第i个修饰词,phrase表示包含情感极性词的情感分析单元,依据上述规则可计算得到不同规则情感分析单元的情感值。依次对句中所有的情感分析单元进行情感值计算,最终该句的情感值计算公式如下:

T(sen)=Σi=1nT(phasei)---(1)

其中,T()表示情感强度,sen表示该句子,phasei表示句中匹配到第i个情感极性词所在的情感分析单元。

步骤E7、文档情感值计算。Web文档由新闻标题和新闻正文两部分组成, 其中金融新闻的标题通常能直接表达作者的观点,而新闻正文部分是对标题的详细阐述阐述。因此,文档情感倾向应该以标题为主,正文为辅,即当文档标题的情感值不为零时,以标题情感值为文档情感值,否则以正文的情感值为文档情感值,计算定义如下:

T(content)=Σi=1nT(seni),i=1,2,...n---(2)

T(doc)=T(title)T(title)0T(content)T(title)=0---(3)

其中,T表示情感强度值,seni表示文档的第i个句子,title表示文档的标题,content表示文档的正文,doc表示文档。

步骤E8、文档情感倾向分类。本文将文本的情感倾向分为正面、负面和中立三种类别,则情感倾向判定规则如下:

Trend=positiveT(doc)1neutral|T(doc)|<1negativeT(doc)-1---(4)

其中,Trend表示文档的情感倾向其中positive表示正面情感倾向,negative表示负面情感倾向,neutral表示中立情感倾向。

本发明采用上述技术方案,具有以下有益效果:

本发明设计了一种应用于金融Web领域的文本情感倾向分析方法,对Web金融数据来源进行筛选并通过设计多线程网络爬虫进行数据获取,利用人工标注和现有词典扩展方法构造金融情感词典,包括极性词典、修饰词典、主观词典以及连词词典,然后通过对Web金融文本的分析,建立两阶段的Web金融文本情感分类,即提出无关信息清理分类算法,将金融主题无关的文本信息剔除,提出Web金融文本情感倾向分类算法,对主题相关的金融文本进行情感感倾向分类,即将Web金融文本情感倾向分为正面情感、负面情感和中性情感,该算法分类准确率高、分类速度快,情感倾向分类算法整体准确率为76.84%,其中看涨情绪的分类准确率达到80.68%,召回率为77.10%,F-measure为78.85%;看跌情绪的分类准确率达到82.32%,召回率为73.18%,F-measure为77.48%。本发明能够有效的提高Web金融文本情感倾向分类的效率,对于把握整体金融市场情绪以及利用金融趋势预测具有重要的指导意义。

附图说明

图1是本发明Web金融文本情感倾向分类框架

图2是多线程网络爬虫流程

图3是中文分词流程

图4是金融情感词典构建流程

图5是Web金融文本情感倾向分类算法总流程。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示,本发明提供一种应用于金融Web领域的文本情感倾向分析方法,具体的步骤包括:

步骤A、如图2所示,筛选数据来源并设计多线程网络爬虫获取Web金融数据,具体为:

A1、依据Alexa官网提供的金融网站排名,综合筛选东方财富网、和讯网、金融界和百度新闻作为金融数据来源,选择所研究主题相关的网站入口URL链接为种子URL列表并初始化。

A2、循环从种子URL列表中获取URL,下载种子URL新闻主页面源代码,若主页面新闻有更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列,队列管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码。

A3、利用正则表达式技术解析新闻页面源代码,抽取需要的字段,本发明包括新闻标题、新闻正文、发布时间、新闻来源等。数据存储时,若该新闻URL已存在数据库,则无需存储该条新闻,否则存入数据库,则该条新闻即为一条金融文本数据。

步骤B、对爬虫获取的Web金融文本数据进行文本预处理,如图3所示,具体为:

B1、对金融文本进行中文标点符号预处理,以提高分词效率和分词准确性,中文标点的处理方式如表1所示。

B2、经中文标点符号预处理后得到语义清晰的短文本,对短文本进行中文分词,本发明的中文分词过程为:定义分词的最大字长MaxLen为4,从左到右依次从待分字串中取出长度不大于4的候选子串,获取候选子串过程中若遇到空格,则取空格之前的字符为候选子串;若获取开始遇到空格,则跳过该空格向后获取候选子串。依据本文构建的词典匹配查找子串,若匹配成功,则将该子串保存到输出词串,待分字串后移子串长度的指针后继续进行切分;若查找失败,候选子串从最右边减1个字长后得到新的候选子串并再次进行字典匹配,若直至子串为单字时仍然查找失败,则待分字串指针后移一个单位,继续进行匹配,直到原字符串长度为空分词结束。

步骤C、根据情感分类特征,采用人工标注和现有词典扩展相结合的方式构建金融情感词典,如图4所示,具体为:

步骤C1、利用人工标注收集情感词汇,主要包括两种方式:1)利用现有的证券领域操作词汇表,人工提取其中具有情感倾向的词语。2)利用网络爬虫从金融网站抓取大量金融新闻文本信息,经多人标注抽取其中情感词汇。

步骤C2、利用HowNet、哈工大《同义词词林》情感词典进行补充和扩展,将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工筛选与金融领域相关的极性词对极性词典进行补充,利用HowNet的中文程度级别词语对修饰词典进行补充等。

表1 中文标点符号处理

步骤C3、对情感词汇进行情感倾向和情感强度标注,情感词汇的属性主要有三个:词汇本身、情感倾向、情感强度。词汇的情感倾向和情感强度没有可参考的标准,主要依靠人对词汇的认识,故采用多人标注取众数的方法确定其情感倾向和情感强度,情感强度主要采用-1,1,0.5等数据进行简单划分。

表4 修饰词典

本发明构建金融情感词典,包括极性词典、主观词典、修饰词典和连词词典。极性词典,是情感倾向分类的核心词,包括独立情感词汇和情感组合单元,其情感倾向和情感强度如表2所示;主观词典,是文本主客观句识别的依据,部分数据如表3所示;修饰词典,是对极性词典词汇的情感增强、减弱或反转等作用,其情感倾向和情感强度如表4所示;连词词典,其中转折连词和总结连词对于复句的情感表达有重要影响,其情感倾向和情感强度如表5所示。

表2 极性词典

表3 主观词典

表5 连词词典

步骤D、提出无关信息清理算法,剔除金融无关信息信息,具体为;

步骤D1、收集与所研究金融主题相关的关键词,以黄金市场新闻为主题,通过人工收集得到“金价”、“伦敦金”、“金银”等8个黄金市场相关关键词。

步骤D2、收集与所研究金融主题无关但经常同时出现的无关关键词,以黄 金市场新闻为主题,通过人工收集得到“黄金装备”、“黄金时段”、“岁月”和“游戏”等106个黄金市场主题无关关键词。

步骤D3、对于黄金市场新闻文本,若匹配到黄金市场主题无关关键词,则判定该条新闻与主题无关,即标记该条新闻为无关信息并进行剔除。

步骤D4、对于主题相关的黄金市场新闻,其某个句子匹配到主题相关关键词且至少匹配一个极性词判定该句为黄金市场相关句,否则为无关句。

抓取2012年10月至2014年10月共30多万条Web黄金版块新闻数据作为原始数据,从中随机抽取10000条新闻并选择金融领域熟悉的志愿者对其进行人工情感标注,标注为看涨、看跌、中立和无关四类情感,将看涨、看跌和中立统称为相关类别,最终得到其中8988条标注有效的新闻作为实验数据,包含看涨新闻2259条、看跌新闻2521条、中立新闻2244条以及无关新闻1964条。实验结果表明,无关新闻识别准确率为81.40%,召回率为77.75%,F-measure为79.53%;相关新闻识别准确率为93.86%,召回率为95.03%,F-measure为94.44%。

步骤E、根据金融情感词典的不同使用以及中文语法特征,提出了一种Web金融文本情感倾向分析方法,如图5所示,具体为;

步骤E1、文本预处理。对原始文本数据中文标点预处理,并根据标点符号进行分句。

步骤E2、分句输入。将第i小句利用最大正向匹配法分词技术进行中文分词作为后续处理的输入,其中i从1递增值分句总数。

步骤E3、无关信息清理。其具体步骤如步骤C所示,若算法判断文本为无关新闻,则返回该文档为无关信息;若判断该句为无关句,则跳过该句并转至步骤E2,否则转入步骤E4。

步骤E4、主观句识别。利用主观词典匹配句中主观词,若匹配失败,则判断该句为客观句而跳过该句并转至步骤E2,否则转至步骤E5。

步骤E5、连词词汇处理。利用连词词典匹配句子的连词,若匹配成功,则判断该句为连词复句转至连词词汇处理,否则转至步骤E6。

步骤E6、句子情感值计算。分别利用极性词典、修饰词典识别句中的情感

表6 情感分析单元情感值计算

极性词和修饰词,各个极性词为独立情感分析单元,其情感值计算如表6所示。

表6中,n表示句中情感词的个数,T表示情感强度,w表示句中匹配的情感极性词,factor表示情感极性词窗口范围内匹配的修饰词,factori表示情感词w窗口内匹配的第i个修饰词,phrase表示包含情感极性词的情感分析单元,依据上述规则可计算得到不同规则情感分析单元的情感值。依次对句中所有的情感分析单元进行情感值计算,最终该句的情感值计算公式如下:

T(sen)=Σi=1nT(phasei)---(1)

其中,T表示情感强度值,sen表示该句子,phasei表示句中匹配到第i个情感极性词所在的情感分析单元。

步骤E7、文档情感值计算。Web文档由新闻标题和新闻正文两部分组成,其中金融新闻的标题通常能直接表达作者的观点,而新闻正文部分是对标题的详细阐述阐述。因此,文档情感倾向应该以标题为主,正文为辅,即当文档标题的情感值不为零时,以标题情感值为文档情感值,否则以正文的情感值为文档情感值,计算定义如下:

T(content)=Σi=1nT(seni),i=1,2,...n---(2)

T(doc)=T(title)T(title)0T(content)T(title)=0---(3)

其中,T表示情感强度值,seni表示文档的第i个句子,title表示文档的标题,content表示文档的正文,doc表示文档。

步骤E8、文档情感倾向分类判断。本文将金融文本的情感倾向分为正面、负面和中立三种类别,则情感倾向判定规则如下:

Trend=positiveT(doc)1neutral|T(doc)|<1negativeT(doc)-1---(4)

其中,Trend表示文档的情感倾向其中positive表示正面情感倾向,negative表示负面情感倾向,neutral表示中立情感倾向。

实验结果表明,本发明设计了一种Web金融文本情感倾向分类算法,通过多线程网络爬虫程序抓取Web金融文本数据,利用人工标注和现有词典扩展方法构造金融情感词典,包括极性词典、修饰词典、主观词典以及连词词典,然后对Web金融文本分析,建立两阶段的Web金融文本情感分类,即提出无关信息清理分类算法,将金融主题无关的文本信息剔除,提出Web金融文本情感倾向 分类算法,对主题相关的金融文本进行情感感倾向分类,即分为正面情感、负面情感和中性情感,该算法分类准确率高、分类速度快。根据步骤D得到的实验数据集,即看涨新闻2259条,看跌新闻2521条,中立新闻2244条,进行金融文本情感倾向分类算法测试,得到情感倾向分类算法整体准确率为76.84%,其中看涨情绪的分类准确率达到80.68%,召回率为77.10%,F-measure为78.85%;看跌情绪的分类准确率达到82.32%,召回率为73.18%,F-measure为77.48%。本发明能够有效的提高Web金融文本情感倾向分类的效率,对于把握整体金融市场情绪以及利用金融趋势预测具有重要的指导意义。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号