首页> 中国专利> 社会媒体事件的动态观点演变的可视化方法及设备

社会媒体事件的动态观点演变的可视化方法及设备

摘要

本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。

著录项

  • 公开/公告号CN103324662A

    专利类型发明专利

  • 公开/公告日2013-09-25

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201310134433.1

  • 申请日2013-04-18

  • 分类号G06F17/30(20060101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王勇

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2024-02-19 20:39:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-28

    授权

    授权

  • 2013-10-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130418

    实质审查的生效

  • 2013-09-25

    公开

    公开

说明书

技术领域

本发明属于互联网信息挖掘与分析领域,尤其涉及以社会媒体事件为主线的各种信息流的观点分析及可视化方法。 

背景技术

随着web2.0技术的快速发展,使得越来越多的人能够通过Twitter、微博等平台对事件和话题的发展发表他们的意见和想法。带有情感的内容反映了事件的发展和人们的反应,并可以看出事件的发展趋势。情感分析在这个分析过程中有非常重要的作用。情感分析包含了情感分类,观点抽取和意见挖掘,评分预测等部分。情感分析的结果通常以图表的形式展现给用户,但是却不能帮助用户更好的理解事件的发展过程,除非用户自己去阅读关于此事件的大量非结构化的数据。 

将情感分析的结果可视化的目的是通过提升人机交互性能来帮助用户更好的理解数据,发现事件的发展趋势和转折点。参考文献1提出了观点三角和环来可视化旅店评论的不同情感。参考文献2通过对观点的全面分析,提出了基于一个产品不同方面的“意见块”可视化方法。参考文献3使用了基于像素点的情绪块和高密度地质图来进行可视化。参考文献4提出了一种简单的有向路径的方法来描述事件情感之间的时间关系。但是这些可视化方法大部分是基于饼图或直方图等,并不能显示事件的情感随时间变化及变化趋势。 

参考文献列表: 

参考文献1,Y.Wu,F.Wei,S.Liu,N.Au,W.Cui,H.Zhou,and H.Qu,OpinionSeer:Interactive Visualization of Hotel Customer Feedback,IEEE Trans.16(6):1109–1118,2010. 

参考文献2,B.Alper,H.Yang,E.Haber and Kandogan,OpinionBlocks:Visualizing Consumer Reviews,IEEE VisWeek2011Workshop on Interactive Visual Text Analytics for Decision Making. 

参考文献3,M.Hao,C.Rohrdantz,H.Janetzko,U.Dayal,D.Keim,L.Haug and M.Hsu,Visual Sentiment Analysis on Twitter Data Streams.IEEE Symposium on Visual  Analytics Science and Technology.2011. 

参考文献4,D.Das,A.Kolya,A.Ekbal,S.Bandyopadhyay,Temporal analysis of sentiment events:a visual realization and tracking.CICLing'11Proceedings of the12th international conference on Computational linguistics and intelligent text processing. 

发明内容

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种有效的,更直观的情感可视化方法,帮助用户理解事件发展过程中动态观点的演变,识别事件的转折点和预测事件的发展趋势等。 

本发明的目的是通过以下技术方案实现的: 

一方面,本发明提供了一种社会媒体事件的动态观点演变的可视化方法,所述方法包括: 

步骤1)确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,所述信息的情感隶属度表示该信息以多大概率属于某一情感分类; 

步骤2)基于所述信息的情感分类,建立所述信息集合的情感可视化图形的几何布局,所述几何布局中,以横轴表示信息产生的时间,以纵轴表示属于各情感分类的信息的数量; 

步骤3)基于所述信息的情感隶属度对所建立的几何布局进行着色。 

上述方法中,所述步骤1)可包括: 

步骤11)从所述社会媒体事件信息集合中挑选少部分信息进行人工情感标注; 

步骤12)基于这些已标注的信息训练用于进行情感分类的分类器; 

步骤13)使用训练好的分类器对所述社会媒体事件信息集合中未进行人工情感标注其余信息进行分类,确定每条信息的情感隶属度和情感分类。 

上述方法中,所述步骤12)可以以信息的文本视图特征和非文本视图特征来训练所述分类器,其中,信息的文本视图特征该信息中情感词的基于信息检索的逐点互信息值组成的向量来表征,信息的非文本视图特征包括表情符号特征、时间特征和标点符号特征。 

上述方法中,在所述步骤2)在所述几何布局中,最底层的曲线函数为S0,第i层情感分类的曲线函数为: 

Si=S0+Σj=1iρj

其中,密度函数ρj为在单位时间段内属于第j种情感分类的信息数量,1≤i≤n;S0=0或者n为情感分类的数量。 

上述方法中,所述步骤3)可包括: 

步骤31)建立所述信息的情感隶属度与信息的颜色之间的映射; 

步骤32)在所建立的几何布局上,按照信息颜色的渐变顺序为各情感分类层上的信息着色。 

上述方法中,所述情感分类为积极、中立或消极。 

上述方法中,所述步骤31)可采用如下函数来建立所述信息的情感隶属度与信息的颜色之间的映射: 

RGB(t)=((1-n(t))*255,255,0),p(t)n(t)(255,(1-p(t))*255,0),p(t)<n(t)

其中,t表示所述社会媒体事件信息集合中的任一信息,n(t)表示对该信息t对消极情感分类的隶属度,p(t)表示该消息t对积极情感分类的隶属度。 

上述方法中,还可包括步骤4)在所建立的情感可视化图形上标注情感标签,所述情感标签为在所述社会媒体事件信息中出现的情感词。 

上述方法中,所述步骤4)中,所述情感标签在所述步骤3)得到的可视化图形上的字体大小以如下公式计算: 

F(w)=α*PMI-IR(w)*f(w) 

其中,w表示要在所述可视化图形上显示的任一情感词,f(w)是情感词w在每种情感分类的信息中出现的频率,PMI-IR(w)表示该情感词w的基于信息检索的逐点互信息值,α是比例因子。 

又一方面,本发明提供了一种社会媒体事件的动态观点演变的可视化设备,包括: 

用于确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类的装置,所述信息的情感隶属度表示该信息以多大概率属于某一情感分类; 

用于基于所述信息的情感分类,建立所述信息集合的情感可视化图形的几何布局的装置,所述几何布局中,以横轴表示信息产生的时间,以纵轴表示属于各情感分类的信息的数量; 

用于基于所述信息的情感隶属度对所建立的几何布局进行着色的装置。 

与现有技术相比,本发明的优点在于: 

可以直观的显示信息流中事件的情感变化,包括情感的强度和演化、观点标签的抽取等,从而在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。 

附图说明

以下参照附图对本发明实施例作进一步说明,其中: 

图1为根据本发明实施例的可视化方法的流程示意图; 

图2为根据本发明实施例的可视化方法的几何布局示意图; 

图3为根据本发明实施例的可视化方法所得到的情感分析可视化视图的示意; 

图4为采用根据本发明实施例的可视化方法的情感分析可视化结果示意图; 

图5为采用传统方法的情感分析可视化结果示意图。 

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 

在本发明的一个实施例中,提供了一种社会媒体事件的动态观点演变的可视化方法,可以直观的显示信息流中事件的情感变化,包括情感的强度和演化等。其中,社会媒体事件实际上就是Twitter或微博等平台上面关于不同事件话题的在连续时间流内的tweet或微博等信息。该方法主要包括下列步骤:步骤1)对所采集的社会媒体事件信息集合中的信息进行情感分类,也就是确定每条信息的情感隶属度和该信息所属的情感分类;步骤2)建立所述信息集合的情感可视化图形的几何布局;步骤3)对所建立的几何布局进行着色,以使情感强度可视化;步骤4)在所建立的情感可视化图形上标注情感标签。 

下文以来自TREC2011微博数据集合中从2008年6月到2009年9月 有关“Obama”的41096条微博作为社会媒体事件信息集合的一个示例,对根据本发明一个实施例的社会媒体事件的动态观点演变的可视化方法的步骤进行更详细的讨论。 

更具体地,在步骤1)对社会媒体事件信息集合中每条信息进行情感分类。对信息进行情感分类实际上就是计算该信息属于不同情感分类的隶属度(可简称为情感隶属度)并确定该信息所述的情感分类(也可称为情感类别)。每条信息的情感隶属度是指该信息以多大概率属于某一情感分类。例如,假设采用三种情感分类:积极、中立和消极,那么对于信息t可获取三种不同情感隶属度:积极p(t),中立m(t),消极n(t)。它们满足下列公式: 

p(t)+m(t)+n(t)=1。 

而信息t的情感类别为这3个隶属度中的最大值代表的情感类别,即t∈max(p(t),m(t),n(t))。例如,如果m(t)>p(t)>n(t),则表示信息t为中立情感类型的信息。对整个信息集合进行人工情感分类费时费力,因此通常可以采用基于机器学习的分类方法,也就是利用一定的已标注的数据集合来训练分类器,然后利用训练好的分类器来实现对整个信息集合中每条信息的情感分类。 

在一个实施例中,可以从上述的41096中均匀挑选2250条信息进行人工情感标注,例如,标注为积极、中立或消极。然后基于这些已标注的微博信息训练分类器,并使用训练好的分类器可对未进行人工情感标注的38846条微博进行情感分类,同时获得每条微博信息的情感隶属度。其中,分类器可以采用逻辑回归模型、决策树、朴素贝叶斯方法、k-最近邻方法、支持向量机(Support Vector Machine,SVM)模型、随机森林分类模型等典型的分类模型。在训练分类模型时,最关键的是以哪些特征来选择样本并训练模型,所谓训练分类模型就是利用样本数据和从样本数据中提取的特征通过训练来学习出分类模型中的参数,从而得到训练好的分类模型。在该实施例中,主要以社会媒体事件信息的文本视图特征和非文本视图特征来训练分类器。 

其中,信息的文本视图特征可以以该信息中情感词的PMI-IR值组成的向量来表征,其中情感词的PMI-IR值为该情感词的基于信息检索的逐点互信息(Point-wise Mutual Information and Information Retrieval)权重。信 息的非文本视图特征包括表情符号特征、时间特征和标点符号特征。下面简单地介绍获取信息的文本视图特征和非文本视图特征的步骤: 

步骤(11)获取信息的文本视图特征。信息的文本视图特征是由该信息中情感词的PMI-IR值组成的向量。每条信息中的情感词可以利用情感词典来识别,而情感词典中的情感词通常可以从公知的WordNet和HowNet中搜集而来。对于该信息的情感词集合P中任一个情感词w的PMI-IR的计算方式如下: 

PM-IR(w)=log2[htts(wNEARexcellent)htts(poor)htts(wNEARpoor)htts(excellent)]wp

在上式中hits()是向AltaVista搜索引擎发送请求获得的查询结果的数目,其中w NEAR excellent使用了AltaVista的NEAR操作符,就是返回结果要包含w和excellent,且这两个词语的单词距离不能超过10个。例如,利用WordNet和HowNet的情感词词典对41096条微博进行情感词识别,然后对这些情感词计算其PMI-IR值,从而可以获取每条微博信息的文本视图特征。如针对2008年6月份关于Obama的微博数据中,识别出下列的情感词:“incredible beautiful thank amazing moderate good admire adorable liked loser dissed shit fucking gay dead worst kill idiot sock stupid”,计算各情感词的PMI-IR值,可得(如表1所示): 

表1 

步骤(12)获取信息的非文本视图特征。信息的非文本视图特征包括时间特征、表情符号特征和标点符号特征。可以以如下方式来获取这些特征: 

对于时间特征,时间特征反映的是发表信息的时间;由于人们在早晨和晚上,月初和月末,春季和冬季往往都有不同的行为,因此可将发表信息的时间划分为基于小时、天、周和月的时间特征。例如,可以获取信息的发布时间,然后根据预先设定的15个时间段:早中午晚(共4个时间段),周一至周日(共7个时间段),月的第几周(每个月有4周,共4个 时间段),给对应上的时间段特征赋值为1,否则为0,组成15维的0-1向量,即构成时间特征。 

对于表情符号特征,是基于表情符号表得到的,每种表情符号对应一个情感值,即积极情感为+1,消极情感为-1,中性为0。例如基于从维基百科Wikipedia获取的表情特征库(具体该库的内容参见这个网址:http://en.wikipedia.org/wiki/List_of_emoticons)从该信息中提取所有的表情符号,例如:(<_>)、>:[等,将它们的情感标签记为积极(+1),中立(0),消极(-1)。则可以将每条信息中所包含的表情符号所对应的数值之和作为表情符号特征,不含有表情符号的,其特征值设置为0。例如,对于“Barack obama piss off:(”其表情符号特征值为-1;对于“I love Obama.:-)”,其表情符号特征值为1。 

对于标点符号特征,强调标识符(!),疑问标识符(?)以及它们的混合或者重复表达出的情感比较强烈。因此,可以将每一个标点符号在信息中出现的频率作为这个特征的值。例如可以通过遍历文本数据获取所包含的!和的数目来提取标点符号特征。 

通过上述方法就可以提取出每条信息的文本视图特征和非文本视图特征。在步骤1)可以将每条信息的各个特征组合成为一个总的特征向量,利用进行了人工情感标注的2250条微博对随机森林(Random forests)分类器进行训练。然后,使用训练后的随机森林分类器,基于每条微博信息的特征向量对未进行人工情感标注的38846条微博进行情感分类,同时获得每条微博信息的情感隶属度。例如,经训练后的分类器得到微博“Sisterbies good morning and thank you I think obama is beautiful.”的情感隶属度分别为p(t)=0.7595,m(t)=0.1288,n(t)=0.1117),则分类结果为此条微博属于“积极”情感类(p(t)>m(t)>n(t))。 

步骤2)基于对所述信息集合中信息的情感分类,建立所述信息集合的情感可视化图形的几何布局 

例如,分别统计上述信息集合中属于各个情感类别的信息的数量,建立所述信息集合的情感可视化图形的几何布局,在该几何布局中以横轴表示信息产生的时间,以纵轴表示属于各情感类别的社会媒体信息的数量。以上述的示例为例,情感类别为积极、中立、消极三种类别,那么在纵轴方向通常可以从上到下安排情感类别层,最下方为消极情感类别,中间为中立情感类别,最上方为积极情感类别。这三个情感类别层可以是基于水 平面从下向上依次排列,也可以是相对于情感类别中间层对称。 

例如,假设可视化图最底层的曲线函数为S0,情感类别i层的曲线函数是: 

Si=S0+Σj=1iρj---(1)

其中,密度函数ρj为属于情感类别j的信息数量分布,也可以理解为在单位时间段内该情感层上的社会媒体信息的数量。假设有n种情感类别(例如在上文的示例中提到的三种情感类别,即n=3),那么可视化图的最上层曲线函数是Sn为: 

Sn=S0+Σj=1nρj---(2)

一般来说,从大方向上看,情感通常可为三个类别体系(即n=3),例如积极、中立、消极。但理解,在上文介绍的方法,对情感类别n的取值不做特别的限制,例如,n可以取值为2,或者为了使可视化的效果更细致,也可以对情感进行更细的划分,例如n可取值为4、5、6等等。通过上述公式(1)和(2)可以看出,每个情感类别i的曲线都是在它前面的几个情感类别的曲线基础上累加得到的,从而可以产生情感类别从下至上依次排列的可视化效果。 

在上述公式中,通过将函数S0=0获取基于水平面的可视化图;通过S0=-Sn可以获取基于空间对称的可视化图。这两个图都是通过图的高度或者宽度来说明关注度,社会媒体信息的数量越多,图的高度越高,表示越多的人参与讨论,在这一时间段内对此事件的关注度越高。尽管如此,通过观察中立层的上下变化,空间对称的可视化图可以更直接的表示出积极和消极情感的比例,基于水平面的可视化图却不能。因此,在优选的实施例中,将底层曲线函数S0的数学表达式设置为如下的公式(3),从而得到相对于情感中间层对称的可视化图形的几何布局: 

S0=-12Σj=1nρj---(3)

图2给出了的根据本发明一个实施例的情感可视化图形的几何布局。如图2所示,横轴表示信息产生的时间,纵轴表示社会媒体信息的数量。该可视化图的几何布局采用对称的形式,中间层是持“中立”观点的人的数量,上下分别为“积极”和“消极”的人的数量,关于中间层是一个对 称的关系。每一层的厚度就反映该时间段内参与讨论的人数的多少及其情感的分类情况。 

步骤3)对所建立的情感可视化图形的几何布局进行着色,以使情感强度可视化。 

为了使可视化效果图不仅能辨识出情感的积极、中立、消极,同时能够体现出情感的强弱,需要对上述可视化图形中的各个情感类别层进行着色,以使情感强度的可视化。在一个实施例中,采用了一种颜色和情感隶属度的映射函数,以此用颜色的渐变来表示情感的变化及其强度。通过该映射函数调整了RGB颜色模型,使得红绿蓝三种颜色可以任意混合产生多种颜色。也就是说每一种颜色都由这三个元素决定,红绿蓝中每一种的值都在0到255之间。颜色的属性值和信息t的非负情感隶属度权重之间的映射函数如下定义: 

RGB(t)=((1-n(t))*255,255,0),p(t)n(t)(255,(1-p(t))*255,0),p(t)<n(t)---(4)

对于如下三种情况: 

RGB(t)=(0,255,0)表示纯绿色;    (a) 

RGB(t)=(255,255,0)表示纯黄色;    (b) 

RGB(t)=(255,0,0)表示纯红色;    (c) 

其中,公式(4)中,当第一个参数值(((1-n(t))*255)越大,绿色越淡;表示该类是分为“积极”的,但是以并不是很大的概率分为的“积极”,即p(t)≥n(t)and m(t)<1;当第二个参数值((1-p(t))*255)越大,红色越淡;表示该类是分为“消极”的,但是,是以并不是很大的概率分为的“消极”,即p(t)<n(t)。考虑到积极和消极的情感是对立的,所以当信息t属于积极或消极情感类别时,隶属度p(t)不可能等于n(t),即每条信息的情感要么是积极的,要么是消极的。当信息t属于中立情感类别时,若p(t)等于n(t),则直接令m(t)=1,p(t)=n(t)=0,作为绝对中立。因此,绝对中立处于中间图层,颜色是黄色(2),RGB元组值是(255,255,0)。 

例如,通过上述方法,对图2所示的几何布局图形的图层从上到下着色得到图3所示的着色后的可视化图:最上面的是绿色,即积极类,但是绿色逐渐变浅(最顶层,p(t)=1.0,纯绿色),紧接着表示那些是分为积极的类,但是这种概率是越来越小的,即“积极”的程度越来越弱。中间过渡到中立的黄色,最中间的纯黄色表示是以1.0的概率分为中立的那些 tweet,黄色靠上的部分就是分为中立,但是p(t)>n(t),黄色靠下的部分就是分为中立,但是p(t)<n(t)。最下面的是红色,即消极类,但是红色逐渐变深,也就是表示那些是分为消极的类,而且这种概率是越来越大的,即“消极”的程度越来越强,直到最下层的n(t)=1.0,纯红色。 

步骤4)在所建立的情感可视化图形上标注情感标签。 

可以将在社会媒体事件信息中出现的情感词作为情感标签显示在该情感可视化图形上,并且可以通过情感标签的字体大小来反映情感词出现的频率和情感词的情感强度,在该可视化图形中,情感标签w的字体大小F(w)计算如下: 

F(w)=α*PMI-IR(w)*f(w) 

其中f(w)是情感词w在每种情感分类的信息中出现的频率,PMI-IR(w)表示该情感词w的基于信息检索的逐点互信息值,α是比例因子,α大小跟可视化图的比例有关系,例如,如果可显示的最大字体为9号字,则可以将α设置为9。 

例如,假设在上述对2008年6月份的微博数据集处理的结果中情感标签为“incredible,beautiful,wrong,idolt”。再依据字体大小公式计算可得各情感标签文字的字体大小(表2所示),最终生成的情感可视化图形如图3所示。 

表2 

应理解,上述的步骤4)是可选的,在所建立的情感可视化图形上标注情感标签,是为了在该可视化图像上进一步显示更多的情感信息,以帮助用户更好地预测事件的发展趋势。可以所建立的可视化图形上显示所有的出现的情感词,也可以只显示部分出现频率高且PMI-IR值大的情感词。 

图4表示的是从2008年6月到2009年5月关于Obama的tweet分析结果。图4显示了关于Obama的情感演变过程,图上显示了2008年11月流的宽度增加,这说明关于Obama的tweet数量达到了高峰,图中的变化可以归因与2008年11月5号Obama击败了John McCain,当选为美国的第44任总统,并宣布当选。除此之外,在2009年1月,绿色图层超过了红色图层,显示了大部分的tweet用户发表了积极的内容,与此同时, Obama发表了就职演说,可以认为他的就职演说振奋人心并且很成功以至于很多人都支持他。 

与图5所示的传统的可视化方法如饼图和直方图进行了对比,如图5的饼图可以清晰的说明每一种情感所占的比例,但是却不能说明情感的强度,并且没有体现出情感的起伏变化。直方图集中说明了数据在不同时间序列的变化情况。直方图中的颜色梯度可以表示情感的强烈程度,但是它所面临的问题和基于水平面的可视化图是一样的,理解这样的直方图需要用户将情感变化和时间关联起来,除此之外,从直方图很难让看到情感随时间的演变,因为时间窗靠人工方式划分。因此,基于饼图和直方图的可视化方法提供的信息比较有限,只能提供对事件情感比较宏观的视角。图4所示的本发明的可视化图通过颜色梯度的变化使情感强度可视化,基于事件序列的tweet密度函数使得事件的转折点和爆发点以及事件的预测都比较直观。而且情感词标签也反映情感强度。整体上来说,图4所示的本发明提供的可视化图体现了人们对Obama的情感是随着时间而变化的,特别是当一些有影响的事件发生时,最终这些变化趋于平缓,这时候情感强烈的tweet(推特)也变的很少,由此看来,根据本发明实施例的情感可视化图帮助用户更好的理解情感在不同时间的强度变化和随时间而演变的趋势。 

在本发明的又一个实施例中,还提供了一种社会媒体事件的动态观点演变的可视化设备,包括:用于确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类的装置,所述信息的情感隶属度表示该信息以多大概率属于某一情感分类;用于基于所述信息的情感分类,建立所述信息集合的情感可视化图形的几何布局的装置,所述几何布局中,以横轴表示信息产生的时间,以纵轴表示属于各情感分类的信息的数量;用于基于所述信息的情感隶属度对所建立的几何布局进行着色的装置。该设备还可以包括用于在所建立的情感可视化图形上标注情感标签的装置。 

虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号