首页> 中国专利> 一种基于回归分析的新闻竞争力分析方法及其可视化装置

一种基于回归分析的新闻竞争力分析方法及其可视化装置

摘要

本发明公开了一种基于回归分析的新闻竞争力分析方法及其可视化装置,方法包括:通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;将竞争力模型进行多元回归分析,扩展成一个多元回归模型;通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。装置包括:获取模块、扩展模块、评测及量化模块以及评估模块。本发明实现了对新闻数据的分析,且通过实验验证了本发明具有较高的拟合程度。本发明适用于新闻媒体上新闻事件竞争力的可视化分析。

著录项

  • 公开/公告号CN105373579A

    专利类型发明专利

  • 公开/公告日2016-03-02

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201510508730.7

  • 申请日2015-08-18

  • 分类号G06F17/30;

  • 代理机构天津市北洋有限责任专利代理事务所;

  • 代理人李林娟

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-12-18 14:35:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-03

    授权

    授权

  • 2016-03-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150818

    实质审查的生效

  • 2016-03-02

    公开

    公开

说明书

技术领域

本发明涉及数据挖掘、信息检索和数据可视化领域,尤其涉及一种基于回归分析的新闻竞争力分析方法及其可视化装置。

背景技术

目前在数据可视化技术中,主要分为两大方面。一是社交媒体的可视化,马库斯等研究人员发明了TwitInfo来自动检测和显示微博活动高峰;Dork等研究人员介绍了基于web的系统提供一个可视化的技术来总结大型Twitter数据流,其运用了集群来减少数据的复杂性以便分析。Gansner提出一种文本流的可视化方法,它通过使用多尺度云在微博上建立主题云模型,来显示主题的变化趋势。

上述技术都是专注于将社交媒体上的一个事件的扩散过程给可视化出来,却难以可视化出多个在传播中的话题。

另一个相关技术是时态数据的可视化。目前,有许多不同的方式来处理分析时态数据,并将它们可视化出来。相关研究人员为了将时态多元数据很好的可视化出来,在原可视化技术上进行了扩展,例如:提出了平行坐标法等。在平行坐标法中,时间常被作为横轴,或者通过周期性的模式突显出来,将相同时间序列的数据聚合起来,便于可视化大量的时态数据。但其模式过于单一,需要与实际分析相结合进行扩展。

发明内容

本发明提供了一种基于回归分析的新闻竞争力分析方法及其可视化装置,本发明利用可视化技术将新闻事件间复杂的协同竞争关系给展示出来,便于分析人员对新闻的分析,详见下文描述:

一种基于回归分析的新闻竞争力分析方法,所述方法包括以下步骤:

通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;

将竞争力模型进行多元回归分析,扩展成一个多元回归模型;

通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;

多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。

其中,所述方法还包括;对新闻数据进行分词、统计词频的预处理。

其中,所述将竞争力模型进行多元回归分析,扩展成一个多元回归模型的步骤具体为:

将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。

其中,所述方法还包括;使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。

一种基于回归分析的新闻竞争力分析的可视化装置,所述可视化装置包括:

获取模块,用于通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;

扩展模块,用于将竞争力模型进行多元回归分析,扩展成一个多元回归模型;

评测及量化模块,用于通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;

评估模块,用于多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。

其中,所述可视化装置还包括:

预处理模块,用于对新闻数据进行分词、统计词频的预处理。

其中,所述扩展模块包括:

扩展子模块,用于将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。

其中,所述可视化装置还包括:

建立模块,用于通过ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。

本发明提供的技术方案的有益效果是:本发明实施例通过零和博弈、新闻事件发展趋势增长率提出新闻事件竞争力模型;根据ThemeRiver的特点,结合多种可视化方法建立可视化模型,将所研究的新闻竞争力的变化和新闻自身的发展趋势直观的展现出来,并且可以将新闻自身的发展趋势进行适当的展示。本发明实现了对新闻数据的分析,且通过实验验证了本发明具有较高的拟合程度。本发明适用于新闻媒体上新闻事件竞争力的可视化分析。

附图说明

图1为一种基于回归分析的新闻竞争力分析方法的流程

图2为可视化模型的示意

图3为新闻事件的趋势曲线示意

图4为新闻事件主题词汇云示意

图5为一种基于回归分析的新闻竞争力分析的可视化装置的结构示意

图6为一种基于回归分析的新闻竞争力分析的可视化装置的另一结构示意

图7为扩展模块的示意

图8为一种基于回归分析的新闻竞争力分析的可视化装置的另一结构示意

附图中,各标号所代表的部件列表如下:

1:获取模块;2:扩展模块;

3:评测及量化模块;4:评估模块;

5:预处理模块;6:建立模块;

21:扩展子模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于回归分析的新闻竞争力分析方法,参见图1,该方法通过可视化模型将竞争关系展示出来,该新闻竞争力分析方法包括以下步骤:

101:对新闻数据进行分词、统计词频的预处理;

本发明实施例利用现有的分词工具对新闻媒体所发布的新闻数据进行中文分词处理,并统计该新闻数据的发布量以及发布时间,通过分词结果统计词频。本发明实施例对该步骤的具体操作不做赘述。

102:通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;

对于新闻事件来说,媒体对于新闻事件的传播是和该事件本身的发展趋势密切相关的,因而媒体对新闻事件报道的总趋势是按照一定的上凸曲线规律发展的。

在新闻事件传播中,新闻事件不得不为了吸引媒体的报道和公众的关注去相互竞争。作为新闻事件的兴起,它必定会牺牲别的新闻事件的受关注程度。新闻之间的竞争必然会受到一些客观条件的限制,其中:包括公共处理信息的能力,有限的传播空间或者媒体报道新闻事件的事件,甚至整个社会系统都是影响因素。这导致新闻之间存在一种博弈关系,类似零和博弈。从而,通过零和博弈与新闻发展规律的共性来提出一种差分方程,该差分方程记为建立基于新闻事件发展趋势增长率的竞争力模型,具体步骤如下:

将一个时间段内所有新闻事件的报道量总和记为新闻媒体报道量增量。由于新闻事件的发展趋势会影响到新闻事件的被报道量,因而新闻事件被报道量的增长率不仅只与当前时刻的报道量总和有关,还与之前时刻的报道量总和有关。本发明实施例提出了新闻事件发展趋势增长率,最后结合零和博弈与话题竞争力的共性(例如:PanpanXu在文献《VisualAnalysisofTopicCompetitiononSocialMedia[J].IEEETRANSACTIONSONVISUALIZATIONANDCOMPUTERGRAPHICS,2013,19(12):2012–2021.》中提出的话题竞争力模型),提出基于新闻媒体的竞争力模型。

103:将竞争力模型进行多元回归分析,扩展成一个多元回归模型;

其中,对竞争力模型进行剖析,发现新闻时间的媒体报道量的变化发展趋势是取决于几个影响因素的,这就是一个因变量和多个自变量有依存关系,而且这多个影响因素之间主次难以区分,因而使用多元回归分析预测法,具体步骤如下:

将上述步骤提出的竞争力模型整合成一个线性回归方程,使得自变量与因变量成高度线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法可求解该参数。

104:通过半偏相关系数评测新闻事件间的竞争力,通过半偏相关系数对竞争力进行量化;

在多元回归模型中,可以很好的预测新闻事件下一时刻的新闻媒体报道量,但没有直接去计算新闻事件的竞争力,后续的可视化分析需要对新闻事件竞争力提供一个直观的计算方式。本发明实施例通过多元回归模型中特有的相关分析方法来评测新闻事件间的竞争力,即使用半偏相关系数来反映自变量与因变量之间的真实相关程度,该真实相关程度作为新闻事件相互之间的竞争关系。

105:多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估;

其中,多元回归模型通过计算竞争力模型的拟合程度来对竞争力模型进行评估,回归方程对样本数据点拟合程度越强,说明自变量与因变量的关系越密切。即利用此方法可以对竞争模型进行相似的评估。

106:使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题以可视化的方式给展示出来,建立可视化模型。

ThemeRiver是第一个自动创造平滑曲线来处理许多时间序列的可视化系统。ThemeRiver模型属于专题可视化结构样式,其主要特点是:将多列时态数据集合在一起,按时间构造一个类似包含不同成分涌流的可视化显示方式。利用这个模型把大量信息可视化之后,用户不用逐个阅读详细数据,就能够宏观了解事件在某个时间段或整个时间区间内的发展趋势,以及多个事件在某个时间段或整个时间区间内的对比情况,ThemeRiver模型主要用于发现某主题时间的发展趋势,帮助确定与实践相关的各个时间的主要内容与内在联系。ThemeRiver模型在处理时变多元数据上具有很大优势,既有宏观追踪又有微观分析,其应用领域广泛。

由于新闻事件是具有时序性的,因而使用基于时间轴的可视化方法对其进行可视化分析。此可视化所设计的主题是基于时间轴的设计来显示在新闻媒体上新闻事件之间的相互影响以及各新闻自身的发展趋势与主题内容。

采用ThemeRiver模型来描述新闻事件间竞争力随时间的推移而发生的变化趋势,对于每一个新闻事件,都利用一条河流去进行描述与展示。通过对新闻数据的预处理结果,利用词汇云的形式将新闻数据的主题内容可视化地展示出来;并通过曲线展示某一新闻时间的整体发展趋势,并显示目前所处的发展阶段。

综上所述,本发明实施例通过上述步骤101-步骤106实现了对新闻数据的分析,且具有较高的拟合程度。

实施例2

下面结合具体的计算公式、例子和附图对实施例1中的方案进行详细描述,可视化模型的总体展示效果如图1所示,本发明实施例主要分为两大步骤,一是竞争力模型的理论推导与评估,另一是通过建立可视化模型去进行可视化分析,详见下文描述:

201:对新闻数据进行分词、统计词频的预处理;

本发明实施例是通过现有的分词工具对新闻媒体上的原始数据进行分词和统计词频等预处理,为后续的模型评估与可视化分析提供了数据依据。具体操作步骤参见实施例1,本发明实施例对此不做赘述。

202:分析新闻在传播中、新闻之间的协同关系,获取新闻事件的发展趋势增长率,基于新闻事件的发展趋势增长率和零和博弈,建立竞争力模型;

对于新闻事件来说,新闻事件的发展会受到外界条件的限制,并且媒体对于新闻事件的传播是和该事件本身的发展趋势是密切相关的,因而媒体对新闻事件的报道的总趋势是按照一定的上凸曲线的规律发展的。因而影响下一时刻的媒体报道量的因素应该包括先前时刻的发布量的增长率。本发明实施例提出新闻事件的发展趋势增长率,见公式(1)。

Tit=ditst-st-1---(1)

其中,为新闻事件i在t时刻的发展趋势增长率;为一个时间间隔内新闻事件i的媒体报道量的增量;st为在t时刻里所有新闻事件的媒体报道量的总和;st-1为在t-1时刻里所有新闻事件的媒体报道量的总和;t为一个时刻;i为第i个新闻事件的标号。

根据上述的理论基础,可以看出新闻事件的发展趋势增长率的发展规律类似零和博弈的性质。通过零和博弈与新闻事件发展规律的共性来提出一种差分方程,该差分方程记为用于建立基于新闻事件发展趋势增长率的竞争力模型,见公式(2)。

Δpit=Tit-1Σj=1,jikβijpjt-1-pit-1Σj=1,jikβjiTjt-1,fori{1,...,k}---(2)

其中,为新闻事件i在t时刻的媒体报道增量;为新闻事件i在t-1时刻的发展趋势增长率;βij为新闻事件i对新闻事件j的影响因子;为新闻事件j在t-1时刻的媒体报道量;为新闻事件i在t-1时刻的媒体报道量;βji为新闻事件j对新闻事件i的影响因子;为新闻事件j在t-1时刻的发展趋势增长率;k为新闻事件的总数;j为第j个新闻事件的标号;βij和βji构成了影响因子矩阵。

通过该竞争力模型可以预测下一时刻新闻事件i的媒体报道量。在这个竞争力模型中,影响新闻事件i的媒体报道量的竞争机制分为两种:一种是积极的竞争机制,即其他新闻事件带来的积极影响以及自身发展趋势增长率的结合。另一种是消极的竞争机制,即其他新闻事件的自身发展趋势增长率以及自身当前时刻的媒体报道量的结合。

这里假设共有k个新闻事件,则就存在k个平行的差分方程。在这个模型中,β为影响因子,估计出好的影响因子矩阵是关键,影响因子的好坏会影响到竞争力模型的好坏。

203:对竞争力模型进行多元回归分析预测,扩展成一个多元回归模型,通过最小二乘法求解回归方程中的参数;

为了提高该竞争力模型的鲁棒性,使得竞争力模型对影响因子矩阵的依赖降低,将竞争力模型进行多元回归分析预测,扩展成一个多元回归模型,即将公式(2)扩展成线性方程,将公式(2)展开,对于等号右侧的乘积项做以下转变,具体见公式(3)、公式(4)。

xjt=Tjtpjt---(3)

hjt=pitTjt---(4)

其中,为和的乘积;为和的乘积;为新闻事件j在t时刻的媒体报道量;为新闻事件j在t时刻的发展趋势增长率。

扩展后的竞争力模型见公式(5)。

Δpit=b0+Σj=1kbjxjt-1+Σj=1kbj+khjt-1---(5)

其中,b0、bj、bj+k为多元回归方程的参数;为多元回归方程中代表积极竞争机制的自变量;为多元回归方程中代表消极竞争机制的自变量。

公式(2)中的影响因子矩阵的参数βij估计转变成对于多元回归模型的参数bj估计。多元回归方程的参数bj估计,同一元回归方程的一样,也是要求在误差平方和最小的前提下,用最小二乘法求解参数bj

公式(5)是一个完整的多元回归模型,两种竞争机制的影响因素作为自变量来解释因变量的变化,在实际研究过程中就有k个平行的这样回归模型需要进行回归分析。

从多元回归模型的概念上来看,对于新闻事件所受到的积极竞争机制的影响是自变量x带来的,而消极竞争机制的影响是自变量h带来的。刻画新闻事件所受到的竞争力就需要将自变量对于因变量的影响给映射出来。这里利用多元回归模型中的半偏相关系数来评测新闻事件间的竞争力。通过后续的实验评估,发现该模型的拟合程度较高,适用于新闻数据的分析。

204:通过上述多元回归模型可以预测下一时刻新闻事件的媒体报道量。

本发明实施例需要量化新闻间的竞争力,通过使用回归方程的半偏相关系数可量化这两种竞争机制,最后通过计算该多元回归模型的半偏相关系数就可评测新闻事件的竞争力。

205:通过评估和分析来验证竞争力模型的有效性;

206:使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题以可视化的方式给展示出来,建立可视化模型。

制定可视化模型的设计目标,此可视化模型,用于将新闻事件间的相互竞争力直观的展现出来,并且结合事件的推移能够刻画出新闻事件间竞争力的变化趋势。竞争力的可视化展示需要将其进行定量的分析。

在此可视化模型中,对于某一新闻事件,不仅要展示其他新闻事件对该新闻事件的总影响,也需要展示各个新闻事件间竞争力的转移情况,从总体到部分都需要提供一个直观的展现方式。对于某一新闻事件,不仅是其他新闻事件对该新闻事件的影响需要进行可视化分析,该新闻事件在时间点所处的发展阶段,以及自身的新闻主题也需要进行相应的可视化分析。

为此设计一个基于时间轴的可视化模型,用于提供一个直观的手段来整合在竞争力模型中的多种类型的时态数据。采用ThemeRiver模型来描述新闻事件间竞争力随时间推移的变化趋势,对于每一个新闻事件,都利用一条河流去进行描述与展示。可视化模型的具体效果图1

可视化模型的设计不但要展现新闻事件竞争力的发展趋势,同时也要展示新闻事件自身的发展趋势以及主题内容。本发明实施例通过词汇云和趋势来展示新闻事件自身的主题内容和发展趋势。对于每一个新闻事件,都有自身的总发展趋势。

通过新闻事件在新闻媒体的报道量来作为衡量新闻发展的一种标准,通过趋势来展示新闻事件的整体发展趋势并结合ThemeRiver模型显示在一个时间间隔里,新闻事件所处总发展趋势的阶段。趋势效果如图2所示。

图2是乌克兰事件的整体趋势效果,横轴代表时间轴,纵轴代表新闻事件在新闻媒体中的报道量,曲线的变化描述了新闻事件的整体发展趋势,其中圆点表示该时间间隔里新闻事件所处的阶段。根据整体趋势效果,研究人员能观测到该新闻事件在其整个生命周期中的发展趋势,并结合阶段性特征可进一步分析影响其发展趋势的其他因素。

通过词汇云来展示新闻事件的主题内容。通过数据预处理中的分词步骤,将新闻事件中的关键字、关键词提取出来,并通过统计词频来计算关键词语的出现频率,词频率越高的词语越能说明该新闻事件的主题内容。本发明实施例在可视化模型中,对于每一个新闻事件都创建一个词汇云来描述新闻事件的主题内容,词汇云效果如图3所示。

图3是昆明事件的词汇云效果,它词汇的分布以及大小来展示该事件的主题内容,处于圆心且字体最大的词汇是该事件的主题词汇。通过词汇云的展示,利于分析人员对新闻事件的主题进行剖析。

词汇云的设计基于一个圆形内,利用关键词的分布来形象的展示新闻事件的主题内容,显示词语的大小是根据词频来决定的,词频越高的词语显示大小越大,所处的位置越靠近圆心。通过这形象的词汇云展示,可以直观形象的表述出新闻事件的主题内容,从而起到可视化分析的效果。

综上所述,本发明实施例通过上述步骤201-步骤206中记载的技术方案实现了对新闻数据的分析,且具有较高的拟合程度;为今后社交媒体数据可视化分析以及新闻事件预警的可视化打下了基础。

实施例3

下面结合具体的实验对实施例1、实施例2中的方案进行可行性验证,详见下文描述:

本发明实施例主要是针对新闻事件竞争力模型的评估和分析,通过评估和分析来评测新闻事件竞争力模型的有效性,才能决定该模型是否适用。

本发明的评测结果如表1表2所示。

表1实验评估结果

表2实验评估结果

评测结果如表1表2所示。在上述表格中,y表示新闻事件实际的报道增量,表示运用竞争力模型所估计的新闻报道增量,R2表示估计值与实际值的完全平方偏差,R2的值越小,证明该模型的拟合程度越高。根据评测结果所示,该竞争力模型的拟合程度偏高,具有一定的有效性,适用于新闻事件间竞争力的分析,从而便于研究人员对新闻的深入分析以及新闻预警的效果。

实施例4

一种基于回归分析的新闻竞争力分析的可视化装置,参见图5,该可视化装置包括:

获取模块1,用于通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;

扩展模块2,用于将竞争力模型进行多元回归分析,扩展成一个多元回归模型;

评测及量化模块3,用于通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;

评估模块4,用于多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。

其中,参见图6,该可视化装置还包括:

预处理模块5,用于对新闻数据进行分词、统计词频的预处理。

其中,参见图7,扩展模块2包括:

扩展子模块21,用于将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。

其中,参见图8,该可视化装置还包括:

建立模块6,用于通过ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。

综上所述,本发明实施例通过上述模块、子模块记载的技术方案实现了对新闻数据的分析,且具有较高的拟合程度;为今后社交媒体数据可视化分析以及新闻事件预警的可视化打下了基础。

本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号