首页> 中国专利> 一种面向新闻事件演变过程的可视化展现方法

一种面向新闻事件演变过程的可视化展现方法

摘要

本发明一种面向新闻事件演变过程的可视化展现方法属于自然语言处理及计算机应用技术领域,涉及一种面向新闻事件演变过程的可视化展现方法。该方法从新闻源获取某特定新闻事件的相关新闻报道网页,并进行去重处理,得到该事件的无重复新闻报道数据集;再按新闻报道时间进行数据子集划分,得到按时间先后排序的数据子集;从各数据子集中提取该报道时间的人物、地点要素,生成事件摘要;以报道时间对应的数据子集中的满足重要性的人物、地点和事件摘要句子为节点,以它们间的关联关系为边,进行该事件可视化展现。该方法帮助读者全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系,以降低读者获取新闻信息的成本。

著录项

  • 公开/公告号CN103473263A

    专利类型发明专利

  • 公开/公告日2013-12-25

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN201310303085.6

  • 发明设计人 郭艳卿;赵锐;孔祥维;蒋金平;

    申请日2013-07-18

  • 分类号G06F17/30(20060101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人关慧贞

  • 地址 116024 辽宁省大连市凌工路2号

  • 入库时间 2024-02-19 22:05:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-08

    授权

    授权

  • 2014-01-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130718

    实质审查的生效

  • 2013-12-25

    公开

    公开

说明书

技术领域

本发明属于自然语言处理及计算机应用技术领域,特别涉及一种面向新闻事件演变过程的可视化展现方法。 

背景技术

随着网络技术及多媒体技术的发展和普及,人们获取社会新闻事件信息的途径发生了巨大的变化。报纸、广播、电视等新闻媒介的核心地位正逐渐被网络新闻媒体所取代,网络新闻报道已成为大众主要的信息获取平台。但网络新闻报道纷繁复杂,内容相近甚至重复的新闻报道浪费了人们宝贵的查阅时间,不同视角的“碎片式”报道使得人们很难快捷地掌握新闻事件的来龙去脉,因此目前急需一种全面、精炼、直观的新闻事件展现方法来降低大众获取新闻信息的时间成本。目前网络新闻事件的展现方法主要有以下两类: 

第一类方法:通过职业新闻工作者对特定新闻事件的网络新闻报道进行人工编辑、分类整理,使得相关信息更为有序、便于用户进行阅读。对于重大新闻事件,新浪、凤凰、网易等新闻网站则更为细致地整理出新闻专题报道,以提供更为全面的相关信息。该方法的优点,是可以帮助用户较全面地掌握整个新闻事件的发展过程及细节信息;缺点是人工编辑、整理的成本较高,并且针对重大新闻事件所整理出的专题报道数量仍旧较多,仍需要花费大量时间阅读专题中的报道才能掌握新闻事件的发展过程。 

第二类方法:利用搜索、聚类等信息处理技术对新闻事件的相关信息进行收集和整理,并可按信息的来源及类型(如新闻、论坛、博客、视频等)进行更为细致的分类展现,同时可按信息发布时间的先后顺序进行排序。该方法的优点,是虽然采用搜索、聚类等信息处理技术实现了对新闻事件相关信息的自 动搜集、整理和提炼主题,大大降低了人工编辑、整理的成本;但缺点是无法精炼、直观地展现出新闻事件的发展过程,也无法对新闻事件中人物、地点等关键要素的关联关系及演化过程。 

发明内容

本发明主要针对现有两类网络新闻展现技术的不足,发明一种面向新闻事件演变过程的可视化展现方法,依据编写的计算机程序,具体执行所述方法的各个步骤。在降低人工编辑、整理成本的同时,全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系。 

本发明采用的技术方案是一种面向新闻事件演变过程的可视化展现方法,依据编写的计算机程序,具体执行所述方法的各个步骤。该方法具体包括: 

1.一种面向新闻事件演变过程的可视化展现方法,其特征在于,首先从新闻源获取某特定新闻事件的相关新闻报道网页并进行去重处理,得到该事件的无重复新闻报道数据集;进而将新闻报道数据集,按新闻报道时间进行数据子集划分,得到按报道时间先后排序的数据子集;从各数据子集中提取该报道时间的人物、地点新闻事件要素,在此基础上生成该报道时间的事件摘要;最后以每个新闻报道时间对应的数据子集中,满足重要性要求的人物、地点新闻要素和事件摘要句子为节点,以它们之间的关联关系为边,进行该时间节点的事件可视化展现。 

2.所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,对获取的某特定新闻事件的相关新闻报道网页并进行去重处理,具体包括对每篇新闻报道网页文本中的字符进行出现次数统计,将出现次数超过预设要求的字符作为该网页的特征字符;将所有特征字符按出现次数排列成特征字符串,在其基础上利用Hash方法生成一个固定长度的特征码;如果两篇新闻报道网页的 特征码相同,则认为其中之一是重复网页。 

3.所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,对数据子集的选择,具体包括若数据子集内包含人物、地点句子的数量大于预设阈值,则将该数据子集判别为重要数据子集,将该数据子集对应的新闻报道时间判别为该特定新闻事件的重要报道时间。 

4.所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,事件摘要的生成过程,具体包括根据数据子集中句子的重要性由大到小排序,选择重要性大于预设要求的句子作为该报到时间数据子集的事件摘要;其中,句子重要性的定义涉及词频统计权值和新闻要素权值两方面因素:句子词频统计权值的计算方法采用了TFIDF权值计算方法;句子新闻要素权值的计算方法为人物、地点新闻要素在数据子集中出现的相对频次;具体过程包括: 

首先,从各数据子集中提取人物、地点等新闻事件要素得到新闻要素词组集合(如地点要素词组集合:L={l1,l2,...ln}),并对要素词组集合进行权值量化;以地点要素词组集合为例,各个地点要素的权值量化过程为: 

p(li)=nli|L|---(1)

式(1)中是地点要素li在数据子集中的出现次数,|L|是数据子集中所有地点要素的总个数,将p(li)作为要素li的权重; 

其次,计算各数据子集中词的权重,利用TFIDF方法算出数据子集中每个词wi的得分Score(wi),具体公式可表示为: 

Score(wi)=TF(wi)×IDF(wi)|W|---(2)

式(2)中TF(wi)为词wi在数据子集中的出现次数, 表示词wi在总数据集中出现的数据子集频率 的倒数,|W|是数据子集中词的总个数;将Score(wi)作为词wi的权重,若词wi为要素词组,则用新闻要素的权值调整词的权重,否则词的权重不变;以词wi为地点要素为例,调整权重方法的具体公式可以表示为: 

π(wi)=(1+p(wi))·Score(wi)wiLScore(wi)wiL---(3)

式(3)中π(wi)表示词wi的权重; 

再次,根据句子Sj中包含词的权重对句子赋予权重,对该句子所包含的词的权重求平均值,公式为: 

π(Sj)=Σi=1nwin,wiSj---(4)

式(4)中π(Sj)表示句子Sj的权重,n表示句子Sj中包含的词的个数; 

最后,依据句子权重由大到小对句子进行排序,并选取排序靠前的若干句子作为该时间点的事件摘要。 

5.所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,新闻事件演变过程的可视化展现,其中人物、地点新闻要素的重要性计算方法为人物、地点新闻要素在数据子集中出现的相对频次;事件摘要句子的选择方法与权利要求4中的事件摘要生成过程相同;对已确定的节点和边进行中心度分析,重要性越大的节点在图中的大小越大,放置位置越趋于图的中部;若事件摘要句子节点中包含某人物或某地点,则将图中的该事件摘要句子节点与该人物或该地点节点用线连接,否则节点间不连接。 

本发明的有益效果是,可协助读者全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系。 

附图说明

图1本发明一种面向新闻事件演变过程的可视化展现方法流程图, 

图2为本发明某一时间点新闻事件可视化展示图的一个优选实施例, 

图3为本发明多个连续时间点新闻事件可视化展示图的一个优选实施例。 

具体实施方式

下面结合附图和技术方案详细说明本发明的具体实施方式。 

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实例对本发明进行详细描述。 

图1为本发明实施例提供的面向新闻事件演变过程的可视化展现方法流程图,如图1所示,该方法包括以下步骤: 

步骤一:从新闻源获取某特定新闻事件的相关新闻报道网页。 

在本步骤中,可以使用新闻平台提供的接口,根据特定新闻事件的关键词获取相关新闻报道网页。其中,新闻平台可以是任意网站的新闻频道,也可以是搜索引擎搜集的新闻数据。 

步骤二:对获新闻报道网页进行去重处理,得到新闻报道数据集。 

在本步骤中的新闻报道网页去重处理,可采用基于字符频次Hash值的网页去重方法,具体的去重过程可以包括: 

首先,对获取的每篇新闻报道网页的文本字符进行出现次数统计,将出现次数超过预设要求的非停用词字符作为该篇新闻报道网页的特征字符; 

其次,将每篇新闻报道网页中所有特征字符,按出现次数排列成特征字符串,并应用Hash方法将该特征字符串映射成一个固定长度的特征码; 

最后,两两比较所有获取新闻报道网页的特征码,如两篇新闻报道网页的特征码相同,则认为其中之一是重复网页,并从新闻报道数据集中去除掉。 

当然,上述基于字符频次Hash值的网页去重方法仅是本发明提供的一优选实施方式,也可以采用其他网页去重方法。 

步骤三:对新闻报道数据集按报道时间和重要性确定出按时间排序的数据子集。 

在本步骤中,数据子集确定方法的具体过程可以为: 

首先,将新闻报道数据集中的网页文本按新闻报道时间进行数据子集划分,将报道时间相同的网页文本归为以该报道时间为标签的同一个数据子集; 

其次,对每个数据子集中所有网页文本进行分词处理,并标记出哪些句子中包含人物、地点等新闻事件要素; 

再次,如果某一数据子集中包含人物、地点等新闻关键要素的句子数量大于预设阈值,则将该数据子集判别为重要数据子集,并予以留用;否则,则去除掉将该报道时间的数据子集; 

最后,按报道时间的先后顺序,重新排列留用的各数据子集。 

步骤四:从每个数据子集中提取人物、地点等新闻事件要素,并形成该时间点的事件摘要。 

在本步骤中,各时间点上事件摘要的提取,可采用基于新闻事件要素的多文档摘要提取方法,具体过程包括: 

首先,从各数据子集中提取人物、地点等新闻事件要素得到新闻要素词组集合(如地点要素词组集合:L={l1,l2,...ln}),并对要素词组集合进行权值量化。以地点要素词组集合为例,各个地点要素的权值量化过程为: 

p(li)=nli|L|---(1)

式(1)中是地点要素li在数据子集中的出现次数,|L|是数据子集中所有地点要素的总个数。将p(li)作为要素li的权重。 

其次,计算各数据子集中词的权重。利用TFIDF方法算出数据子集中每个词wi的得分Score(wi),具体公式可表示为: 

Score(wi)=TF(wi)×IDF(wi)|W|---(2)

式(2)中TF(wi)为词wi在数据子集中的出现次数, 表示词wi在总数据集中出现的数据子集频率的倒数,|W|是数据子集中词的总个数。将Score(wi)作为词wi的权重。若词wi为要素词组,则用新闻要素的权值调整词的权重,否则词的权重不变。以词wi为地点要素为例,调整权重方法的具体公式可以表示为: 

π(wi)=(1+p(wi))·Score(wi)wiLScore(wi)wiL---(3)

式(3)中π(wi)表示词wi的权重。 

再次,根据句子Sj中包含词的权重对句子赋予权重,对该句子所包含的词的权重求平均值,公式为: 

π(Sj)=Σi=1nwin,wiSj---(4)

式(4)中π(Sj)表示句子Sj的权重,n表示句子Sj中包含的词的个数。 

最后,依据句子权重由大到小对句子进行排序,并选取排序靠前的若干句子作为该时间点的事件摘要。 

当然,上述基于新闻事件要素的多文档摘要提取方法仅是本发明提供的一优选实施方式,也可以采用其他事件摘要提取方法。 

步骤五:以满足重要性要求的人物、地点等新闻要素和事件摘要句子为节点,以它们之间的关联关系为边,对每个时间点的事件进行可视化展现。 

在本步骤中,每个时间节点的事件可视化展现方法的具体过程可包括: 

首先,计算人物、地点等新闻要素在某一时间点数据子集中出现的相对频次, 并作为新闻要素重要性的度量方法; 

其次,按重要性大小对新闻要素进行排序,并保留重要性超过预设要求的新闻要素,去除掉重要性未超过预设要求的新闻要素,以此方法获得该时间点的新闻要素节点; 

再次,按前述步骤四中的事件摘要生成方法生成该时间点的摘要句子,并将摘要句子的权重值作为其重要性的度量方法,以此方法获得该时间点的事件摘要句子节点; 

最后,以上述新闻要素节点和事件摘要节点之间的关联关系为边,画出每个时间点的事件可视化展现图形。其中,节点之间的关联关系可描述为:若事件摘要句子节点中包含某人物(或某地点),则将图中的该事件摘要句子节点与该人物(或该地点)节点用线连接,否则节点间不连接。此外,可视化展现图形是建立在对节点和边进行中心度分析的基础上的,重要性越大的节点在图中的大小越大,放置位置越趋于图的中部。依据编写的计算机程序,执行步骤1、2、3、4、5所述方法。 

步骤六:连接相邻时间点可视化图形中具有关联关系的节点,展现该特定新闻事件演变过程。 

在本步骤中,相邻时间点可视化图形中的节点连接方法可以为:如果相邻时间点可视化图形中存在相同的节点,则连接这两个相同的节点,否则不连接。 

图2给出了可视化展现图形的一个优选实施方式。如图所示,三角形代表某一时间点数据子集内的人物要素,三角形的大小代表了人物的重要性;正方形代表该时间点数据子集内的地点要素,正方形的大小同样代表了地点的重要性;圆形代表从该时间点数据子集内抽取的事件摘要句子,圆形的大小代表了摘要句子的重要性。图中最重要的摘要句子为“负责人A某、负责人B某赶赴W 地动车事故现场指挥”,其中包含“负责人A某”、“负责人B某”两个人物要素和“W地”这一地点要素,因此最大的圆形分别与代表“A某”、“B某”的两个三角形和代表“W地”的正方形相连接。 

图3给出了相邻时间点可视化图形连接的一优选实施方式。图中按从上到下的顺序给出了“W地动车追尾脱轨”事件的部分可视化展示图形,图中的箭头连接了相邻时间节点的相同地点。 

该实例体现了本发明所提供的可视化展现方法的特点,可协助读者全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号