首页> 中国专利> 一种社群内文本价值的评估方法及装置

一种社群内文本价值的评估方法及装置

摘要

本发明公开了一种社群内文本价值的评估方法,包括:搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理;对目标文本进行预处理,将顺次链接的x个词作为词组,并将目标文本整合至语料库,对词汇数据库和词组数据库进行更新;计算目标文本中包含的词组在更新后的词组数据库中出现的概率;根据目标文本中词组出现的概率,计算每一个词组的信息量;根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分。本发明的方法可以提高评分的准确性,改善评估效果。

著录项

  • 公开/公告号CN112417088B

    专利类型发明专利

  • 公开/公告日2022-07-05

    原文格式PDF

  • 申请/专利权人 武汉渔见晚科技有限责任公司;

    申请/专利号CN201910763287.6

  • 发明设计人 刘垚;邹更;任钰欣;黄梓杰;

    申请日2019-08-19

  • 分类号G06F16/33(2019.01);G06F40/289(2020.01);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222;

  • 代理人罗飞

  • 地址 430070 湖北省武汉市洪山区创意天地08创意工坊

  • 入库时间 2022-08-23 13:58:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-05

    授权

    发明专利权授予

说明书

技术领域

本发明涉及计算机技术领域,具体涉及一种社群内文本价值的评估方法及装置。

背景技术

随着互联网时代的飞速发展,人与人之间的信息网络日益紧密,不同类型的互联网产品将人们聚集成无形的社群,而信息传播则是互联网社群中最重要的主题。

现有技术中,常用的对社群内文本价值的评估主要依赖于社群内用户的反馈。通过用户的反馈形成自文本内容的价值评估,并作为在文本的推广及控制的重要依据。此外,对于文本信息的质量评估,目前常用的有基于机器学习的方法通过人工标注的高质量文本训练集构建文本分类模型,或者针对文本中能体现文本质量的语言成分例如修辞和比喻句的数量来对文本的质量进行评价。

本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:

现有技术中依赖用户反馈的文本评估体系具有滞后性,并且具有不可避免的时间累积效应。滞后性会导致无法在信息得到一定的传播之前对信息进行评估和控制,并且依赖用户对优质信息进行筛选和评估增加了用户的阅读成本;而时间累积效应则使得先出现的信息会不断累积其传播优势,占据用户的信息获取渠道,使得后续出现的优质信息受阻,一方面使得优质信息难以有效曝光,另一方面又会使得用户的信息接收同质化。对于文本信息的质量评估,仅孤立的进行评估,从而导致评估效果不好。

由此可知,现有技术中的方法存在评估效果较差的技术问题。

发明内容

有鉴于此,本发明提供了一种社群内文本价值的评估方法及装置,用以解决或者至少部分解决现有技术中的方法存在的评估效果较差的技术问题。

本发明第一方面提供了一种社群内文本价值的评估方法,包括:

搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理,将顺次链接的x个词作为词组,将所有的词,组成词汇数据库;将所有的词组,组成词汇数据库,其中,x为大于或等于2的正整数;

对目标文本(T)进行预处理,将顺次链接的x个词作为词组,并将目标文本(T)整合至语料库,对词汇数据库和词组数据库进行更新;

计算目标文本(T)中包含的词组在更新后的词组数据库中出现的概率;

根据目标文本(T)中词组出现的概率,计算每一个词组的信息量,具体为:h(phrase)=-log

根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;

根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的原始信息量评分。

在一种实施方式中,在获得目标文本的原始信息量评分之后,所述方法还包括:

将原始信息量评分进行归一化处理得到信息量评分,将其值域控制在[0,100)之间,归一化处理方式为:

NSH(T)=actan(SH(T))*200/π,

其中,SH(T)表示原始信息量评分,NSH(T)表示信息量评分。

在一种实施方式中,顺次链接的x个词构成的词组中,按照出现顺序分为1位词、2位词和x位词,计算目标文本(T)中包含的词组出现的概率,包括:

对于目标文本(T)中的每个词组(phrase),计算由1位词至x位词构成的x元组(word1,...,wordx)在更新后的词组数据库中的频数,并与词组数据库中词组的总数量作商,得到x个词同时出现的概率p(word1,...,wordx);

当x=2,即词组中包含两个词时,计算1位词在词汇数据库中的频数,并与词汇数据库中词汇的总数量作商,得到1位词出现的概率;依据条件概率公式,计算得到1位词出现的情况下2位词出现的概率,即词组出现的概率,

p(phrase)=p(word2|word1)=p(word1∩word2)/p(word1)

其中,p(phrase)表示词组出现的概率,word1表示1位词,word2表示2位词,p(word1)表示1位词出现的概率,p(word1∩word2)表示1位词和2位词同时出现的概率;

当x>2,即词组中包含两个以上的词时,对于词组中的1至x-1位词,计算1至x-1位词(word1_x-1)在对应的x-1元词组数据库中的频数,并与该词组数据库中词组的总数量作商,得到1至x-1位词出现的概率;依据条件概率公式,计算得到1至x-1位词出现的情况下x位词出现的概率,即词组出现的概率,

p(phrase)=p(wordx|word1_x-1)=p(word1...wordx)/p(word1_x-1)

其中,p(phrase)表示词组出现的概率,word1表示1位词,wordx表示x位词,p(word1_x-1)表示1至x-1位词出现的概率,p(word1...wordx)表示x个词同时出现的概率。

在一种实施方式中,根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,包括:

获取社群内文本单元总数以及包含词组phrase的文本单元数,其中,文本单元表示社群内的每个个体及其对应的所有文本语料;

根据下述公式计算单个词组信息量的覆盖度修正参数,将其作为词组在社群内的传播潜力:

S_index=logN(N/n)

其中,S_index表示词组信息量的覆盖度修正参数,N表示文本单元总数,n表示包含词组phrase的文本单元数。

在一种实施方式中,所述方法还包括:

对目标文本(T)进行乱码判别;

根据乱码判别的结果对目标文本(T)的信息量评分进行修正。

在一种实施方式中,所述方法还包括:

对目标文本(T)进行重复性内容判别;

根据重复性内容判别的结果对目标文本(T)的信息量评分进行修正。

在一种实施方式中,所述方法还包括:

对目标文本(T)是否使用预设的表达词进行检测;

根据检测结果对目标文本(T)的信息量评分进行修正。

基于同样的发明构思,本发明第二方面提供了一种社群内文本价值的评估装置,包括:

语料库构建模块,用于搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理,将顺次链接的x个词作为词组,将所有的词,组成词汇数据库;将所有的词组,组成词汇数据库,其中,x为大于或等于2的正整数;

目标文本预处理模块,用于对目标文本(T)进行预处理,将顺次链接的x个词作为词组,并将目标文本(T)整合至语料库,对词汇数据库和词组数据库进行更新;

词组出现概率计算模块,用于计算目标文本(T)中包含的词组在更新后的词组数据库中出现的概率;

词组信息量计算模块,用于根据目标文本(T)中词组出现的概率,计算每一个词组的信息量,具体为:h(phrase)=-log

词组传播信息确定模块,用于根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;

评分模块,用于根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的原始信息量评分。

基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。

基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本发明提供的一种社群内文本价值的评估方法,首先搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理,将顺次链接的x个词作为词组,将所有的词,组成词汇数据库;将所有的词组,组成词汇数据库;接着对目标文本(T)进行预处理,将顺次链接的x个词作为词组,并将目标文本(T)整合至语料库,对词汇数据库和词组数据库进行更新;接下来计算目标文本(T)中包含的词组出现的概率;接着根据目标文本(T)中词组出现的概率,计算每一个词组的信息量;然后根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;再根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分。

由于本发明提供的方法,基于词汇及词汇的组织顺序来计算文本承载的信息量,在信息量的基础上,进一步根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,然后根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分,也就说,本发明可以基于信息量和传播潜力两个维度对一个社群内的文本价值进行评估,从而可以使得计算结果更为准确,更有利于挖掘文本的有价值的信息,改善了评估效果。

进一步地,本发明还对目标文本(T)进行乱码判别,并根据乱码判别的结果对目标文本(T)的信息量评分进行修正,可以进一步改善评估效果。

进一步地,本发明还对目标文本(T)进行重复性内容判别;并根据重复性内容判别的结果对目标文本(T)的信息量评分进行修正,有利于改善评估效果。

进一步地,本发明还对目标文本(T)是否使用预设的表达词进行检测;并根据检测结果对目标文本(T)的信息量评分进行修正,有利于改善评估效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种社群内文本价值的评估方法的流程示意图;

图2为具体实施方式中对社群内的语料文本进行预处理的流程示意图;

图3为具体实施方式中对目标文本进行预处理的流程示意图;

图4为具体实施方式中对文本价值进行评估的实现流程图;

图5为具体实施方式中乱码指数(U_index)的计算流程图;

图6为具体实施方式中重复指数(R_index)的计算流程图;

图7为具体实施方式中表达词丰富度指数(D_index)的计算流程图;

图8为具体实施方式中文本质量评分的修正流程图;

图9为本发明实施例中一种社群内文本价值的评估装置的结构框图;

图10为本发明实施例中一种计算机可读存储介质的结构框图;

图11为本发明实施例中计算机设备的结构图。

具体实施方式

本发明的目的在于针对现有技术中的方法仅孤立地对文本质量进行评估从而导致的评估效果较差的技术问题,提供的一种社群内文本价值的评估方法,从信息量和传播潜力两个维度对文本价值进行评估,以达到提高评估准确性,改善评估效果的目的。

为达到上述目的,本发明的主要构思如下:

基于词汇及词汇的组织顺序来计算文本承载的信息量,在信息量的基础上,进一步根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,然后根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分,也就说,本发明可以基于信息量和传播潜力两个维度对一个社群内的文本价值进行评估,从而可以使得计算结果更为准确,更有利于挖掘文本的有价值的信息,改善了评估效果。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本实施例提供了一种社群内文本价值的评估方法,请参见图1,该方法包括:

步骤S1:搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理,将顺次链接的x个词作为词组,将所有的词,组成词汇数据库;将所有的词组,组成词汇数据库,其中,x为大于或等于2的正整数。

具体来说,社群可以表示一个有相互关系的网络。请参见图2,为步骤S1的具体实现流程图,其中,对语料文本进行预处理包括:将每个语料文本中的标点符号替换为换行符,并做断句处理,然后对断句后的语料进行分词处理,这样就得到了一个个的分词(词语)。并将顺序出现的2个或以上的词语作为词组。根据x的取值不同,词组数据库包括二元词组数据库,三元词组数据库等等。词汇数据库和词组数据库都不进行去冗余处理。社群内的每个个体及其所有的文本语料,称为一个“文本单元”,统计社群内每个词组的文本单元数量,并存入词组数据库。

步骤S2:对目标文本(T)进行预处理,将顺次链接的x个词作为词组,并将目标文本(T)整合至语料库,对词汇数据库和词组数据库进行更新。

具体来说,请参见图3,为步骤S2的具体实现流程图,对目标文本(T)进行预处理的过程与对语料文本的预处理类似,包括标点符替换、断句和分词处理。

步骤S3:计算目标文本(T)中包含的词组在更新后的词组数据库中出现的概率。

具体来说,目标文本(T)中包含的词组可以为二元词组、三元词组或者x元词组。根据词组中词语搭配组合(即词组)出现的概率,用于后续计算其信息量。本申请发明人通过大量的实践与研究发现:信息本身由词汇及词汇的组织顺序来承载,而由于词汇的数量是有限的,因此词汇的组织顺序往往是承载信息的重要特征,由此本发明认为当用户阅读到新的词汇组织顺序时,用户便获得了新的信息。

在一种实施方式中,顺次链接的x个词构成的词组中,按照出现顺序分为1位词、2位词和x位词,计算目标文本(T)中包含的词组出现的概率,包括:

对于目标文本(T)中的每个词组(phrase),计算由1位词至x位词构成的x元组(word1,...,wordx)在更新后的词组数据库中的频数,并与词组数据库中词组的总数量作商,得到x个词同时出现的概率p(word1,...,wordx);

当x=2,即词组中包含两个词时,计算1位词在词汇数据库中的频数,并与词汇数据库中词汇的总数量作商,得到1位词出现的概率;依据条件概率公式,计算得到1位词出现的情况下2位词出现的概率,即词组出现的概率,

p(phrase)=p(word2|word1)=p(word1∩word2)/p(word1)

其中,p(phrase)表示词组出现的概率,word1表示1位词,word2表示2位词,p(word1)表示1位词出现的概率,p(word1∩word2)表示1位词和2位词同时出现的概率;

当x>2,即词组中包含两个以上的词时,对于词组中的1至x-1位词,计算1至x-1位词(word1_x-1)在对应的x-1元词组数据库中的频数,并与该词组数据库中词组的总数量作商,得到1至x-1位词出现的概率;依据条件概率公式,计算得到1至x-1位词出现的情况下x位词出现的概率,即词组出现的概率,

p(phrase)=p(wordx|word1_x-1)=p(word1...wordx)/p(word1_x-1)

其中,p(phrase)表示词组出现的概率,word1表示1位词,wordx表示x位词,p(word1_x-1)表示1至x-1位词出现的概率,p(word1...wordx)表示x个词同时出现的概率。

具体来说,由1位词至x位词构成的词组,可以为二元词组、三元词组、n元词组等等。具体地,参见表1~表3,分别为词汇数据、二元词组数据库、三元词组数据的示例。

表1 词汇数据库

表2 二元词组数据库

表3 三元词组数据库

当x>2,词组中包含两个以上的词,例如x=3,x个词同时出现的概率p(word1,...,wordx)表示这三个词同时出现的概率。计算1位词至2位词在对应的二元词组数据库中的频数(次数),然除以二元词组数据库中词组的总数量,计算得到1位词至2位词出现的概率,然后根据条件概率公式,计算得到1至2位词出现的情况下3位词出现的概率,即得到这个三元词组出现的概率。

步骤S4:根据目标文本(T)中词组出现的概率,计算每一个词组的信息量,具体为:h(phrase)=-log

具体来说,根据信息量公式,可以计算出每一个词组带给读者的信息量。由于目标文本(T)已经整合进步骤S1中的词汇数据库和词组数据库,因此任意phrase至少出现一次。一个词组的信息量越大,代表这个词组的组合越少见,词汇搭配越新颖,为读者提供的信息量越大;反之信息量越小代表这个词组的组合越常见,词汇搭配越固定,为读者提供的信息量越小。

步骤S5:根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比。

具体来说,本申请发明人通过大量的实践发现:现有技术中,基于机器学习的方法通过人工标注的高质量文本训练集构建文本分类模型,或者针对文本中能体现文本质量的语言成分例如修辞和比喻句的数量来对文本的质量进行评价。但是,单这些方法是孤立地对文本质量的评估,并未考虑文本在社群内用户的传播情况,不能判断文本是否带给用户新的信息,进而无法判断文本在社群内的传播潜力。

然而,在一个社群内,文本的信息价值除体现在文本的信息量层面外还体现在文本的传播价值方面。信息的传播价值使用其在社群中的覆盖度进行衡量。覆盖度越大说明信息在该社群内文本的剩余传播量越少,覆盖度越小说明其在该社群内剩余传播量越多。

在一种实施方式中,根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,包括:

获取社群内文本单元总数以及包含词组phrase的文本单元数,其中,文本单元表示社群内的每个个体及其对应的所有文本语料;

根据下述公式计算单个词组信息量的覆盖度修正参数,将其作为词组在社群内的传播潜力:

S_index=logN(N/n)

其中,S_index表示词组信息量的覆盖度修正参数,N表示文本单元总数,n表示包含词组phrase的文本单元数。

具体来说,一个phrase出现在5个文本单元中,每个文本单元出现100次,和一个phrase出现在500个文本单元中,每个文本单元出现1次,尽管其信息量的计算结果相同,但对于整个社群来说,其传播剩余价值不同。因此需要基于phrase的传播力对其信息量h(phrase)进行修正。举例来说,社群内文本单元总数为N,包含词组phrase的文本单元数量为n,则对于单个词组信息量的覆盖度修正参数S_index的公式则表示为:logN(N/n)。当N=n时,S_index=0即该phrase无传播价值,由于目标文本已经整合进词汇数据库和词组数据库,因此任意phrase至少出现一次,因此n最小为1,此时S_index=1,该phrase的传播价值达到最大。

步骤S6:根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的原始信息量评分。

具体来说,将词组phrase的S_index值乘以信息量h(phrase)得到修正信息量Sh(phrase),然后对目标文本(T)分词得到的所有词组phrase的修正信息量Sh(phrase)求平均数,从而可以得到这篇文本的信息量评分SH。

在一种实施方式中,在获得目标文本的原始信息量评分之后,所述方法还包括:

将原始信息量评分进行归一化处理得到信息量评分,将其值域控制在[0,100)之间,归一化处理方式为:

NSH(T)=actan(SH(T))*200/π,

其中,SH(T)表示原始信息量评分,NSH(T)表示信息量评分。

在一种实施方式中,所述方法还包括:

对目标文本(T)进行乱码判别;

根据乱码判别的结果对目标文本(T)的信息量评分进行修正。

具体来说,如果文本是由无意义的乱码组成的,那么其中的词汇搭配出现的概率将非常小,容易造成文本的信息量评分NSH(T)数值偏大。为避免这种情况,需要对乱码情况进行判别。如果一个词组(phrase)在少于2个文本单元中出现(由于目标文本(T)已经整合进词汇数据库和词组数据库,因此任意phrase至少出现一次),那么定义该词组为可疑词组(uncertain_phrase)。

在具体实施过程中,可以采用目标文本(T)的乱码指数(U_index)进行衡量。请参见图5,为乱码指数(U_index)的计算流程图,目标文本(T)词组总数N(All_phrase)除以可疑词组数量N(uncertain_phrase),则可以得到文本的乱码指数,计算公式为U_index(T)=N(All_phrase)/N(uncertain_phrase)。

根据乱码判别的结果对目标文本(T)的信息量评分进行修正,可以是:当目标文本的U_index(T)<2.0时,文本被判别为乱码,Y(T)=0,Y(T)表示修正后的评分。

在一种实施方式中,所述方法还包括:

对目标文本(T)进行重复性内容判别;

根据重复性内容判别的结果对目标文本(T)的信息量评分进行修正。

具体来说,目标文本(T)中如果重复出现相同内容,那么当该重复性内容的NSH(T)较高时,会拉高整个文本的评分。因此,本实施方式对重复性内容进行罚分修正。

在具体实施过程中,可以采用重复指数(R_index)来衡量,请参见图6,为重复指数(R_index)的计算流程图。目标文本(T)全部的词组数量N(All_phrase)除以文章不重复的词组数量N(Nr_phrase),则可以得到文本的重复指数,具体计算公式为:R_index(T)=N(All_phrase)/N(Nr_phrase)。

修正方式可以是:当文本R_index(T)>1.5时,启用罚分机制,罚分的计算方法为:

Y(T)=NSH(T)-(R_index(T)-1.5)*10

在一种实施方式中,所述方法还包括:

对目标文本(T)是否使用预设的表达词进行检测;

根据检测结果对目标文本(T)的信息量评分进行修正。

具体来说,目标文本中,如果使用了丰富的表达词(Eword),包括动词、形容词或副词。则认为目标文本(T)具有更好的表达张力,因此对未使用丰富Eword的文本需要进行罚分修正。

在具体实施过程中,可以采用目标文本(T)的表达词丰富度指数(D_index)来衡量。请参见图7,为表达词丰富度指数(D_index)的计算流程图。采用语义分析模型,标注目标文本(T)中的全部Eword。以Eword总数N(All_Eword)除以不重复的Eword数量N(Nr_Eword)得到目标文本的表达词丰富度指数,具体计算公式为:D_index(T)=N(All_Eword)/N(Nr_Eword)。

修正方式可以是:当文本D_index(T)>3.0时,启用罚分机制,罚分的计算方法为:

Y(T)=NSH(T)-(R_index(T)-3.0)*10。

需要说明的是,在具体实施过程中,可以结合乱码判别、重复性内容判断以及丰富度判断的一种或者多种,来对文本价值的评分进行修正,从而提高评分的准确性。请参见图8,为一种文本质量评分的修正流程图,该方式中结合乱码指数(U_index)、重复指数(R_index)和表达词丰富度指数(D_index)来进行修正,首先判断乱码指数是否小于2,当乱码指数<2时,文本为乱码,此时将评分置为0,否则判断重复指数是否大于1.5,如果大于,则通过重复指数进行修正,重复指数修正完成后或者重复指数不大于1.5时,进行表达词丰富度指数的判断。此外,当文本因罚分而使得Y(T)<0时,Y(T)=0。

为了更清楚地说明本发明的实现流程,下面通过几个示例予以详细介绍,请参见图4,为对文本价值进行评估的实现流程图。

首先,对目标文本进行断句处理,得到一个个的句子(句子1、句子2…句子n),然后对每个句子进行分词处理,以句子1为例,分词后可以得到不同的词语(word1、word2、word3、wordn),以二元词组为例,word1、word2构成词组phrase。根据word1出现的概率和两个词同时出现的概率,计算词组出现的概率,接着计算词组带给读者的信息量h(phrase)。根据包含phrase的文本但书数量和社群内文本单元总数计算词组信息量的覆盖度修正参数S_index。接下来根据信息量h(phrase)以及覆盖度修正参数S_index,计算修正信息量Sh(phrase),然后对目标文本中所有的词组的修正信息量求平均数,从而得到目标文本的信息量评分,最后进行归一化处理,得到最终的信息量评分。

示例一:

合恩角是南美洲的最南端,地形复杂且气候恶劣,终年强风不断,波涛汹涌,堪称世界上海况最恶劣的航道之一。

词汇列表:['合恩角','是','南美洲','的','最南端','地形','复杂','且','气候','恶劣','强风','不断','波涛汹涌','堪称','世界','上','海况','最','恶劣','的','航道','之一']

词组列表:['合恩角+是','是+南美洲','南美洲+的','的+最南端','地形+复杂','复杂+且','且+气候','气候+恶劣','强风+不断','堪称+世界','世界+上','上+海况','海况+最','最+恶劣','恶劣+的','的+航道','航道+之一']

对于词组“世界+上”的计算如下:

p_word1_word2(世界+上)=0.00031978839945072423

p_word1(世界)=0.0013908097037316097

p_phrase(世界+上)=0.22992965794868736

h_phrase(世界+上)=2.1207355278488125

S_index(世界+上)=0.09578403120899699

Sh(世界+上)=0.20313259798549937

对于词组“复杂+且”的计算如下:

p_word1_word2(复杂+且)=3.334602705429867e-07

p_word1(复杂)=9.321150288234715e-05

p_phrase(复杂+且)=0.0035774583633082805

h_phrase(复杂+且)=8.126849308597139

S_index(复杂+且)=0.7903415048925304

Sh(复杂+且)=6.422986312591483

对于词组“且+气候”的计算如下:

p_word1_word2(且+气候)=6.669205410859734e-08

p_word1(且)=0.00020938074838354993

p_phrase(且+气候)=0.00031852046868429773

h_phrase(且+气候)=11.616326293973737

S_index(且+气候)=1.0

Sh(且+气候)=11.616326293973737

对于词组“南美洲+的”的计算如下:

p_word1_word2(南美洲+的)=1.0670728657375574e-06

p_word1(南美洲)=5.828914607014577e-06

p_phrase(南美洲+的)=0.18306544831750163

h_phrase(南美洲+的)=2.4495685716101083

S_index(南美洲+的)=0.647227317405562

Sh(南美洲+的)=1.5854276954041848

对于词组“地形+复杂”的计算如下:

p_word1_word2(地形+复杂)=1.4005331362805442e-06

p_word1(地形)=1.5543772285372205e-05

p_phrase(地形+复杂)=0.09010252534377035

h_phrase(地形+复杂)=3.4722886481101916

S_index(地形+复杂)=0.6309225466580092

Sh(地形+复杂)=2.190745196597378

对于词组“堪称+世界”的计算如下:

p_word1_word2(堪称+世界)=2.2675298396923095e-06p_word1(堪称)=3.737663664673382e-05

p_phrase(堪称+世界)=0.06066703810521857

h_phrase(堪称+世界)=4.0429433121474645

S_index(堪称+世界)=0.5706574375390948

Sh(堪称+世界)=2.3071356706258928

对于词组“气候+恶劣”的计算如下:

p_word1_word2(气候+恶劣)=3.334602705429867e-07

p_word1(气候)=5.767557611151266e-05

p_phrase(气候+恶劣)=0.005781654783963649

h_phrase(气候+恶劣)=7.434301814956798

S_index(气候+恶劣)=0.7903415048925304

Sh(气候+恶劣)=5.875637284258225

对于词组“恶劣+的”的计算如下:

p_word1_word2(恶劣+的)=7.536202114271499e-06

p_word1(恶劣)=1.4418894027878165e-05

p_phrase(恶劣+的)=0.5226615924703139

h_phrase(恶劣+的)=0.9360509474289722

S_index(恶劣+的)=0.4123786891864524

Sh(恶劣+的)=0.3860074627124964

对于词组“是+南美洲”的计算如下:

p_word1_word2(是+南美洲)=1.5339172444977387e-06

p_word1(是)=0.015105274288269074

p_phrase(是+南美洲)=0.00010154845355499411

h_phrase(是+南美洲)=13.265544110033836

S_index(是+南美洲)=0.6388200038250708

Sh(是+南美洲)=8.47429493911346

对于词组“最+恶劣”的计算如下:

p_word1_word2(最+恶劣)=1.0670728657375574e-06

p_word1(最)=0.0021943306953915577

p_phrase(最+恶劣)=0.00048628625939498525

h_phrase(最+恶劣)=11.00590655248606

S_index(最+恶劣)=0.6562148909536591

Sh(最+恶劣)=7.222239768185802

对于词组“的+最南端”的计算如下:

p_word1_word2(的+最南端)=9.603655791638017e-06

p_word1(的)=0.06442218685332284

p_phrase(的+最南端)=0.00014907373159349168

h_phrase(的+最南端)=12.71168631802845

S_index(的+最南端)=0.4197404301194033

Sh(的+最南端)=5.335608682672196

对于词组“的+航道”的计算如下:

p_word1_word2(的+航道)=6.002284869773761e-07

p_word1(的)=0.06442218685332284

p_phrase(的+航道)=9.31710822459323e-06

h_phrase(的+航道)=16.71168631802845

S_index(的+航道)=0.7137716250260632

Sh(的+航道)=11.928327500144992

对于词组“合恩角+是”的计算如下:

p_word1_word2(合恩角+是)=6.669205410859734e-08

p_word1(合恩角)=4.090466390887423e-07

p_phrase(合恩角+是)=0.1630426649077749

h_phrase(合恩角+是)=2.6166785574453666

S_index(合恩角+是)=1.0

Sh(合恩角+是)=2.6166785574453666

对于词组“强风+不断”的计算如下:

p_word1_word2(强风+不断)=6.669205410859734e-08

p_word1(强风)=1.2271399172662268e-06

p_phrase(强风+不断)=0.05434755496925829

h_phrase(强风+不断)=4.201641058166523

S_index(强风+不断)=1.0

Sh(强风+不断)=4.201641058166523

对于词组“上+海况”的计算如下:

p_word1_word2(上+海况)=6.669205410859734e-08

p_word1(上)=0.0033398658081595805

p_phrase(上+海况)=1.996848314853336e-05

h_phrase(上+海况)=15.611915727894425

S_index(上+海况)=1.0

Sh(上+海况)=15.611915727894425

对于词组“海况+最”的计算如下:

p_word1_word2(海况+最)=6.669205410859734e-08

p_word1(海况)=1.5339248965827835e-07

p_phrase(海况+最)=0.43478043975406633

h_phrase(海况+最)=1.2016410581665227

S_index(海况+最)=1.0

Sh(海况+最)=1.2016410581665227

对于词组“航道+之一”的计算如下:

p_word1_word2(航道+之一)=6.669205410859734e-08

p_word1(航道)=1.4827940666966906e-06

p_phrase(航道+之一)=0.044977286871110314

h_phrase(航道+之一)=4.4746595525729385

S_index(航道+之一)=1.0

Sh(航道+之一)=4.4746595525729385

在计算出各个词组的修正信息量Sh(phrase)后,求平均数,得到SH,然后进行归一化处理,进行乱码判别,没有出现乱码,分别计算重复指数R_index、丰富度指数D_index,进行罚分修正,最终得到的评分Y为88.32469777023694,评分越高,表示文本的价值越大。

SH=5.3914356093241835

NSH=88.32469777023694

U_index=2.83333333333335

R_index=1.4285714285714286

D_index=1.1666666666666667

Y=88.32469777023694

示例二:

无限长的曲线就是宇宙的抽象,一头连着无限的过去,另一头连着无限的未来,中间只有无规律无生命的随机起伏。

词汇列表:['无限','长','的','曲线','就是','宇宙','的','抽象','连','着','无限','的','过去','另一头','连','着','无限','的','未来','中间','只有','无规律','无','生命','的','随机','起伏']

二元词组列表:['无限+长','长+的','的+曲线','曲线+就是','就是+宇宙','宇宙+的','的+抽象','连+着','着+无限','无限+的','的+过去','另一头+连','连+着','着+无限','无限+的','的+未来','中间+只有','只有+无规律','无规律+无','无+生命','生命+的','的+随机','随机+起伏']

三元词组列表:['无限+长+的','长+的+曲线','的+曲线+就是','曲线+就是+宇宙','就是+宇宙+的','宇宙+的+抽象','连+着+无限','着+无限+的','无限+的+过去','另一头+连+着','连+着+无限','着+无限+的','无限+的+未来','中间+只有+无规律','只有+无规律+无','无规律+无+生命','无+生命+的','生命+的+随机','的+随机+起伏']

分别计算二元词组和三元词组中词组的出现概率、词组的信息量、词组信息量的覆盖度修正、信息量评分等。

p_word1_word2_word3(无限+长+的)=2.1658926488303964e-07

p_word1_word2(无限+长)=1.7184988843505244e-07

p_phrase(无限+长+的)=1.2603398632108838

h_phrase(无限+长+的)=-0.33381282329128703

S_index(无限+长+的)=1.0

Sh(无限+长+的)=-0.33381282329128703

p_word1_word2_word3(的+随机+起伏)=2.1658926488303964e-07

p_word1_word2(的+随机)=1.5466489959154718e-06

p_phrase(的+随机+起伏)=0.14003776257898712

h_phrase(的+随机+起伏)=2.836112178151025

S_index(的+随机+起伏)=1.0

Sh(的+随机+起伏)=2.836112178151025

其他的词组计算与上述的计算过程类似,在此不再一一列举。最后综合所有词组的信息,对目标文本进行评分,评分结果如下:

SH=3.6597203716282865

NSH=83.01919915574385

U_index=3.83333333333335

R_index=1.15

D_index=1.25

Y=83.01919915574385

总体来说,本发明提供的方法,基于词汇及词汇的组织顺序来计算文本承载的信息量,在信息量的基础上,进一步根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,然后根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分,也就说,本发明可以基于信息量和传播潜力两个维度对一个社群内的文本价值进行评估,从而可以使得计算结果更为准确,更有利于挖掘文本的有价值的信息,改善了评估效果。

实施例二

基于同样的发明构思,本实施例提供了一种社群内文本价值的评估装置,请参见图9,该装置包括:

语料库构建模块201,用于搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理,将顺次链接的x个词作为词组,将所有的词,组成词汇数据库;将所有的词组,组成词汇数据库,其中,x为大于或等于2的正整数;

目标文本预处理模块202,用于对目标文本(T)进行预处理,将顺次链接的x个词作为词组,并将目标文本(T)整合至语料库,对词汇数据库和词组数据库进行更新;

词组出现概率计算模块203,用于计算目标文本(T)中包含的词组在更新后的词组数据库中出现的概率;

词组信息量计算模块204,用于根据目标文本(T)中词组出现的概率,计算每一个词组的信息量,具体为:h(phrase)=-log

词组传播信息确定模块205,用于根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;

评分模块206,用于根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分。

在一种实施方式中,所述装置还包括归一化处理模块,用于在获得目标文本的信息量评分之后:

将原始信息量评分进行归一化处理得到信息量评分,将其值域控制在[0,100)之间,归一化处理方式为:

NSH(T)=actan(SH(T))*200/π,

其中,SH(T)表示信息量评分,NSH(T)表示信息量评分。

在一种实施方式中,顺次链接的x个词构成的词组中,按照出现顺序分为1位词、2位词和x位词,词组出现概率计算模块203具体用于:

对于目标文本(T)中的每个词组(phrase),计算由1位词至x位词构成的x元组(word1,...,wordx)在更新后的词组数据库中的频数,并与词组数据库中词组的总数量作商,得到x个词同时出现的概率p(word1,...,wordx);

当x=2,即词组中包含两个词时,计算1位词在词汇数据库中的频数,并与词汇数据库中词汇的总数量作商,得到1位词出现的概率;依据条件概率公式,计算得到1位词出现的情况下2位词出现的概率,即词组出现的概率,

p(phrase)=p(word2+word1)=p(word1∩word2)/p(word1)

其中,p(phrase)表示词组出现的概率,word1表示1位词,word2表示2位词,p(word1)表示1位词出现的概率,p(word1∩word2)表示1位词和2位词同时出现的概率;

当x>2,即词组中包含两个以上的词时,对于词组中的1至x-1位词,计算1至x-1位词(word1_x-1)在对应的x-1元词组数据库中的频数,并与该词组数据库中词组的总数量作商,得到1至x-1位词出现的概率;依据条件概率公式,计算得到1至x-1位词出现的情况下x位词出现的概率,即词组出现的概率,

p(phrase)=p(wordx+word1_x-1)=p(word1...wordx)/p(word1_x-1)

其中,p(phrase)表示词组出现的概率,word1表示1位词,wordx表示x位词,p(word1_x-1)表示1至x-1位词出现的概率,p(word1...wordx)表示1位词至x位词同时出现概率。

在一种实施方式中,词组传播信息确定模块205具体用于:

获取社群内文本单元总数以及包含词组phrase的文本单元数,其中,文本单元表示社群内的每个个体及其对应的所有文本语料;

根据下述公式计算单个词组信息量的覆盖度修正参数,将其作为词组在社群内的传播潜力:

S_index=logN(N/n)

其中,S_index表示词组信息量的覆盖度修正参数,N表示文本单元总数,n表示包含词组phrase的文本单元数。

在一种实施方式中,所述装置还包括乱判判别模块,用于:

对目标文本(T)进行乱码判别;

根据乱码判别的结果对目标文本(T)的信息量评分进行修正。

在一种实施方式中,所述装置还包括重复性内容判别模块,用于:

对目标文本(T)进行重复性内容判别;

根据重复性内容判别的结果对目标文本(T)的信息量评分进行修正。

在一种实施方式中,所述装置还包括预设表达词检测模块,用于:

对目标文本(T)是否使用预设的表达词进行检测;

根据检测结果对目标文本(T)的信息量评分进行修正。

由于本发明实施例二所介绍的装置,为实施本发明实施例一中社群内文本价值的评估方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

实施例三

请参见图10,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中社群内文本价值的评估方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思,本申请还提供了一种计算机设备,请参见图11,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中社群内文本价值的评估方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号