首页> 中国专利> 一种确定词语在文本中的贡献度的方法及系统

一种确定词语在文本中的贡献度的方法及系统

摘要

本发明实施例公开了一种确定词语在文本中的贡献度的方法及系统,其中所述方法包括:获取第一文本,从所述第一文本中选取至少一个词语;将该第一文本划分为至少一个文本片段;统计所述词语在所述第一文本的文本片段中出现的位置和出现次数;根据统计的参数计算所述词语对所述第一文本的贡献度,所述参数包括所述词语在所述第一文本的所述文本片段中出现的位置和出现次数。本发明实施例所提供的方法通过结合词语在第一文本中的文本片段中出现的位置和出现次数以及词语本身的长度计算该词语对第一文本的贡献度,相较于现有的TF/IDF,本发明实施例所提供的方法能够更加真实地反映出词语的贡献度。

著录项

  • 公开/公告号CN102081627A

    专利类型发明专利

  • 公开/公告日2011-06-01

    原文格式PDF

  • 申请/专利号CN200910241286.1

  • 发明设计人 张宇峰;于亮;王海洲;

    申请日2009-11-27

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人逯长明;王宝筠

  • 地址 100085 北京市海淀区小营西路33号金山软件大厦1层西区

  • 入库时间 2023-12-18 02:39:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-13

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20140917 终止日期:20141127 申请日:20091127

    专利权的终止

  • 2014-09-17

    授权

    授权

  • 2014-04-30

    专利申请权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20140404 申请日:20091127

    专利申请权、专利权的转移

  • 2011-08-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20091127

    实质审查的生效

  • 2011-06-01

    公开

    公开

说明书

技术领域

本发明涉及信息识别领域,尤其涉及一种确定词语在文本中的贡献度的方法及系统。

背景技术

互联网的发展和信息技术的进步,带来了信息量的猛增,使得人们很难在浩瀚的信息中找到真正需要的信息。虽然各种搜索引擎的出现在一定程度上解决了这一问题,但是各种搜索引擎返回的搜索结果一般都十分庞大,并且不利于用户找到需要的信息。针对这个问题,一种解决方案就是文本自动分类。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。寻求一种有效的词语贡献度的计算方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中的首要问题。

发明人通过对现有技术的研究发现,现有的现有技术中在计算词语对文本的贡献度时,主要采用TF/IDF公式。TF/IDF公式假设特征词语之间是正交关系,并且假定特征词语的对文本的贡献度与其在文本中的出现位置无关。现有的贡献度计算方法考虑的因素过于简单,不能真实地反映词语对文本的贡献度。

发明内容

有鉴于此,本发明实施例提供一种确定词语在文本中的贡献度的方法及系统,提高词语对文本的贡献度的真实性。

为实现上述目的,本发明实施例提供了如下技术方案:

一种确定词语在文本中的贡献度的方法,包括:

获取第一文本,从所述第一文本中选取至少一个词语;

将该第一文本划分为至少一个文本片段;

统计所述词语在所述第一文本的文本片段中出现的位置和出现次数;

根据统计的参数计算所述词语对所述第一文本的贡献度,所述参数包括所述词语在所述第一文本的所述文本片段中出现的位置和出现次数。

可选地,该方法还包括:统计所述词语的长度;所述参数还包括所述词语的长度。

根据统计的参数计算所述词语对所述第一文本的贡献度包括:

根据如下公式计算所述领域词关键词的贡献度:

Weight(CWi)=1mΣq=1mwiq*fiq

其中:CWi为所述至少一个词语中的第i个词语;Weight(CWi)为第i个词语CWi的贡献度;m为所述第一文本中的文本片段的数目;q为文本片段在文本中的位置;wiq为第i个词语在文本片段位于q位置处的贡献度;fiq为第i个在文本片段位于q位置处的出现次数。

根据统计的参数计算所述词语对所述第一文本的贡献度包括:

根据如下公式计算所述词语对所述第一文本的贡献度:

Weight(CWi)=1mΣq=1mwiq*fiq*loga(li+α),

其中:CWi为所述至少一个词语中的第i个词语;Weight(CWi)为第i个词语CWi的贡献度;m为所述第一文本中的文本片段的数目;q为文本片段在文本中的位置;wiq为第i个词语在文本片段位于q位置处的贡献度;fiq为第i个在文本片段位于q位置处的出现次数,li为第i个领域关键词的词长;α为调整常数,a为可调底数。

所述可调底数a取自然常数e。

当将所述文件片段在文本中的位置分为第一区域和第二区域时,wiq通过如下公式计算:

wiq=ln(m-qm+β)q=y,y1~mλfiqq=-1,

其中,当第i个词语位于所述第一文本的第一区域时,q=-1;否则q=y,y∈1~m,y为第i个词语所在的文本片段在所述第一文本中的位置;λ为加权常数;β为调整常数。

一种领域词排序方法,包括:

选择A领域中的N个文本作为第一文本;

在所述N个文本中选取M个待定领域词作为至少一个词语,根据权利要求1~6中任意一项所述的方法计算M个待定领域词对所述A领域的贡献度;

按照所述M个待定领域词的贡献度对所述M个待定领域词进行排序。

可选地,该方法还包括:

将M个待定领域词中贡献度排在前L位的待定领域词确定为所述A领域的领域词,其中,L不大于M。

一种文本评审方法,包括:

获取A领域中一待评审文本以及该文本中自定的Y个关键词;

结合所述A领域的领域词对所述待评审文本进行检索匹配,确定出所述待评审文本中所包含的所述A领域的X个领域词,其中所述A领域的领域词根据权利要求8所述的方法确定;

若X=0,则直接给出所述待评审文件不合格的结果;

若X小于等于Y,即X个领域词都包含在所述Y个关键词中,则直接给出所述待评审文件合格的评审结果;

否则,将所述待评审文本作为第一文本,将所述X个领域词作为至少一个词语,根据权利要求1~6中任意一项所述的方法计算所述X个领域词对所述待评审文本的贡献度;

将所述X个领域词按照各个领域词对所述待评审文本的贡献度排序,根据X个领域词确定评审参数,将所述评审参数与Y个关键词进行比较,并根据比较结果给出对所述待评审文本的评审结果。

根据X个领域词确定评审参数,将所述评审参数与Y个关键词进行比较,并根据比较结果给出对所述待评审文本的评审结果包括:

从X个领域词中选取排在前Z位的领域词作为评审参数;

计算Y个关键词与所述评审参数的符合度,当所述符合度达到预设阈值时,给出所述待评审文本合格的评审结果;否则给出所述待评审文本不合格的评审结果。

一种文本分类方法,包括

在A领域中选取N个文本,并根据权利要求8所述的方法确定A领域的M个领域词及其在A领域中的贡献度;

根据A领域的M个领域词的贡献度形成A领域的标准文本向量;

根据权利要求1~6中任意一项所述的方法计算所述A领域的N个文本中的每个文本中M个领域词的在其所处文本中的贡献度,并形成N个对比文本向量;

计算每个对比文本向量与所述标准文本向量之间的相似度,并根据计算出来的N个相似度确定文本分类相似度阈值;

在对一个待分类的文本进行文本分类时,该方法包括:

根据权利要求1~6任意一项权利要求所提供的方法计算M个领域词在待分类的文本中的贡献度,并形成待分类文本的判定文本向量;

计算所述判定文本向量与所述标准文本向量之间的相似度;

将所述相似度与文本分类相似度阈值进行比较,根据比较结果确定所述待分类文本是否属于A领域。

根据比较结果确定所述待分类文本是否属于A领域包括:

当所述相似度不大于相似度阈值时,确定所述待分类文本属于A领域;否则所述待分类文本不属于A领域。

一种自动生成文本摘要的方法,包括:

获取待处理文本T,对所述待处理文本T进行分词;

将所述待处理文本T作为第一文本,将分词后得到的词语作为至少一个词语,根据权利要求1~6任意一项所述的方法计算所述待处理文本T中每个词对所述待处理文本T的贡献度;

按照贡献度对所述待处理文本T中的词语进行排序,并选取前M个词作为摘要关键词;

根据摘要关键词确定摘要候选成句;

将摘要候选句组织形成摘要。

根据摘要关键词确定摘要的候选组成句包括:

根据所述摘要关键词确定其所在的句子;

当所述摘要关键词位于多个句子中时,选取包含关键词最多的句子作为摘要候选句。

一种文本评审系统,包括:

获取单元,用于获取A领域中一待评审文本以及该文本中自定的Y个关键词;

领域词确定单元,用于结合所述A领域的领域词对所述待评审文本进行检索匹配,确定出所述待评审文本中所包含的所述A领域的X个领域词,其中所述A领域的领域词根据权利要求8所述的方法确定;

预评审单元,用于在X=0时直接给出所述待评审文件不合格的结果;在X>Y时,即X个领域词都包含在所述Y个关键词中,则直接给出所述待评审文件合格的评审结果;

评审单元,用于在X不符合评审单元的评审条件时,将所述待评审文本作为第一文本,将所述X个领域词作为至少一个词语,根据权利要求1~6中任意一项所述的方法计算所述X个领域词对所述待评审文本贡献度;将所述X个领域词按照各个领域词对所述待评审文本贡献度排序,根据X个领域词确定评审参数,将所述评审参数与Y个关键词进行比较,并根据比较结果给出对所述待评审文本的评审结果。

所述评审单元包括:

评审参数计算子单元,用于将所述待评审文本作为第一文本,将所述X个领域词作为至少一个词语,根据权利要求1~6中任意一项所述的方法计算所述X个领域词对所述待评审文本贡献度;将所述X个领域词按照各个领域词对所述待评审文本贡献度排序,根据X个领域词确定评审参数;

比较子单元,计算Y个关键词与所述评审参数的符合度,当所述符合度达到预设阈值时,给出所述待评审文本合格的评审结果;否则给出所述待评审文本不合格的评审结果。

一种文本分类系统,包括

领域参数确定单元,用于在A领域中选取N个文本,并根据权利要求8所述的方法确定A领域的M个领域词及其在A领域中的贡献度;

标准文本向量生成单元,用于根据A领域的M个领域词的贡献度形成A领域的标准文本向量;

对比文本向量生成单元,用于根据权利要求1~6中任意一项所述的方法计算所述A领域的N个文本中的每个文本中M个领域词的在其所处文本中的贡献度,并形成N个对比文本向量;

相似度阈值确定单元,用于计算每个对比文本向量与所述标准文本向量之间的相似度,并根据计算出来的N个相似度确定文本分类相似度阈值;

判定向量计算单元,用于根据权利要求1~6任意一项权利要求所提供的方法计算M个领域词在待分类的文本中的贡献度,并形成待分类文本的判定文本向量;

相似度计算单元,用于计算所述判定文本向量与所述标准文本向量之间的相似度;

分类单元,用于将所述相似度与文本分类相似度阈值进行比较,根据比较结果确定所述待分类文本是否属于A领域。

所述分类单元包括:当所述相似度不大于相似度阈值时,确定所述待分类文本属于A领域;否则所述待分类文本不属于A领域。

一种自动生成文本摘要的系统,包括:

文本获取单元,用于获取待处理文本T,对所述待处理文本T进行分词;

贡献度计算单元,用于将所述待处理文本T作为第一文本,将分词后得到的词语作为至少一个词语,根据权利要求1~6任意一项所述的方法计算所述待处理文本T中每个词对所述待处理文本T的贡献度;

关键词确定单元,用于按照贡献度对所述待处理文本T中的词语进行排序,并选取前M个词作为摘要关键词;

候选句确定单元,用于根据摘要关键词确定摘要候选成句;

摘要形成单元,用于将摘要候选句组织形成摘要。

所述候选句确定单元包括:

定位子单元,用于根据所述摘要关键词确定其所在的句子;

确定子单元,用于在所述摘要关键词位于多个句子中时,选取包含关键词最多的句子作为摘要候选句。

可见,在本发明实施例中,获取第一文本,从所述第一文本中选取至少一个词语;将该第一文本划分为至少一个文本片段;统计所述词语在所述第一文本的文本片段中出现的位置和出现次数;根据统计的参数计算所述词语对所述第一文本的贡献度,所述参数包括所述词语在所述第一文本的所述文本片段中出现的位置和出现次数。本发明实施例所提供的方法通过结合词语在第一文本中的文本片段中出现的位置和出现次数以及词语本身的长度计算该词语对第一文本的贡献度,相较于现有的TF/IDF,本发明实施例所供的方法能够更加真实地反映出词语的贡献度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例所提供的方法的流程图;

图2为本发明另一实施例所提供的方法的流程图;

图3为本发明一实施例所提供的方法的一种应用的方法流程图;

图4为本发明一实施例所提供的方法的另一种应用的方法流程图;

图5为本发明一实施例所提供的方法的另一种应用的方法流程图;

图6为本发明一实施例所提供的方法的又一中应用的方法流程图;

图7为本发明一实施例所提供的系统的结构示意图;

图8为本发明一实施例所提供的另一系统的结构示意图;

图9为本发明一实施例所提供的又一系统的结构示意图。

具体实施方式

图1为本发明一实施例所提供的一种确定词语在文本中的贡献度的方法,包括:

S101、获取第一文本,从所述第一文本中选取至少一个词语;

本发明实施例用于确定词语在文本中的贡献度,为了方便描述,本发明实施例中用第一文本来表示文本资料。该第一文本可以是任意一篇文章、或者是由多篇文章组成的一组文字资料,甚至是一个文本库。该第一文本的形式也可以是多样的,例如可以是网页、论文等等,本发明对此不做限定。

该词语可以是不特定的,第一文本中的任意一个词语。

需要说明的是,为了处理速度和效率在获取了第一文本之后,可以对该第一文本进行预处理,包括分词、去停用词,去标点符号等操作。

S102、将该第一文本划分为至少一个文本片段;

文本片段是该第一文本中的子部分。当该第一文本为一篇文章时,一个文本片段可以对应该文章中的一段内容。当该第一文本为一片论文时,该文本片段可以是该论文中的摘要、正文中的每个段落;当该第一文本为一网页时,该文本片段可以是网页中每个链接对应的内容等等。文本片段的具体形式根据第一文本的具体形式确定,本发明对此不做限定。

S103、统计所述词语在所述第一文本的文本片段中出现的位置和出现次数;

S104、根据统计的参数计算所述词语对所述第一文本的贡献度,所述参数包括所述词语在所述第一文本的所述文本片段中出现的位置和出现次数。

本发明一实施例中,当统计的参数为该词语在所述第一文本的文本片段中出现的位置和出现次数时,可以根据式1计算所述领域词关键词的贡献度:

Weight(CWi)=1mΣq=1mwiq*fiq式1

其中:CWi为所述至少一个词语中的第i个词语;Weight(CWi)为第i个词语CWi的贡献度;m为所述第一文本中的文本片段的数目;q为文本片段在文本中的位置;wiq为第i个词语在文本片段位于q位置处的贡献度;fiq为第i个在文本片段位于q位置处的出现次数。

可选地,在本发明的另一实施例中,统计该词语的参数时,还包括统计所述词语的长度,那么该词语的参数还包括所述词语的长度。

当统计的参数的包括该词语在所述第一文本的文本片段中出现的位置、出现次数以及该词语长度时,根据式2计算所述词语对所述第一文本的贡献度:

Weight(CWi)=1mΣq=1mwiq*fiq*loga(li+α)式2

其中:CWi为所述至少一个词语中的第i个词语;Weight(CWi)为第i个词语CWi的贡献度;m为所述第一文本中的文本片段的数目;q为文本片段在文本中的位置;wiq为第i个词语在文本片段位于q位置处的贡献度;fiq为第i个在文本片段位于q位置处的出现次数,li为第i个领域关键词的词长;α为调整常数,a为可调底数。

其中,可调底数a可以根据实际情况进行调整设置,优选地,可以设置a为自然常数e。

在式1和式2中,参数wiq表示的是该词语受位置影响的贡献度。在本发明一实施例中,可以将所述文件片段在文本中的位置分为第一区域和第二区域时,wiq通过式3进行计算:

wiq=ln(m-qm+β)q=y,y1~mλfiqq=-1式3

其中,当第i个词语位于所述第一文本的第一区域时,q=-1;否则q=y,y∈1~m,y为第i个词语所在的文本片段在所述第一文本中的位置;λ为加权常数;β为调整常数。

从这个例子看出,本发明实施例中,随着文本片段在第一文本中所处的区域的不同,位于其中的词语由位置决定的贡献度也取不同的值。本发明实施例中将第一文本分为第一区域和第二区域两个区域,例如一片论文,可以将摘要部分作为第一区域,将其他的部分作为第二区域。当然,在其他实施例中,出于对词语进行处理的需要,也可以将文本片段划分为更多的区域,本发明对此不做限定。

本发明实施例所提供的方法通过结合词语在第一文本中的文本片段中出现的位置和出现次数以及词语本身的长度计算该词语对第一文本的贡献度,相较于现有的TF/IDF,本发明实施例所提供的方法能够更加真实地反映出词语的贡献度。

参见图2,本发明一实施例还提供一种领域词排序方法,包括:

S201、选择A领域中的N个文本作为第一文本;

这里为了表述方便,用A领域表示任意一个领域,如可以是计算机领域、医学领域等等。需要说明的是,N个文本一定是A领域中的文本,即当A领域为计算机领域时,N个文本即为计算机领域的N个文本。

S202、在所述N个文本中选取M个待定领域词作为至少一个词语,计算M个待定领域词对所述A领域的贡献度;

具体地,可以根据图1对应的实施例所提供的方法M个待定领域词对A领域的贡献度,此处不再赘述。

S203、按照所述M个待定领域词的贡献度对所述M个待定领域词进行排序。

进一步地,图2所述的方法还包括:

S204、将M个待定领域词中贡献度排在前L位的待定领域词确定为所述A领域的领域词,其中,L不大于M。

本发明实施例所提供的方法根据待定领域词在文本中的位置、出现次数、甚至词语自身的长度确定待定领域词对其所属领域的贡献度,并以贡献度为基础确定了各个待定领域词在领域中的顺序,从而为结合待定领域词理解其所属领域带来了极大的便利。

此外,结合各个待定领域词在其所属领域的贡献度的排序,可以进一步确定了该领域的领域值,为对该领域的后续研究提供了极大的便利。

本发明实施例还提供基于词语对文本的贡献度以及根据词语文本的贡献度的多种应用,下面,结合附图对各个应用进行详细描述。

参见图3,本发明实施例所提供的一种应用为一种文本评审方法,包括:

S301、获取A领域中一待评审文本以及该文本中自定的Y个关键词;

S302、结合所述A领域的领域词对所述待评审文本进行检索匹配,确定出所述待评审文本中所包含的所述A领域的X个领域词。

其中所述A领域的领域词可以根据图2对应的实施例所提供方法来确定,即预先对A领域的M待定领域词进行排序,然后选取前L个待定领域词作为A领域的领域词。具体过程可以参照图2所示的过程,此处不再赘述。

S303、若X=0,则直接给出所述待评审文件不合格的结果;

S304、若X<Y,即X个领域词都包含在所述Y个关键词中,则直接给出所述待评审文件合格的评审结果;否则进入步骤S305。

即,如果该待评审文件为计算机领域的,其中的关键词为5个,而通过检索匹配发现X=3,并且这三个词都被包含在这5个关键词中,则直接给出待评审文本合格的结果。

S305、将所述待评审文本作为第一文本,将所述X个领域词作为至少一个词语,计算所述X个领域词对所待评审文本的贡献度;

具体地,可以根据图1对应的实施例所提供的方法计算所述X个领域词对所待评审文本的贡献度。

延续上面的例子,如果执行到S305,则说明通过检索匹配发现X>5,例如,通过检索匹配发现X=20,即待评审文本自身提出了5个关键词,而通过检索匹配发现其中包含20个计算机领域的领域关键词。那么就根据本发明实施例所提供的词语贡献度的计算方法,结合待评审文本计算出这20个计算机领域的领域关键词对待评审文本的贡献度。

S306、将所述X个领域词按照各个领域词对所述待评审文本贡献度排序,根据X个领域词确定评审参数,将所述评审参数与Y个关键词进行比较,并根据比较结果给出对所述待评审文本的评审结果。

具体地,根据X个领域词确定评审参数,将所述评审参数与Y个关键词进行比较,并根据比较结果给出对所述待评审文本的评审结果包括:

S1、从X个领域词中选取排在前Z位的领域词作为评审参数;

S2、计算Y个关键词与所述评审参数的符合度,当所述符合度达到预设阈值时,给出所述待评审文本合格的评审结果;否则给出所述待评审文本不合格的评审结果。

其中,Y个关键词与评审参数的符合度即通过比较确定Z个评审参数中包括几个关键词。如前所述,若Z取10,即评审参数为10,通过比较发现5个关键词中有4个出现在评审参数中,那么符合度为4/5,如果预设的符合度阈值为60%,那么这篇待评审文档就合格了,可以给出合格的结果。

现有的文本评审工作一般都是人工进行,评审人员需要至少将文本浏览一遍才能对文本进行评审,工作量大,效率低,本发明实施例所提供的方法,根据待评审文本所述的领域确定其中出现的领域词,并结合待评审文本根据本发明实施例所提供的贡献度计算方法确定出各个领域词对该评审文本的贡献度,按照贡献度的大小对各个领域词进行排序后,从中选出评审参数,将之与该待评审文本自行设定的关键词进行比较,从而给出该待评审文本的评审结果。本发明实施例根据待评审文本所述的领域并结合文本自身的信息对待评审文本对其内容的把握进行了评审,在大量的文本评审工作中,可以作为文本预评审的方法,将文本进行初步分类,极大了提高了现有文本评审的效率。

参见图4,本发明实施例还提供一种文本分类方法,包括

S401、在A领域中选取N个文本,确定A领域的M个领域词及其在A领域中的贡献度;

其中,确定A领域的M个领域词及其在A领域中的贡献度的具体过程可以参考图1和图2对应的实施例,此处不再赘述。

S402、根据A领域的M个领域词的贡献度形成A领域的标准文本向量;

该标准文本向量是一个M维向量,包含M个元素,元素的值为M个领域词对A领域的贡献度。以计算机领域为例,假设计算机领域中有5个领域词,即M=5,这5个领域词对计算机领域的贡献度分别为0.8、0.1、0.4、0.9、0.7,那么这5个领域词的贡献度所形成的计算机领域的标准文本向量为[0.8、0.1、0.4、0.9、0.7]。

S403、计算所述A领域的N个文本中的每个文本中M个领域词的在其所处文本中的贡献度,并形成N个对比文本向量;

实际应用中,并不是N个文本中的每个文本中都包含M个领域词,对于文本中没有出现的领域词,其对文本的贡献度记为零。

延续上面的例子,假设N个文本中的一个文本中,没有第三个领域词,那么它的对比文本向量为[x1、x2、0、x4、x5],xi为第i个领域词对该文本的贡献度。

贡献度的计算过程根据图1中的词语在文本中贡献度的计算方法进行计算,此处不再赘述。

S404、计算每个对比文本向量与所述标准文本向量之间的相似度,并根据计算出来的N个相似度确定文本分类相似度阈值。

本发明实施例中的该相似度为两个向量夹角的余弦值。文本分类相似度阈值根据N个相似度确定,例如,可以通过对N个相似度求平均值确定,也可以通过其他的运算方式确定,本发明对此不做限定。

S401~404是实现文本分类的预先准备工作,其目的就是要获得对A领域的文本进行分类的文本分类相似度阈值。

参见图5,在对A领域中的一个待分类的文本进行文本分类时,该方法包括:

S501、计算M个领域词在待分类文本中的贡献度;

具体地,根据图1所示的确定词语在文本中的贡献度的方法来计算M个领域在待分类文本中的贡献度。待分类文本即为该方法中的第一文本,M个领域词即为该方法中的至少一个词语,具体的计算可以参考图1对应的实施例,此处不再赘述。

需要说明的是,当M个领域词中的某个领域词没有被包含在待分类文本中时,该领域词对待分类领域词的贡献度记为零。

S502、根据M个领域词形成待分类文本的判定文本向量;

判定文本向量的构成与标准文本向量类似,是一个M维向量,包含M个元素,每个元素的值为其对应的领域词对待分类文本的贡献度。

需要说明的是,M个领域词在各个文本向量中的位置相同,即同一个领域词在各个文本向量中对应相同的位置。以计算机领域为例,其中的一个领域词为计算机,如果计算机这个领域词在标准文本向量中对应第一个位置,那么它在判定文本向量和对比文本向量中也对应第一个位置,即这三个文本向量中的第一元素记录的都是计算机这个词各个文本的贡献度。

优选地,为了避免因文本长度的不同对各个文本向量的影响,在得到文本向量之后,还可以对文本向量进行归一化处理。具体地,可以利用各个向量元素的欧氏距离作为各个向量元素的分母对各个文本向量进行归一化处理。例如,对标准文本向量[0.8、0.1、0.4、0.9、0.7],其欧式距离为则归一化之后的标准文本向量为[0.8/1.45 0.1/1.45 0.4/1.45 0.9/1.45 0.7/1.45]=[0.55、0.07、0.28、0.62、0.48]。对于对比文本向量和判定文本向量也可以归一化处理,具体方法与对标准文本向量的归一化处理相同,此处不再赘述。

S503、计算所述判定文本向量与所述标准文本向量之间的相似度;

需要说明的是,计算所述判定文本向量与所述标准文本向量之间的相似度时采用与S404中相同的方法。

S504、将所述相似度与文本分类相似度阈值进行比较,根据比较结果确定所述待分类文本是否属于A领域。

当该相似度为两个向量夹角的余弦值时,根据比较结果确定所述待分类文本是否属于A领域包括:

当所述相似度不大于相似度阈值时,确定所述待分类文本属于A领域;否则所述待分类文本不属于A领域。

本发明实施例以领域词在文本中的贡献度为基本元素,分别计算得到类别的标准文本分类向量和对比文本分类向量,由此计算出文本分类阈值,通过领域值对待分类文本的贡献度确定待分类文本的判定文本向量,然后将判定文本向量与标准文本向量之间的相似度与文本分类阈值进行对比给出对待分类文本的分类结果。而在计算各个文本分类向量时,充分考虑每个领域词的位置、出现次数和词语本身的长度,从而全面而真实地反映出了待分类文本与其待归属的领域之间的关系。

参见图6、本发明实施例还提供一种自动生成文本摘要的方法,包括:

S601、获取待处理文本T,对所述待处理文本T进行分词;

S602、将所述待处理文本T作为第一文本,将分词后得到的词语作为至少一个词语,计算所述待处理文本T中每个词对所述待处理文本T的贡献度;

待处理文本T中每个词对所述待处理文本T的贡献度的具体计算过程可以参见图1对应的实施例,此处不再赘述。

S603、按照贡献度对所述待处理文本T中的词语进行排序,并选取前M个词作为摘要关键词;

S604、根据摘要关键词确定摘要候选成句;

具体地,根据摘要关键词确定摘要候选成句包括:

S1、根据所述摘要关键词确定其所在的句子;

S2、当所述摘要关键词位于多个句子中时,选取包含关键词最多的句子作为摘要候选句。

例如,选取了前5个词作为摘要关键词,那么将这5个还原到文章中,找到这5个词对应的句子。发现其中有一个词对应了4个句子,此时,可以将这四个句子都选上,也可以从这4个句子中选取摘要候选句,例如选择这四个句子中包含的领域词最多的句子作为摘要候选句。

S605、将摘要候选句组织形成摘要。

通过摘要候选句形成摘要的过程,可以按照各个摘要候选句在原文中出现的顺序以此连接形成摘要,当然也可以从摘要候选句中进一步选择出部分摘要候选句按照顺利连接形成摘要。具体形成方式本发明不做限定。

本发明实施例所提供的方法,根据文本中的词在文本中出现的位置、出现次数甚至词语自身的长度来计算词语对文本的贡献度,然后根据该贡献度确定文本中的摘要关键词,根据摘要关键词在文中的位置找到摘要候选句,并通过摘要候选句形成文本摘要,该摘要形成过程无需人工参与,同时该摘要的形成完全根据文本中的词语对文本的贡献度实现,而词语贡献度的计算充分考虑了包括词语的出现次数、出现位置甚至词语自身的长度等信息,能够真实地反映词语对文本的贡献度,从而使得本发明实施例所提供的方法所形成的摘要更加能够真实地反映文本的内容。

参见图7,本发明一实施例还提供一种文本评审系统,还包括:

获取单元701,用于获取A领域中一待评审文本以及该文本中自定的Y个关键词;

领域词确定单元702,用于结合所述A领域的领域词对所述待评审文本进行检索匹配,确定出所述待评审文本中所包含的所述A领域的X个领域词;

其中,所述A领域的领域词根据图2对应的实施例所提供的方法确定,此处不再赘述。

预评审单元703,用于在X=0时直接给出所述待评审文件不合格的结果;在X>Y时,即X个领域词都包含在所述Y个关键词中,则直接给出所述待评审文件合格的评审结果;

评审单元704,用于在X不符合评审单元的评审条件时,将所述待评审文本作为第一文本,将所述X个领域词作为至少一个词语,计算所述X个领域词对所述待评审文本贡献度;将所述X个领域词按照各个领域词对所述待评审文本贡献度排序,根据X个领域词确定评审参数,将所述评审参数与Y个关键词进行比较,并根据比较结果给出对所述待评审文本的评审结果。

具体地,可以根据图1对应的实施例所提供的方法计算所述X个领域词对所述待评审文本贡献度。

具体地,所述评审单元704包括:

评审参数计算子单元,用于将所述待评审文本作为第一文本,将所述X个领域词作为至少一个词语,计算所述X个领域词对所述待评审文本贡献度;将所述X个领域词按照各个领域词对所述待评审文本贡献度排序,根据X个领域词确定评审参数;

比较子单元,用于从X个领域词中选取排在前Z位的领域词作为评审参数;计算Y个关键词与所述评审参数的符合度,当所述符合度达到预设阈值时,给出所述待评审文本合格的评审结果;否则给出所述待评审文本不合格的评审结果。

本发明实施例所提供的系统,根据待评审文本所述的领域确定其中出现的领域词,并结合待评审文本根据本发明实施例所提供的贡献度计算方法确定出各个领域词对该评审文本的贡献度,按照贡献度的大小对各个领域词进行排序后,从中选出评审参数,将之与该待评审文本自行设定的关键词进行比较,从而给出该待评审文本的评审结果。本发明实施例根据待评审文本所述的领域并结合文本自身的信息对待评审文本对其内容的把握进行了评审,在大量的文本评审工作中,可以作为文本预评审的方法,将文本进行初步分类,极大地提高了现有文本评审的效率。

参见图8,本发明一实施例还提供一种文本分类系统,该系统包括:

领域参数确定单元801,用于在A领域中选取N个文本,并确定A领域的M个领域词及其在A领域中的贡献度;

具体地,可以参照图1和图2对应的实施例确定A领域的M个领域词及其在A领域中的贡献度。

标准文本向量生成单元802,用于根据A领域的M个领域词的贡献度形成A领域的标准文本向量;

对比文本向量生成单元803,用于计算所述A领域的N个文本中的每个文本中M个领域词的在其所处文本中的贡献度,并形成N个对比文本向量;

具体地,可以参照图1和图2对应的实施例计算所述A领域的N个文本中的每个文本中M个领域词的在其所处文本中的贡献度。

相似度阈值确定单元804,用于计算每个对比文本向量与所述标准文本向量之间的相似度,并根据计算出来的N个相似度确定文本分类相似度阈值;

判定文本向量计算单元805,用于在获得一待分类文本时,计算M个领域词在待分类的文本中的贡献度,并形成待分类文本的判定文本向量;

具体地,可以参照图1对应的实施例计算得到的M个领域词在待分类的文本中的贡献度

相似度计算单元806,用于计算所述判定文本向量与所述标准文本向量之间的相似度;

分类单元807,用于将所述相似度与文本分类相似度阈值进行比较,根据比较结果确定所述待分类文本是否属于A领域。

当所述相似度阈值确定单元在计算对比文本向量与标准文本向量之间的相似度时,该相似度为两个向量夹角的余弦值时,所述分类单元807具体为:

当所述相似度不大于相似度阈值时,确定所述待分类文本属于A领域;否则所述待分类文本不属于A领域。

本发明实施例以领域词在文本中的贡献度为基本元素,分别计算得到类别的标准文本分类向量和对比文本分类向量,由此计算出文本分类阈值,通过领域值对待分类文本的贡献度确定待分类文本的判定文本向量,然后将判定文本向量与标准文本向量之间的相似度与文本分类阈值进行对比给出对待分类文本的分类结果。而在计算各个文本分类向量时,充分考虑每个领域词的位置、出现次数和词语本身的长度,从而全面而真实地反映出了待分类文本与其待归属的领域之间的关系。

参见图9,本发明一实施例还提供一种自动生成文本摘要的系统,该系统包括:

文本获取单元901,用于获取待处理文本T,对所述待处理文本T进行分词;

贡献度计算单元902,用于将所述待处理文本T作为第一文本,将分词后得到的词语作为至少一个词语,计算所述待处理文本T中每个词对所述待处理文本T的贡献度;

具体地,可以根据图1对应的实施例所提供的方法计算所述待处理文本T中每个词对所述待处理文本T的贡献度。

关键词确定单元903,用于按照贡献度对所述待处理文本T中的词语进行排序,并选取前M个词作为摘要关键词;

候选句确定单元904,用于根据摘要关键词确定摘要候选成句;

摘要形成单元905,用于将摘要候选句组织形成摘要。

具体地,所述候选句确定单元904包括:

定位子单元,用于根据所述摘要关键词确定其所在的句子;

确定子单元,用于在所述摘要关键词位于多个句子中时,选取包含关键词最多的句子作为摘要候选句。

本发明实施例所提供的系统,根据文本中的词在文本中出现的位置、出现次数甚至词语自身的长度来计算词语对文本的贡献度,然后根据该贡献度确定文本中的摘要关键词,根据摘要关键词在文中的位置找到摘要候选句,并通过摘要候选句形成文本摘要,该摘要形成过程无需人工参与,同时该摘要的形成完全根据文本中的词语对文本的贡献度实现,而词语贡献度的计算充分考虑了包括词语的出现次数、出现位置甚至词语自身的长度等信息,能够真实地反映词语对文本的贡献度,从而使得本发明实施例所提供的方法所形成的摘要更加能够真实地反映文本的内容。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号