首页> 中国专利> 基于主题模型的文章特征抽取方法

基于主题模型的文章特征抽取方法

摘要

本发明提供了一种基于主题模型的文章特征抽取方法,包括:基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。本发明使用了文章引用网络以扩展传统的主题模型,从而提取出更加精确的文章特征。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-18

    授权

    授权

  • 2016-06-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151229

    实质审查的生效

  • 2016-06-01

    公开

    公开

说明书

技术领域

本发明涉及文章特征抽取技术领域,具体地,涉及基于主题模型的文章特征抽 取方法,尤其是一种集成引用关系网络整理,基于主题模型的特征抽取的方法。

背景技术

科研活动是提高社会生产力和综合国力的战略支撑。世界各国都非常重视对于 科研活动的投入。我国已经将科技研发摆在国家发展全局的核心位置,国家财政对 科研的支出稳步增加。2012年,中国的研究与试验发展投入经费(包括工业界和学 术界)已经超过万亿,为10298.4亿元,达到中等发达国家水平。

科研活动最直接的产出结果之一是学术文章。据统计,从2004年至2014年, 我国科研人员在国际上共发表科技文章136.98万篇,位居世界第二;文章共被引 用1037.01万次,位居世界第四。科研实践表明,学术文章是科研人员开展科研活 动或继续进行深入研究的非常重要的信息资源。然而,面对信息化时代浩如烟海的 文献资料,如何快速而准确地检索到自己所需要的学术资源,对于科研人员来说, 确实是一项非常重要而且具有挑战性的工作。

面对学术搜索推荐的需求,谷歌公司在2004年推出了测试版的学术搜索引擎, 为全世界的科研人员提供免费的学术文献信息服务;2006年,微软公司推出了学术 搜索引擎MicrosoftAcademicSearch。尽管这些综合性的学术搜索引擎依托了其 所属商业搜索公司的搜索技术,实际上,它们的搜索结果并不令人满意。现有的这 些学术搜索引擎针对用户的查询输入,仍然以文章列表的形式返回查询结果。它们 更多注重于检索结果的精准性,即将文章搜索结果与用户查询的关键词进行精确的 匹配,而没有重视文章在各自领域内所处的位置,以及文章话题的发展趋势。但是, 对于科研人员来说,比精确匹配标题更重要的,往往是得到所属学科主题内的前沿 成果和重要贡献文章。例如,初涉某一研究领域的搜索用户在进行搜索时,他们并 不明确自己需要什么类型的文献,其搜索的关键词常常只是粗略的主题或者话题, 如果采用上述综合性的学术搜索引擎,用户往往无法快速有效地了解相关学科主题 内的前沿成果和重要贡献文章,得到的结果不能令人满意。

可见,构建一套高效实用的学术搜索推荐系统,对于科研人员获取所需资源、 及时掌握学科发展动态、提高自身科研能力,进而增强国家的科研实力,都具有相 当重要的意义。正因如此,近年来学术搜索推荐系统逐渐得到人们的重视。从2000 年开始,有关文章搜索和推荐系统的文章数量呈逐年上升的趋势。据不完全统计, 仅2013年的相关文章数量就达到了30余篇。但是,学术搜索推荐系统的研究仍然 处于初始阶段。

在学术搜索系统的构建过程中,一个重要的内容是从大规模的文章数据集和引 用网络关系数据集中,抽取文章的特征。如每篇文章的主题、文章的学术贡献度、 文章间引用关系的强弱和主题对应的特征词。

到目前为止,国内外关注文章特征抽取的主要研究方向包括:对文章的语义进 行分析,从而得到与该文章主题相似的其他文章的推荐结果;对文章引用网络建模 分析,得出文章的重要性。

目前,基于主题分析的文章特征抽取方法包括:使用主题模型(如LDA算法)分 析文章主题,并在推荐系统的协同过滤算法中引入主题相似度;结合主题模型和语 言模型寻找相似主题文章;基于LDA算法,对词语组主题建模等。基于文章引用网 络的文章特征抽取方法包括:使用HITS算法,对基于文章和术语构建的二分图计 算文章的权威值;利用文章引用网络,计算文章作者的权威值并进行推荐;利用 PageRank算法,结合期刊的质量和引用网络,计算文章的PageRank值等。

但是,这些研究成果要么没有考虑到模型对大样本量文章数据库的可用性,要 么仅仅关注引用网络的信息而忽略了文章文本信息的抽取,要么仅仅考虑了文章数 据库文本信息但忽略了引用关系网络的信息。因此最终的结果的使用价值都不高。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于主题模型的文章特征抽 取方法。

根据本发明提供的一种基于主题模型的文章特征抽取方法,包括:

步骤A:基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用 关系网络得到新语料库;

步骤B:针对新语料库,构建主题模型的生成模型和参数联合表达式;

步骤C:根据所述生成模型构建主题模型的推断过程;

步骤D:根据主题模型的推断过程,对新语料库采样文章;

步骤E:根据采样文章的采样结果提取文章参数。

优选地,所述步骤A包括:

步骤A1,将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;

步骤A2,对于原始语料库中的每一篇文章,把当前文章结点u加到顶点集V中,将当 前文章结点u的所有引用关系添加到边集E中;

步骤A3:将通过步骤A2得到的图G作为所述引用关系网络;

步骤A4,将顶点集V设为初始已知点集V0,将边集E设为初始已知边集E0,将图G 设为V,E的集合;

步骤A5,不断查找原始语料库中不在顶点集V中的点v,如果存在这样的点v且点 v和顶点集V中的点存在引用关系,则把点v加入顶点集V中,并且把点v的引用关系 加入E中;直到V,E不再变化为止;

步骤A6:将通过步骤A5得到图G对应的语料库导出作为所述新语料库。

优选地,所述步骤B包括:

步骤B1:对新语料库的各个主题,执行如下步骤:

基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中,β是所 服从的狄利克雷分布的参数;k为正整数;

步骤B2:对新语料库的各篇文章,执行如下步骤:

基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;

基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δm;其中,η是 δm所服从的狄利克雷分布的参数;

基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λm; 其中,是λm所服从的贝塔分布的参数;

步骤B3:对各篇文章中的各个词执行如下步骤:

生成服从伯努利参数为λm的伯努利分布的第m篇文章的第n个词的原创指数smn; n为正整数;

-如果smn为1,则生成服从参数为δm的多项式分布的引用文章cm,n,生成服从参 数为θcm,n的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n

-如果sm,n为0,则生成服从参数为θm的多项式分布的主题zm,n,生成服从参数为 的多项式分布的词wm,n

其中,表示矩阵θ对应cm,n的行向量,表示矩阵对应zm,n的行向量;θ表 示文章到主题的分布矩阵,表示主题到词的分布矩阵,wm,n代表第m篇文章中的第n 个词,zm,n代表第m篇文章中的第n个词的主题,cm,n代表第m篇文章中的第n个词且 该第n个词是非原创词所引用文章;

步骤B4:构建主题模型的联合概率分布如下:

p(w,z,c,s|α,β,η,αλn,αλc)=p(w|z,c,s,β)·p(z|c,s,α)·p(c|s,η)·p(s|αλn,αλc)=Πk=1KΔ(nk+β)Δ(β)·Πm=1MΔ(nm+α)Δ(α)·Πm=1MΔ(Rm+η)Δ(η)·Πm=1MB(Nm(1)+αλc,Nm(0)+αλn)B(αλc,αλn)

其中,p(A|B)表示B条件下A的概率,符号→表示向量;为主题到词的分布,为 文章到主题的分布,为文章的引用的分布,为文章中原创词的分布,为第k个主题 下的词频,K表示主题数量,为第m篇文章下主题的频数,M为文章数量,为第m 篇文章的引用的频数,为第m篇文章中非原创词的频数,为第m篇文章中原创 词的频数;B(p,q)表示参数为p和q的Beta分布;

Δ(·)定义为:

其中,为向量的维数,Γ为Gamma函数,Ak表示向量的第k个分量。

优选地,所述步骤C包括:

步骤C1:采用如下吉布斯采样公式进行参数估计:

其中,表示向量去除zm,n对应的分量;符号∝表示正比于;代表主题 zm,n下,词wm,n出现的频数;表示向量中wm,n对应的分量;V表示总词数;表 示zm,n中第t个词出现的频数;βt表示向量的第t个分量;表示cm,n中主题为zm,n且sm,n=0的词的频数;表示cm,n中主题为zm,n且sm,n=1的词的频数;表 示向量的zm,n对应的分量;表示cm,n中主题为第k个主题且sm,n=0的词的频数; 表示cm,n中主题为第k个主题且sm,n=1的词的频数;αk表示向量的第k个分量; 表示向量去除cm,n对应的分量;表示第m篇文章中来自cm,n的词数,表示向量的cm,n对应的分量;Lm表示第m篇文章总共引用文章的数目;表示第m 篇文章中来自第r篇被引用的文章的词数;ηr表示向量的第r个分量;表示向量去 除sm,n对应的分量;表示表示代表第m篇文章 中所有非原创的词的频数;代表所有原创的词的频数;表示第m篇文章中 主题为zm,n且sm,n=0的词的频数;表示第m篇文章中主题为zm,n且sm,n=1的 词的频数;表示表示第m篇文章中主题为第k个主题且sm,n=0 的词的频数;表示表示第m篇文章中主题为第k个主题且 sm,n=0的词的频数;代表第m篇文章中所有非原创的词的频数,代表第m篇文 章中所有原创的词的频数。

优选地,所述步骤D包括:

步骤D1:初始化;对新语料库中每篇文章中每个词wm,n基于二项分布随机采样原创 指标sm,n;若对sm,n的采样得到sm,n=1,则基于多项分布随机从当下采样的文章的引用 文章中抽取一篇引用文章cm,n;为当下采样的词wm,n基于多项分布随机赋予主题zm,n

步骤D2:重新扫描新语料库;对于每个词wm,n,按照所述吉布斯采样公式重新采样 原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n, 否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更 新;

其中,步骤D2被重复执行,直到吉布斯采样收敛,进入步骤D3继续执行;

步骤D3:根据统计出的新语料库中每篇文章中对应sm,n=1的词的比重、每篇文章 引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率,分别 得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的 单词分布φ。

优选地,所述步骤D还包括:

对于一篇加入到新语料库中的新文章dnew,统计这篇文章dnew的主题分布θnew、引 用强度分布δnew、原创指数λnew,具体包括步骤:

步骤D401:初始化,对当前文章dnew中的每个词wm,n基于二项分布随机赋予原创 指标sm,n,若对sm,n的采样得到sm,n=1,则基于多项分布随机从该文章dnew的引用文章 中抽取一篇引用文章cm,n;为该词wm,n基于多项分布随机赋予主题zm,n

步骤D402:重新扫描当前文章dnew,对于每个词wm,n按照所述吉布斯采样公式重 新采样原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文 章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库 中进行更新;

其中,步骤D402被重复执行,直到吉布斯采样收敛,进入步骤D403继续执行;

步骤D403:统计当前文章dnew的主题分布θnew,统计文章dnew中对应sm,n=1的词 的比重λnew,统计文章引用的出现分布δnew

优选地,所述步骤E包括:

使用下面的公式得到相关的参数:

θm,k=nm(k)+αnm(·)(0)+nm(·)(1)+Kα

λm=Nm(1)+αλcNm(0)+αλn+Nm(1)+αλc

δm,c=Rm(c)+ηRm(·)+Lmη

其中,θm,k是第m篇文章关于第k个主题的分布概率,是第k个主题关于第 t个词的分布概率,λm是第m篇文章的原创指数,δm,c是第m篇文章和第c篇文章引 用关系的强弱;表示第m篇文章中主题为第k个主题的词的频数;表示第k个主题 中第t个词出现的频数,表示V表示第k个主题中词的数量;表示第m 篇文章的所有引用过第c篇文章的词的频数,表示

在优选的技术方案中:抽取语料库中的有效关键词,并将有效关键词处理成为抽象 对象;文章提取的主题个数、主题分布的集中程度、文章引用分布的集中程度,可由用 户需求决定或由系统预设。假定每篇文章中每个词的主题来源是随机的,由文章本身的 主题分布产生或由该文章所引用的某篇文章的主题分布产生;

文本生成的概率模型包含以下假设:

(1)每篇文章中每个词的主题服从多项分布,且其先验分布服从Dirichlet分布。

(2)每个主题下的不同的字词服从多项分布,且其先验分布服从Dirichlet分布。

(3)每篇文章中每个词的引用来源服从多项分布,且其先验分布服从Dirichlet分布。

(4)每篇文章中每个词的原创性服从二项分布,且其先验分布服从Beta分布;

其中,关于概率模型假设,先验分布的参数将由文章平均长度、主题个数、文章平 均引用文章数量决定。

与现有技术相比,本发明具有如下的有益效果:

1、本发明基于上述现有技术中存在的问题,从一个新的视角来思考文章特征抽取 方法,能够提高文章特征抽取的准确性并能从文章中抽取出传统特征抽取系统没有考虑 到的信息。

2、本发明使用引用网络的信息扩展了传统的主题模型,使得模型可以由两方面的 信息综合抽取文章特征,不仅对资料库数据量较大的情况适用,并且能对动态扩展的数 据库适用,还能够抽取以往主题模型不能抽取的文章引用关系强度、文章原创指数等信 息。

3、本发明利用文章主题分布的稀疏性,主题中字词分布的稀疏性,文章引用分 布的稀疏性,减少采样复杂度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显:

图1是原始文章数据样例。

图2是新型主题模型的生成过程。

图3为本发明的方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人 员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技 术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于 本发明的保护范围。

本发明利用原创的方法来抽取文章特征。本发明使用了文章引用网络以扩展传统的 主题模型,使得主题模型可以同时利用主题模型和引用网络抽取文章特征,从而提取出 更加精确的文章特征。本发明的主要步骤包括:

步骤A:基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用 关系网络得到新语料库;

步骤B:针对新语料库,构建主题模型的生成模型和参数联合表达式;

步骤C:根据所述生成模型构建主题模型的推断过程;

步骤D:根据主题模型的推断过程,对新语料库采样文章;

步骤E:根据采样文章的采样结果提取文章参数。

本发明所设计的文章特征抽取方法涉及整理引用关系网络的自动化科学程序、结合 引用网络的新型主题模型生成模型及联合表达式推导、新型主题模型推断过程和采样算 法推导、新型主题模型的参数估计这五个核心组件。本发明提供的方法包括如下步骤:

关于步骤A,基于大样本量的原始语料库,自动生成文章(例如论文)的引用关系 网络,并输出到文件;语料库包括两部分信息,一部分信息是关于文章本身的信息,包 括文章题目、作者、摘要等,另一部分信息是文章间的引用关系,比如文章A引用文章 B,文章A引用文章C。

互联网上的学术数据浩如烟海,且每年以百万级的数量增长。因此本发明中根据已 有的XML和JSON格式的原始语料库,基于原始语料库中的每一篇文章,抽取出文章标 题、文章摘要以及文章参考文献,然后设定初始文章集合,根据学术文章的引用关系, 获得最大连通分支,并导出作为新语料库。

已有的原始文章语料库格式如表1和图1所示。

表1.原始文章数据存储格式规范

在所述步骤A中,所述基于原始语料库构建文章的引用关系网络的步骤,包括:

步骤A1,将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;

步骤A2,对于原始语料库中的每一篇文章,把当前文章结点u加到顶点集V中,将当 前文章结点u的所有引用关系添加到边集E中;

步骤A3:将通过步骤A2得到的图G作为所述引用关系网络。

在所述步骤A中,所述设定初始文章集合并根据引用关系网络得到新语料库的步骤, 包括:根据引用关系网络,自动获得最大连通分支,得到新语料库;具体包括:

步骤A4,将顶点集V设为初始已知点集V0,将边集E设为初始已知边集E0,将图G 设为V,E的集合;

步骤A5,不断查找原始语料库中不在顶点集V中的点v,如果存在这样的点v且点 v和顶点集V中的点存在引用关系,则把点v加入顶点集V中,并且把点v的引用关系 加入E中;直到V,E不再变化为止;

步骤A6:将通过步骤A5得到图G对应的语料库导出作为所述新语料库。

关于步骤B,传统的主题模型利用每篇文章的词频特性作为文章的主题特征,本发 明中采用的主题模型能够涵盖文章之间的关系,即文章引用关系网络。所述主题模型包 括两个核心部分,分别为生成模型(在步骤B中详述)、推断过程(在步骤C中详述)。 生成模型相当于在已知参数的条件下,我们假设文章生成过程服从的模型,文章的生成 模型的对应图模型可参见附图2。

所述步骤B包括:

步骤B1:对新语料库的各个主题,执行如下步骤:

基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中,β是所 服从的狄利克雷分布的参数;k为正整数;

步骤B2:对新语料库的各篇文章,执行如下步骤:

基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;

基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δm;其中,η是 δm所服从的狄利克雷分布的参数;

基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λm; 其中,是λm所服从的贝塔分布的参数;本领域技术人员理解,贝塔分布本身需 要两个超参数,这两个超参数可以互换。

步骤B3:对各篇文章中的各个词执行如下步骤:

生成服从伯努利参数为λm的伯努利分布的第m篇文章的第n个词的原创指数sm,n; n为正整数;

-如果sm,n为1,则生成服从参数为δm的多项式分布的引用文章cm,n,生成服从参 数为的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n

-如果sm,n为0,则生成服从参数为θm的多项式分布的主题zm,n,生成服从参数为 的多项式分布的词wm,n

其中,表示矩阵θ对应cm,n的行向量,表示矩阵对应zm,n的行向量;θ表 示文章到主题的分布矩阵,表示主题到词的分布矩阵;wm,n代表第m篇文章中的第n 个词,zm,n代表第m篇文章中的第n个词的主题,cm,n代表第m篇文章中的第n个词且 该第n个词是非原创词所引用文章;

步骤B4:构建主题模型的联合概率分布如下:

p(w,z,c,s|α,β,η,αλn,αλc)=p(w|z,c,s,β)·p(z|c,s,α)·p(c|s,η)·p(s|αλn,αλc)=Πk=1KΔ(nk+β)Δ(β)·Πm=1MΔ(nm+α)Δ(α)·Πm=1MΔ(Rm+η)Δ(η)·Πm=1MB(Nm(1)+αλc,Nm(0)+αλn)B(αλc,αλn)

其中,p(A|B)表示B条件下A的概率,符号→表示向量;为主题到词的分布,为 文章到主题的分布,为文章的引用的分布,为文章中原创词的分布,为第k个主题 下的词频,K表示主题数量,为第m篇文章下主题的频数,M为文章数量,为第m 篇文章的引用的频数,为第m篇文章中非原创词的频数,为第m篇文章中原创 词的频数;B(p,q)表示参数为p和q的Beta分布;

Δ(·)定义为:

其中,为向量的维数,Γ为Gamma函数,Ak表示向量的第k个分量。

关于步骤C,推断过程用于估计生成模型中的参数。在实际情形中,我们是已知文 章中的单词,希望反过去推导出隐含的参数,这里便需要通过统计推断的方法完成。对 于我们提出的新型主题模型,常规的最优化方法无法解决最大似然估计的问题,转而我 们采用一种称为吉布斯采样的方式来进行参数估计。

所述步骤C包括:

步骤C1:采用如下吉布斯采样公式进行参数估计:

其中,表示向量去除zm,n对应的分量;符号∝表示正比于;代表主题 zm,n下,词wm,n出现的频数;表示向量中wm,n对应的分量;V表示总词数;表 示zm,n中第t个词出现的频数;βt表示向量的第t个分量;表示cm,n中主题为zm,n且sm,n=0的词的频数;表示cm,n中主题为zm,n且sm,n=1的词的频数;表 示向量的zm,n对应的分量;表示cm,n中主题为第k个主题且sm,n=0的词的频数; 表示cm,n中主题为第k个主题且sm,n=1的词的频数;αk表示向量的第k个分量; 表示向量去除cm,n对应的分量;表示第m篇文章中来自cm,n的词数,表示向量的cm,n对应的分量;Lm表示第m篇文章总共引用文章的数目;表示第m 篇文章中来自第r篇被引用的文章的词数;ηr表示向量的第r个分量;表示向量去 除sm,n对应的分量;表示表示代表第m篇文章 中所有非原创的词的频数;代表所有原创的词的频数;表示第m篇文章中 主题为zm,n且sm,n=0的词的频数;表示第m篇文章中主题为zm,n且sm,n=1的 词的频数;表示表示第m篇文章中主题为第k个主题且sm,n=0 的词的频数;表示表示第m篇文章中主题为第k个主题且 sm,n=0的词的频数;代表第m篇文章中所有非原创的词的频数,代表第m篇文 章中所有原创的词的频数。

其中,中的下标代表相应的先验分布参数的分量。

关于步骤D,根据新型主题模型的推断过程,设计采样算法,采样文章数据库; 我们可以到写出完整的推断过程。

所述步骤D包括:

步骤D1:初始化;对新语料库中每篇文章中每个词wm,n基于二项分布随机采样原创 指标sm,n;若对sm,n的采样得到sm,n=1,则基于多项分布随机从当下采样的文章的引用 文章中抽取一篇引用文章cm,n;为当下采样的词wm,n基于多项分布随机赋予主题zm,n

步骤D2:重新扫描新语料库;对于每个词wm,n,按照所述吉布斯采样公式重新采样 原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文章cm,n, 否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库中进行更 新;

其中,重复步骤D2,直到吉布斯采样收敛;

步骤D3:根据统计出的新语料库中每篇文章中对应sm,n=1的词的比重、每篇文章 引用的出现频率、每篇文章中主题的出现频率、以及每个主题下单词出现的频率,分别 得到每篇文章的原创指数λ、引用强度分布δ、每篇文章的主题分布θ、以及每个主题的 单词分布φ;

对于一篇新文章(即在新加入当下新语料库的文章)dnew,统计这篇文章的主题分 布θnew、引用强度分布δnew、原创指数λnew,具体包括步骤:

步骤D401:初始化,对当前文章dnew中的每个词wm,n基于二项分布随机赋予原创 指标sm,n,若对wm,n的采样得到sm,n=1,则基于多项分布随机从该文章ddnew的引用文章 中抽取一篇引用文章cm,n;为该词wm,n基于多项分布随机赋予主题zm,n

步骤D402:重新扫描当前文章dnew,对于每个词wm,n按照所述吉布斯采样公式重 新采样原创指标sm,n;若新得到的对sm,n的采样sm,n=1,则再次采样wm,n对应的引用文 章cm,n,否则,则直接略去对引用文章cm,n的采样;采样wm,n的主题zm,n,在新语料库 中进行更新;

其中,重复步骤D402,直到吉布斯采样收敛;

步骤D403:统计当前文章dnew的主题分布,该主题分布就是θnew,统计文章dnew中 对应sm,n=1的词的比重,该比重就是λnew,统计文章引用的出现分布,该分布就是δnew

关于步骤E,待主题模型收敛后(例如优选地根据步骤四中的吉布斯采样算法,我 们进行循环采样,到采样进行足够次数之后,可以视为模型参数收敛),我们使用下面 的公式得到相关的参数:

θm,k=nm(k)+αnm(·)(0)+nm(·)(1)+Kα

λm=Nm(1)+αλcNm(0)+αλn+Nm(1)+αλc

δm,c=Rm(c)+ηRm(·)+Lmη

其中,θm,k是第m篇文章关于第k个主题的分布概率,是第k个主题关于第 t个词的分布概率,λm是第m篇文章的原创指数,δm,c是第m篇文章和第c篇文章引 用关系的强弱;表示第m篇文章中主题为第k个主题的词的频数;表示第k个主题 中第t个词出现的频数,表示V表示第k个主题中词的数量;表示第m 篇文章的所有引用过第c篇文章的词的频数,表示

上标(·)代表将单项式对此处的上标求和,如

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改, 这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的 特征可以任意相互组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号