首页> 中国专利> 基于自信息的跨学科领域共现主题发现方法

基于自信息的跨学科领域共现主题发现方法

摘要

本发明公开了一种基于自信息的跨学科领域共现主题发现方法,该方法具体步骤如下:(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;(2)、数据处理:提取和数字化自评中的正文部分;(3)、抽取候选低频主题词;(4)、计算低频主题评价系数;(5)、设定低频主题词评价系数的阈值;(6)、过滤低频主题词。该方法为主题发现的相关研究提供了新的思路。不仅高频词与主题有紧密关系,低频词也是一种可以利用的资源。该方法可以应用到评价类文档集的主题发现,例如从自传题材中提取人物的共同经历、从股票评论中提取评价股票的共同指标,从而实现不同学科领域文档集中的共现主题提取。

著录项

  • 公开/公告号CN105138537A

    专利类型发明专利

  • 公开/公告日2015-12-09

    原文格式PDF

  • 申请/专利权人 上海大学;

    申请/专利号CN201510398058.0

  • 发明设计人 夏晴;周文;张亚军;刘孟;

    申请日2015-07-08

  • 分类号G06F17/30;

  • 代理机构上海上大专利事务所(普通合伙);

  • 代理人陆聪明

  • 地址 200444 上海市宝山区上大路99号

  • 入库时间 2023-12-18 12:45:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-24

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2015103980580 申请日:20150708 授权公告日:20181207

    专利权的终止

  • 2018-12-07

    授权

    授权

  • 2016-01-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150708

    实质审查的生效

  • 2015-12-09

    公开

    公开

说明书

技术领域

本发明涉及一种基于自信息的跨学科领域共现主题发现方法,属于文本挖 掘(TextMining)领域。

背景技术

近年来,主题发现作为文本挖掘领域的热门研究方向,受到越来越多的研 究者的重视。主题发现可以从海量的非结构化文本中挖掘到关键的主题信息, 可以更加高效的理解文本的主要内容,获取文本的深层语义信息。同时,主题 发现还可以对主题进行更深层次的分析,发现文本中更多的潜在知识。

现有的主题发现方法主要有主题模型以及词频统计的两种。主题模型是一 种概率生成模型,在主题模型中主题作为隐变量,文档以及词项作为观测值。 通过对模型的训练可以得到词项概率分布、以及主题概率分布。经过训练后的 模型就可以将词项空间中的文档变换到主题空间,从而实现文档处理的降维, 最终得到具有语义信息的主题集合。常用的主题模型主要有LSI[1,2]、pLSI[3, 4]、LDA[5]等。词频统计的方法则是通过对词在文档中以及文档集中的频率的 计算来进行主题抽取,常用的方法有TF_IDF(termfrequency–inverse documentfrequency)、互信息(MutualInformation)、信息增益、x2统计量 等。

上述的主题发现方法具有很强的理论基础,在众多主题发现任务中均取得 较好的效果。然而这些方法对于跨学科领域中的共现主题信息无法很好的抽取, 因为对于评价类跨学科领域的文本,有时主题可能是由低频主题词而非高频词 体现。现有的主题发现方法大多倾向于获取高频词,因而无法用来抽取具有低 频特征的共现主题词,即低频主题词。此外,跨学科领域的共现主题发现研究 具有重要的研究意义,因为通过这些共现主题可以从更宏观的角度来分析文本 集,并且获得更多有意义的主题信息的规律。

发明内容

本发明的目的是针对现有技术存在的不足,提供一种基于自信息的跨学科 领域共现主题发现方法,为主题发现的相关研究提供新思路,可应用到评价类 文档集的主题发现,从而实现不同学科领域文档集中得共现主题提取。

为达到上述目的,本发明采用下述技术方案:一种基于自信息的跨学科领 域共现主题发现方法,其特征在于操作步骤包括:

(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;

(2)、数据处理:提取和数字化自评中的正文部分;

(3)、抽取候选低频主题词;

(4)、计算低频主题评价系数;

(5)、设定低频主题词评价系数的阈值;

(6)、过滤低频主题词。

上述步骤(1)所述为数据收集。从引文数据库SCI(ScienceCitationIndex) 的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功 的自评中收集到3790篇高引经典文献的作者自评文档集。

上述步骤(2)所述为数据处理。对文档集中自评的正文部分进行了提取和数 字化。此外,还提取了3类信息,自评的正文内容、自评的相关信息以及原高 引文献的相关信息。

本发明定义了低频主题词是能够充分体现主题信息,均匀出现且词频较低 的非专业词。低频主题词的词频应当符合如下公式:

cij//cij=α·m,α[1m,(m-1)li+1m]cij/cij=0

文档集D(D={di}(i=[1,m]))中,文档di中的词wij在D中出现的次数c'ij与它在文档di中出现的次数cij之比应当等于与文档集D中的文档数目m相关的 数值。当wij不出现在文档di中,则值为零。

上述步骤(3)所述为抽取候选低频主题词。通过定义的标记模式进行候选低 频主题词。具体步骤是首先利用“自然语言工具集”NLTK(NaturalLanguage Toolkit)作为工具处理自评的征文部分,然后结合Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记 模式进行抽取候选低频主题词。

本发明定义低频主题词评价系数,是用于评估一个词均匀出现的程度的统 计指标。在信息论中,信息被认为是可以量化的。在抽象含义上,认为发生概 率低的事件所包含的信息量大。如果词的信息量大,则它更加确定,对于文 档或文档集而言确定性越高的词则越重要。

上诉步骤(4)所诉为计算所有候选低频主题词的低频主题评价系数。具体步 骤如下:

(41)、计算低频词对文档的信息量:表示词wij对文档di的信息量。词 在文档中出现的词频cij与文档中总词数Ci的比值近似的被看作为词在文档中出 现的概率。

Iwij=-logcijCi

(42)、计算低频词对文档集的信息量:表示每个词对应的文档集信息量, 词在文档集中出现的词频c'ij与文档中总词数的比值近似的被看作为词在文 档集中出现的概率。

Iwij=-logcijΣi=1mCi

(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量 的差值来计算低频主题词评价系数越接近0时所对应的wij越可能是低 频主题词。

σwij=Iwij-Iwij=-log(cijΣi=1mCi/cijCi)

上述步骤(5)所述为设定低频主题词评价系数阈值。设定的阈值要确保低频 主题词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过 多的非低频主题词。

上述步骤(6)所述为过滤低频主题词。自评篇幅较小,高频词是专业词的可 能性较大,所以去除大部分专业词,从而提高查准率。再通过人工标记的方式 去除未明显指向主题的词组,从而对结果进行优化。

本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技 术进步:(1)该方法可以用来分析跨多个学科领域的文本中的共现主题,不需 要对任何领域的测试集进行特殊的预处理。(2)该方法通过对词以及词组关于 自信息的计算分析来发现主题。算法的复杂度低,能够更加直接的获取跨学科 领域文本集中的共现主题信息。(3)该方法可用来处理任何语言的文本,具有 极强的可移植性、以及可扩展性。(4)与以往的文本信息抽取中以高频信息为 主不同,该方法主要用来抽取词频相对偏低但是均匀出现,有重要研究价值的 信息。

附图说明

图1为本发明的基于自信息的跨学科领域共现主题发现方法的操作程序框 图

具体实施方式

下面结合说明书附图和优选实施例对本发明作进一步详细的说明。

实施例一:

参考图1,本基于自信息的跨学科领域共现主题发现,其特征在于:操作步 骤包括:

(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;

(2)、数据处理:提取和数字化自评中的正文部分;

(3)、抽取候选低频主题词;

(4)、计算低频主题评价系数;

(5)、设定低频主题词评价系数的阈值;

(6)、过滤低频主题词。

实施例二:本实施例与实施例一基本相同,特别之处如下:

所述步骤(1)数据收集的具体操作是:从引文数据库SCI的创始人加菲尔德 所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到 3790篇高引经典文献的作者自评文档集。

所述步骤(2)数据处理的具体操作是:对文档集中文本进行了数字化和提 取;此外,还提取了3类信息:自评的正文内容、自评的相关信息以及原高引 文献的相关信息。

所述步骤(3)抽取候选低频主题词的具体操作是:首先利用“自然语言工具 集”NLTK文献作为工具处理自评的正文部分,然后结合Leahey,Erin;Cain, CindyL.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义 的标记模式进行抽取候选低频主题词。

所述步骤(4)计算低频主题评价系数的具体操作如下:

(41)首先计算低频词对文档的信息量:表示词wij对文档di的信息量, cij表示词在文档中出现的词频、Ci表示文档中总词数,

Iwij=-logcijCi

(42)计算低频词对文档集的信息量:表示每个词对应的文档集信息量, c'ij表示词在文档集中出现的词频,表示文档中总词数,

Iwij=-logcijΣi=1mCi

(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量 的差值来计算低频主题词评价系数越接近0时所对应的wij越可能是低 频主题词,

σwij=Iwij-Iwij=-log(cijΣi=1mCi/cijCi)

所述步骤(5)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要 确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而 不引入过多的非低频主题词。

所述步骤(6)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要 确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而 不引入过多的非低频主题词。

实施例三:

如图1所示,本基于自信息的跨学科领域共现主题发现方法,具体包括以 下步骤:

(1)、数据收集。在宾夕法尼亚大学的加菲尔德电子图书馆中,获取5000 余份PDF格式的文档。通过删除噪音数据、删除重复数据、放弃缺失数据这三 项数据预处理工作,得到信息完整的可用文档共3790份,建立起自评文档集。

(2)、数据处理。对文档集中自评的正文部分进行了提取和数字化。此外, 还提取了3类信息,自评的正文内容、自评的相关信息(如:自评的作者、作者 的地址、自评发表的年份以及自评的学科领域标签)以及原高引文献的相关信息 (如:原高引文献的作者、原高引文献的文章标题、原高引文献发表的期刊、 原高引文献发表的年份)。

学科领域标签由加菲尔德研究团队根据原高引文献的内容给出,包括: AgrBiolEnviron(AgricultureBiology&EnvironmentalSciences)、ClinMed (ClinicalPractice)、LifeSci(LifeSciences)、EngTechApplSci (EngineeringTechnology&AppliedSciences)、PhysChemEarth(Physical Chemical&EarthSciences)、SocBehavSci(Social&BehavioralSciences)、 ArtHuman(Arts&Humanities)。

(3)、抽取候选低频主题词。首先利用NLTK(NaturalLanguageToolkit) 对自评正文进行处理,需要用户给出标记模式。然后结合了Leahey,Erin;Cain, CindyL.对高引经典文献作者自评的研究的结果定义标记模式。最后通过定义 的标记模式进行抽取候选低频主题词。具体标记模式如下:

(4)、计算低频主题评价系数。具体步骤如下:

(41)、计算低频词对文档的信息量:表示词wij对文档di的信息量。词 在文档中出现的词频cij与文档中总词数Ci的比值近似的被看作为词在文档中出 现的概率。

Iwij=-logcijCi

(42)、计算低频词对文档集的信息量:表示每个词对应的文档集信息量, 词在文档集中出现的词频与文档中总词数的比值近似的被看作为词在文档 集中出现的概率。

Iwij=-logcijΣi=1mCi

(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量 的差值来计算低频主题词评价系数

σwij=Iwij-Iwij=-log(cijΣi=1mCi/cijCi)

取得的不重复的低频主题词评价系数最接近0的前20个词组。下表中的 category给出了词组的类别,0代表是专业词,1和2代表是非专业词,其中2 代表着低频主题词。

(5)、设定低频主题词评价系数的阈值。设定的阈值要确保低频主题词的提 取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频 主题词。进行实验后,确定阈值λ=2.3。

(6)、过滤低频主题词。现有阈值λ的取值会出现查全率高而查准率相对 低的现象。自评篇幅较小,高频词是专业词的可能性较大,所以去除大部分专 业词,从而提高查准率。再通过人工标记的方式去除未明显指向主题的词组, 例如“somany”、“otherhand”等,从而对结果进行优化。

以上对本发明的基于自信息的跨学科领域共现主题发现方法做了详细的说 明。本领域技术人员在本发明的构思范围内所做的修改和改进,应当包含在本 发明所附的权利要求限定的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号