首页> 中国专利> 一种基于领域专利数据的技术创新主题挖掘方法

一种基于领域专利数据的技术创新主题挖掘方法

摘要

本发明公开了一种基于领域专利数据的技术创新主题挖掘方法,属于数据挖掘处理技术领域,运用TF‑IDF、困惑度和四分位数法构建领域专利的LDA主题模型;利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。本发明能够快速有效地挖掘出领域内多个技术创新主题,为技术创新方向的确定提供借鉴。

著录项

  • 公开/公告号CN112966494A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 浪潮云信息技术股份公司;

    申请/专利号CN202110237407.6

  • 申请日2021-03-03

  • 分类号G06F40/216(20200101);G06Q10/06(20120101);G06Q50/18(20120101);

  • 代理机构37100 济南信达专利事务所有限公司;

  • 代理人陈婷婷

  • 地址 250100 山东省济南市高新区浪潮路1036号浪潮科技园S01号楼

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及数据挖掘处理技术领域,具体地说是一种基于领域专利数据的技术创新主题挖掘方法。

背景技术

基于领域专利引用特征的技术主题识别方法较早受到研究人员的关注。

构建专利引文网络、专利引文耦合网络和共引网络等,利用分析算法识别技术主题;通过改进的PageRank算法与专利的被引次数和专利年龄结合,并将其应用到OLED领域中来识别核心专利技术主题。随着文本聚类、LDA主题模型和社区识别等自然语言处理技术的发展,基于领域专利内容特征的技术主题识别方法也逐渐受到研究人员的重视。结合LDA模型和战略坐标图方法进行专利文本内容分析,识别出技术主题及其结构特征;应用专利内容聚类的主题模型和聚类算法,将潜在狄利克雷分布(LDA)主题模型和OPTICS算法相结合进行核心技术主题分析。

综合现有研究分析发现,虽然基于专利引文特征的识别方法能够较为有效地识别出领域技术主题,但由于引文分析存在引文时滞性,所以,识别出的技术主题在时效性、准确性方面存在一定的缺陷。另外,基于专利文本内容相比基于引文特征的方法具有一定的优势(不存在引文时滞性),但同样存在一定的不足,如从专利标题、摘要等文本内容中挖掘技术主题,仅仅从自然语言处理的角度进行考量,并没有考虑技术主题需要具备的经济和技术属性。

发明内容

本发明的技术任务是针对以上不足之处,提供一种基于领域专利数据的技术创新主题挖掘方法,能够快速有效地挖掘出领域内多个技术创新主题,为技术创新方向的确定提供借鉴。

本发明解决其技术问题所采用的技术方案是:

一种基于领域专利数据的技术创新主题挖掘方法,运用TF-IDF、困惑度和四分位数法构建领域专利的LDA主题模型;

利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;

选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;

基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。

对领域专利数据技术主题的挖掘不仅考虑自然语言处理属性,还考虑技术主题需要具备的经济和技术属性;挖掘出的领域专利技术主题,避免引文分析存在的引文时滞性,挖掘出的技术主题具有时效性、准确性;融合多属性挖掘技术主题,不仅有基于LDA挖掘的自然语言处理属性,还通过量化方法融合多属性使挖掘的技术主题具有经济和技术属性。

优选的,所述构建LDA主题模型,

首先基于困惑度方法确定LDA主题模型的最优主题数;

将数据集分为训练集与测试集,使用TF-IDF对数据集加权处理,利用加权后的训练集构建LDA模型;

将基于LDA概率主题建模生成专利文档-主题和主题-特征词的概率分布矩阵;

模型训练结束后,将测试集作为语料计算LDA模型在不同主题下的困惑度,最终选取困惑度最小时的主题数作为模型的最优主题数;

然后正式构建LDA主题模型,最终生成文档-主题矩阵和主题-特征词矩阵。

优选的,将获取的源数据进行技术特征词向量化,包括数据预处理和构建向量空间模型,

数据预处理,首先对语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字;

构建向量空间模型,首先根据确定的技术特征词数量,将预处理后的语料转换为词频矩阵;然后将词频矩阵转换成逆文本词频矩阵;最后将TF与IDF矩阵相乘生成TF-IDF矩阵。

数据来源主要包括,领域专利领域的专利文献,从专利数据库Total Patent下载领域专利文献,如芯片,医疗等领域,下载的专利文档条目包括标题、摘要、IPC分类号以及权利要求。

优选的,所述专利评价指标包括权利要求和IPC;

构建识别技术创新主题的三级量化指标体系,包括Ⅲ级量化指标,Ⅱ级量化指标和Ⅰ级量化指标:

Ⅲ级量化指标定义,定义具有自然语言处理属性的量化指标CTM、CTS、TWM,并基于IPC分类数和权利要求数定义具有经济和技术属性的量化指标IPC

Ⅱ级量化指标定义,包括定义TVC和TLV,TVC是技术主题的CTS的倒数与TWM的乘积;TLV是技术主题的CTM与IPC

Ⅰ级量化指标定义,定义TI,即TVC与TLV的乘积。

具体的,CTM值表示技术主题在当前语料库内技术价值的大小,CTM值越大,表示技术主题在当前语料库内所具有的技术价值越大,反之亦然,其公式如下:

其中,N表示语料库内专利文档的数量;M表示主题数量;t

CTS值表示技术主题在当前语料库内技术价值的稳定性,稳定性衡量该技术主题在当前语料库内技术价值的离散程度,CTS值越小,表示技术主题在当前语料库内的技术价值越稳定,反之亦然,其公式如下:

其中,N表示语料库内专利文档的数量;M表示主题数量;t

TWM值表示技术主题被解释程度的大小,TWM值越大,表示技术主题被解释的越充分,即技术主题当前具有的技术价值越具有说服力,反之亦然,其公式如下:

其中,K表示特征词的数量;M表示主题数量;t

IPC

IPC

N表示语料库专利文档的数量;N_Claim

IPC

P表示属于每个技术主题的专利文档的数量,每个技术主题的专利文档的数量不同;M表示技术主题数量;IPC

TVC值表示技术主题中心性的强弱,即技术主题在当前阶段所具有的技术价值,TVC值越大,表示技术主题在当前所具有的技术价值越大,反之亦然,其公式如下:

M表示主题的数量;CTS

TLV值表示技术主题潜在技术价值的大小,即技术主题在未来阶段所具有的技术价值,TLV值越大,表示技术主题在未来所具有的技术价值越大,反之亦然,其公式如下:

M表示主题的数量;CTM

TI值表示技术主题创新性的强弱,即技术主题所具有的创新价值,TI值越大,表示技术主题的创新价值越大,反之亦然,其公式如下:

TI(j)=TVC

M表示主题的数量;TVC

进一步的,将IPC

其中,

优选的,所述技术创新主题标记,利用已有的数据结果标记创新主题,根据IPC

进一步的,使用主题下专利的IPC分类说明和特征词定义技术创新主题;将创新专利文档的标题分割去重,然后从中挑选合适的词汇代替创新主题中专业性较弱的特征词;最终根据IPC分类说明和优化后的特征词完成对技术创新主题的标记。

本发明还要求保护一种基于领域专利数据的技术创新主题挖掘装置,包括:至少一个存储器和至少一个处理器;

所述至少一个存储器,用于存储机器可读程序;

所述至少一个处理器,用于调用所述机器可读程序,执行上述的方法。

本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的方法。

本发明的一种基于领域专利数据的技术创新主题挖掘方法与现有技术相比,具有以下有益效果:

该方法通过对领域专利数据利用LDA挖掘技术主题,然后融合多属性挖掘技术创新主题,从而满足了研究人员对技术创新主题的价值需求。

附图说明

图1是本发明实施例提供的基于领域专利数据的技术创新主题挖掘方法设计架构图;

图2是本发明实施例提供的量化指标体系结构图;

图3是本发明实施例提供的困惑度示例图;

图4是本发明实施例提供的各主题概率分布在语料库的标准差和平均值示例;

图5是本发明实施例提供的技术主题创新度热力图示例。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明实施例提供一种基于领域专利数据的技术创新主题挖掘方法,将LDA(Latent Dirichlet Allocation)主题模型与专利价值评价指标相结合,使用融合多属性的量化方法,快速有效地挖掘出领域内多个技术创新主题。

将获取的源数据进行技术特征词向量化;

综合运用TF-IDF、困惑度和四分位数法构建领域专利的LDA主题模型;

然后利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;

选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;

基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。

对领域专利数据技术主题的挖掘不仅考虑自然语言处理属性,还考虑技术主题需要具备的经济和技术属性;挖掘出的领域专利技术主题,避免引文分析存在的引文时滞性,挖掘出的技术主题具有时效性、准确性;融合多属性挖掘技术主题,不仅有基于LDA挖掘的自然语言处理属性,还通过量化方法融合多属性使挖掘的技术主题具有经济和技术属性。

数据来源主要包括,领域专利领域的专利文献,从专利数据库Total Patent下载领域专利文献,如芯片,医疗等领域,下载的专利文档条目包括标题、摘要、IPC分类号以及权利要求。

1、将获取的源数据进行技术特征词向量化,包括数据预处理和构建向量空间模型。

数据预处理,首先对语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字;在词频矩阵中仍会出现一些噪声词汇,如:method、system、action等,通过编写程序去除这些噪声词汇。

构建向量空间模型,首先根据确定的技术特征词数量,将预处理后的语料转换为词频(TF)矩阵;然后将词频(TF)矩阵转换成逆文本词频(IDF)矩阵;最后将TF与IDF矩阵相乘生成TF-IDF矩阵。

2、量化指标体系构建,通过构建量化指标体系,识别出技术创新主题,不再是仅基于自然语言处理属性的技术主题,还将经济和技术属性考量在内。

主要分为两个部分:构建LDA主题模型和构建量化指标体系。

2.1、所述构建LDA主题模型,

首先使用基于困惑度方法确定最优主题数;目前普遍认为应用LDA的最大问题是无法确定最优主题数目,本实施例采用困惑度方法确定LDA主题模型的最优主题数;

将数据集分为训练集与测试集,使用TF-IDF对数据集加权处理,利用加权后的训练集构建LDA模型;

由于LDA在专利文本分析方面的优势,将基于LDA概率主题建模生成专利文档-主题和主题-特征词的概率分布矩阵;

模型训练结束后,将测试集作为语料计算LDA模型在不同主题下的困惑度,最终选取困惑度最小时的主题数作为模型的最优主题数;

然后正式构建LDA主题模型,此时加权语料集和最优主题数两项重要构建元素准备完成,构建LDA主题模型,最终生成文档-主题矩阵和主题-特征词矩阵。

2.2构建量化指标体系,

为了使技术主题不仅具有自然语言处理的属性而且具有经济和技术属性,运用量化思想处理LDA输出的概率分布矩阵、权利要求数和IPC分类数,然后根据相关理论研究成果,定义量化指标,构建识别技术创新主题的三级量化指标体系,构建识别技术创新主题的三级量化指标体系,包括Ⅲ级量化指标,Ⅱ级量化指标和Ⅰ级量化指标,如图2所示:

Ⅲ级量化指标定义,LDA主题模型构建完毕,生成两个概率分布矩阵(文档-技术主题、技术主题-特征词),基于此,定义具有自然语言处理属性的量化指标CTM、CTS、TWM,并基于IPC分类数和权利要求数定义具有经济和技术属性的量化指标IPC

CTM(Corpus Topic Mean)表示在语料库范围内技术主题概率的均值,计算公式如式(1)所示。CTM表示技术主题在当前语料库内技术价值的大小,CTM值越大,表示技术主题在当前语料库内所具有的技术价值越大,反之亦然。

其中,N表示语料库内专利文档的数量;M表示主题数量;t

CTS(Corpus Topic Standard)表示在语料库范围内技术主题概率的标准差,计算公式如式(2)所示。CTS表示技术主题在当前语料库内技术价值的稳定性,稳定性衡量该技术主题在当前语料库内技术价值的离散程度。CTS值越小,表示技术主题在当前语料库内的技术价值越稳定,反之亦然。

其中,N表示语料库内专利文档的数量;M表示主题数量;t

TWM(Topic Word Mean)表示技术主题的特征词概率的均值,计算公式如式(3)所示。在计算TWM时,为了选择对技术主题解释能力强的特征词,引入四分位数法将每个技术主题下的特征词按照概率值降序排序,选择其中前四分之一的特征词计算TWM的值,间接地优化了主题-特征词概率分布矩阵。TWM表示技术主题被解释程度的大小,TWM值越大,表示技术主题被解释的越充分,即技术主题当前具有的技术价值越具有说服力,反之亦然。

其中,K表示特征词的数量;M表示主题数量;t

IPC分类数和权利要求数是专利技术价值的评价指标,与专利评价指标的被引文数相比,前面两者的数量不会随着时间变化而改变,后者则会随着时间动态增长。IPC分类数表示专利技术的覆盖范围,研究表明:专利的IPC分类数越大,其技术价值越高,产生的经济效益也越大;权利要求数表示专利技术被保护宽度,研究表明权利要求数与专利技术价值有很好的相关性。专利的被引文量在评估专利技术价值方面有不可替代的作用,但在评估新近发表的专利价值方面,其评估作用远不如IPC分类数和权利要求数,这尤其适应本文研究专利数据的时间特征。原始的专利文献中有IPC分类号和权利要求两个条目,运用统计方法,计算出每篇专利文献中IPC分类号的数量和权利要求的数量。利用IPC分类数和权利要求数不仅可以评估其技术价值,而且可以评估其潜在技术价值。运用量化方法的思想,将两者分别乘以调节系数(α、β)后相加,相加后的数值表示专利具有的潜在技术价值。

IPC

IPC

N表示语料库专利文档的数量;N_Claim

IPC

其中,

IPC

P表示属于每个技术主题的专利文档的数量,每个技术主题的专利文档的数量不同;M表示技术主题数量;IPC

Ⅱ级量化指标定义。

TVC(Topic Value Centrality)是技术主题的CTS(Corpus Topic Standard)的倒数与TWM(Topic Word Mean)的乘积,如式(9)所示。TVC表示技术主题中心性的强弱,即技术主题在当前阶段所具有的技术价值。TVC值越大,表示技术主题在当前所具有的技术价值越大,反之亦然。

M表示主题的数量;CTS

TLV(Topic Latent Value)是技术主题的CTM(Corpus Topic Mean)与IPC

M表示主题的数量;CTM

Ⅰ级量化指标定义。

TI(Topic Innovation)是TVC(Topic Value Centrality)与TLV(Topic LatentValue)的乘积,同时也是融合多属性来识别技术创新主题的量化指标,如公式(11)所示。TI表示技术主题创新性的强弱,即技术主题所具有的创新价值。TI值越大,表示技术主题的创新价值越大,反之亦然。

TI(j)=TVC

M表示主题的数量;TVC

3、技术创新主题挖掘,

3.1、技术创新主题识别,量化指标体系构建完毕,技术创新主题可以通过技术主题创新度(TI)识别出来,但是单纯的数值对于结果的呈现效果并不佳,借助知识图谱呈现主题创新度的结果,可以直观地识别出技术创新主题。

3.2、技术创新主题标记,技术创新主题标记阶段是本发明的汇聚阶段,前面4个阶段都在为这个阶段做准备。技术创新主题虽被识别出来,但每个技术创新主题并没有一个恰当的标记,这个阶段的任务就是利用前面4个阶段已有的数据结果标记创新主题。

根据IPC

本发明实施例还提供了一种基于领域专利数据的技术创新主题挖掘装置,包括:至少一个存储器和至少一个处理器;

所述至少一个存储器,用于存储机器可读程序;

所述至少一个处理器,用于调用所述机器可读程序,执行本发明上述任一实施例中所述的基于领域专利数据的技术创新主题挖掘方法。

本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明上述任一实施例中所述的基于领域专利数据的技术创新主题挖掘方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。

此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。

此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号