首页> 中国专利> 嵌入向量的生成方法、基于企业对的同名人员分类方法及装置

嵌入向量的生成方法、基于企业对的同名人员分类方法及装置

摘要

一种嵌入向量的生成方法、基于企业对的同名人员分类方法及装置,该方法包括:以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;对企业关联关系异构图进行采样,得到每个企业的采样序列;采用预设的自然语言处理模型对每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。本发明实施例提供的方法及装置,通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现。

著录项

  • 公开/公告号CN114860853A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 河南天眼查科技有限公司;

    申请/专利号CN202210459080.1

  • 发明设计人 温嘉瑶;

    申请日2022-04-27

  • 分类号G06F16/28(2019.01);G06F16/901(2019.01);G06K9/62(2022.01);

  • 代理机构北京工信联合知识产权代理有限公司 11266;

  • 代理人傅婷

  • 地址 450000 河南省郑州市郑东新区龙子湖明理路与尚德街交汇处河南企业联合大厦-豫发中心22层

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06F16/28 专利申请号:2022104590801 申请日:20220427

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及图像检测技术领域,具体而言,涉及一种嵌入向量的生成方法、基于企业对的同名人员分类方法、装置、计算机可读存储介质及电子设备。

背景技术

自然人人名消歧是企业信息分析中的难题。在工商公开信息中,对于企业的相关人员,官方披露仅包含人员姓名,不包含人员的唯一身份识别代码,因此当两家企业同时出现两个相同的人名时,难以判断两人是否为同一人。

传统方法中解决人名消歧一般依赖人为设定策略进行关系判断,判断的准确性受限于人工策略的完备程度。同时,由于企业信息的复杂性,人工策略难以深入利用企业的多维度信息,导致结果准确率较低。

发明内容

鉴于此,本发明提出了一种嵌入向量的生成方法、基于企业对的同名人员分类方法、装置、计算机可读存储介质及电子设备,以解决现有技术中两家企业同时出现两个相同的人名时难以判断是否为同一个人的问题。

第一方面,本发明实施例提供了一种嵌入向量的生成方法,所述方法包括:以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;其中,每个关联关键词的所有边的权重之和均相同;对所述企业关联关系异构图进行采样,得到每个企业的采样序列;采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

进一步地,所述对所述企业关联关系异构图进行采样,得到每个企业的采样序列,包括:以所述企业关联关系异构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。

进一步地,当一个节点具有多个边时,所述沿着边进行随机游走,包括:根据每条边的权重,确定沿着每条边进行随机游走的概率。

进一步地,所述采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量,包括:采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

第二方面,本发明实施例还提供了一种基于企业对的同名人员分类方法,所述方法包括:在待分类企业对中的两家企业均在当前的企业关联关系异构图中的情况下,从预先采用上述各实施例提供的方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,所述企业对由同名人员名下的两个企业组成。

进一步地,所述方法还包括:在待分类企业对中的两家企业存在至少一家企业不在所述当前的企业关联关系异构图中的情况下,将未在所述当前的企业关联关系异构图中的企业添加至所述当前的企业关联关系异构图中,生成最新的企业关联关系异构图;采用与待分类企业对中的两家企业均在当前的企业关联关系异构图中类似的企业对分类方法进行企业对分类。

进一步地,所述将未在所述当前的企业关联关系异构图中的企业添加至所述当前的企业关联关系异构图中,包括:寻找与未在所述当前的企业关联关系异构图中的企业具有关联关系的企业,将所述未在所述当前的企业关联关系异构图中的企业及其关联关键词作为新的节点,将所述未在所述当前的企业关联关系异构图中的企业与具有关联关系的企业之间的关系、所述未在所述当前的企业关联关系异构图中的企业与每个关联关键词之间的关系生成边,添加至所述当前的企业关联关系异构图中。

进一步地,所述预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于所述企业对是否属于同一个自然人划分得到。

进一步地,所述二分类模型预先采用如下方法构建得到:获取带正负标签的企业对;从所述嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;将所述企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;根据企业对的所带正负标签和所述预测标签计算评价指标值,并通过所述评价指标值确定初始的所述二分类模型的阈值,得到最终的二分类模型。

进一步地,所述通过所述评价指标值确定初始的所述二分类模型的阈值,包括:从初始的所述二分类模型的阈值范围中,选取所述评价指标值最高时所对应的阈值;其中,初始的所述二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量对中两个嵌入向量的余弦相似度得到。

进一步地,所述将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果之前,还包括:将待分类企业对中两家企业的嵌入向量输入同一个全连接网络,得到转换后的两家企业的嵌入向量。

第三方面,本发明实施例提供了一种嵌入向量的生成装置,所述装置包括:异构图生成单元,用于以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;其中,每个关联关键词的所有边的权重之和均相同;采样单元,用于对所述企业关联关系异构图进行采样,得到每个企业的采样序列;处理单元,用于采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

进一步地,所述采样单元,还用于:以所述企业关联关系异构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。

进一步地,当一个节点具有多个边时,所述沿着边进行随机游走,包括:根据每条边的权重,确定沿着每条边进行随机游走的概率。

进一步地,所述处理单元,还用于:采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

第四方面,本发明实施例还提供了一种基于企业对的同名人员分类装置,所述装置包括:在待分类企业对中的两家企业均在当前的企业关联关系异构图中的情况下,嵌入向量提取单元,用于从预先采用上述各实施例提供的方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;分类单元,用于将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,所述企业对由同名人员名下的两个企业组成。

进一步地,所述装置还包括:在待分类企业对中的两家企业存在至少一家企业不在所述当前的企业关联关系异构图中的情况下,添加单元,用于将未在所述当前的企业关联关系异构图中的企业添加至所述当前的企业关联关系异构图中,生成最新的企业关联关系异构图;采用与待分类企业对中的两家企业均在当前的企业关联关系异构图中类似的企业对分类方法进行企业对分类。

进一步地,所述将未在所述当前的企业关联关系异构图中的企业添加至所述当前的企业关联关系异构图中,包括:寻找与未在所述当前的企业关联关系异构图中的企业具有关联关系的企业,将所述未在所述当前的企业关联关系异构图中的企业及其关联关键词作为新的节点,将所述未在所述当前的企业关联关系异构图中的企业与具有关联关系的企业之间的关系、所述未在所述当前的企业关联关系异构图中的企业与每个关联关键词之间的关系生成边,添加至所述当前的企业关联关系异构图中。

进一步地,所述预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于所述企业对是否属于同一个自然人划分得到。

进一步地,所述二分类模型预先采用如下方法构建得到:获取带正负标签的企业对;从所述嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;将所述企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;根据企业对的所带正负标签和所述预测标签计算评价指标值,并通过所述评价指标值确定初始的所述二分类模型的阈值,得到最终的二分类模型。

进一步地,所述通过所述评价指标值确定初始的所述二分类模型的阈值,包括:从初始的所述二分类模型的阈值范围中,选取所述评价指标值最高时所对应的阈值;其中,初始的所述二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量对中两个嵌入向量的余弦相似度得到。

进一步地,所述装置还包括全连接网络单元,用于:将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果之前,将待分类企业对中两家企业的嵌入向量输入同一个全连接网络,得到转换后的两家企业的嵌入向量。

第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明各实施例提供的方法。

第六方面,本发明实施例还提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明各实施例提供的方法。

本发明实施例提供的嵌入向量的生成方法及装置,通过构建企业关联关系异构图,对企业关联关系异构图进行采样以及采用预设的自然语言处理模型对采样序列进行训练处理,得到企业嵌入向量,解决了现有技术中企业间关系构建不完备和不准确而导致的两家企业同时出现两个相同的人名时,难以判断两人是否为同一人的问题。通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系。

本发明实施例提供的基于企业对的同名人员分类方法及装置,通过从企业关联关系异构图中提取待分类企业对中两家企业的嵌入向量,并将两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果,操作简单,可以实现所有企业的所有关联关系均包含在关系图中,确保了企业关联关系数据的全面性和准确性,从而可以实现同名人员的企业对的分类及判断更加可靠和准确。

附图说明

图1为本发明一个示例性的实施例提供的系统架构示意图;

图2为本发明一个示例性的实施例提供的嵌入向量的生成方法的流程图;

图3为本发明一个示例性的实施例提供的基于企业对的同名人员分类方法的流程图;

图4为本发明一个示例性的实施例提供的嵌入向量的生成装置的结构示意图;

图5为本发明一个示例性的实施例提供的基于企业对的同名人员分类装置的结构示意图;

图6为本发明一个示例性的实施例提供的电子设备的框图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。

图1为本发明一个示例性的实施例提供的系统架构示意图。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105、106、107和108。网络103用以在终端设备101、102、103和服务器105、106、107、108之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105、106、107、108交互,以访问各种服务,例如浏览网页、下载数据等。终端设备101、102、103上可以安装有各种客户端应用,例如可以接入统一资源定位符URL云服务的应用,包括但不限于浏览器、安全应用等。

终端设备101、102、103可以是各种电子设备,包括但不限于个人电脑、智能手机、智能电视、平板电脑、个人数字助理、电子书阅读器等等。

服务器105、106、107、108可以是提供各种服务的服务器。服务器可以响应于用户的服务请求而提供服务。可以理解,一个服务器可以提供一种或多种服务,同一种服务也可以由多个服务器来提供。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图2为本发明一个示例性的实施例提供的嵌入向量的生成方法的流程图。如图2所示,该方法包括:

步骤S201:以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;其中,每个关联关键词的所有边的权重之和均相同。

关联关键词包括:相同的企业属性信息。具体地,相同的企业属性信息,包括但不限于同电话、同行业、同省、同市、拥有2个以上同名人员等。可以预先设置每个关联关键词的所有边的权重之和均为相同值。例如,关联关键词b总共与3家企业相关,则可以预设关联关键词b与这3家企业之间的3条边的权重之和为1,则关联关键词b与每家企业之间的边的权重为1/3。企业之间的关系可以包括投资关系、合伙关系等。企业之间的边权重之和可以预先设置为任意数值,没有限制。

通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系。

步骤S202:对企业关联关系异构图进行采样,得到每个企业的采样序列。

进一步地,步骤S202,包括:以企业关联关系异构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。

以每个节点为起点,沿着边进行随机游走,当遇到一个节点时,选取与该节点连接的任意一条边继续进行游走,直至途经k个点,获得节点的游走序列。优选地,k为大于或等于5的正整数。进一步优选地,k=10。每次采样过程中,同一个节点可以途径1次,也可以途径2次或多次。每个节点作为起点可以采样m次,其中m为正整数。优选地,m为大于或等于5的正整数。进一步优选地,m=10。

进一步地,当一个节点具有多个边时,沿着边进行随机游走,包括:根据每条边的权重,确定沿着每条边进行随机游走的概率。

例如,a企业与3个关联关键词相连,这3个关联关键词的节点分别有x、y、z个边,则a企业与这3个关联关键词相连的3条边的权重分别为1/x、1/y、1/z,那么由a企业这个节点,沿着这3条边随机游走的概率分别为1/x、1/y、1/z。

步骤S203:采用预设的自然语言处理模型对每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

嵌入向量是一串固定长度的数值,常见的长度为16、32、64等,每一位是一个可正可负的数。对象的嵌入表示可以为任意维度的向量。以16维向量为例,“北京AA科技有限公司”的嵌入表示为:[-0.6433484,1.9626732,2.9946766,3.4748187,0.8176478,-0.945684,1.0036267,1.8913803,1.430759,1.2809728,4.0172596,2.8226984,-1.9158391,0.17588441,-3.302099,1.3402888]。“北京BB网络科技有限公司”的嵌入表示为:[-0.52615666,-1.8757683,2.3022957,-2.247738,3.6796074,0.26537383,1.8951517,-0.5244883,0.4057679,3.4313507,-0.7072354,-4.1955266,-1.4017067,1.5180964,-3.0574412,1.4780037]。

进一步地,步骤S203,包括:采用预设的word2vec自然语言处理模型对每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

上述实施例,通过构建企业关联关系异构图,对企业关联关系异构图进行采样以及采用预设的自然语言处理模型对采样序列进行训练处理,得到企业嵌入向量,解决了现有技术中企业间关系构建不完备和不准确而导致的两家企业同时出现两个相同的人名时,难以判断两人是否为同一人的问题。通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系。

图3为本发明一个示例性的实施例提供的基于企业对的同名人员分类方法的流程图。如图3所示,该方法包括:在待分类企业对中的两家企业均在当前的企业关联关系异构图中的情况下,

步骤S301:从预先采用上述各实施例提供的方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;

步骤S303:将两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,企业对由同名人员名下的两个企业组成。

进一步地,预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于企业对是否属于同一个自然人划分得到。

可以通过计算待分类企业对中两家企业的嵌入向量的余弦相似度,比较其与预先训练得到的阈值的大小,若大于阈值,则判定待分类企业对中两家企业的同名人是同一个自然人,若小于阈值,则判定待分类企业对中两家企业的同名人不是同一个自然人。

进一步地,该方法还包括:在待分类企业对中的两家企业存在至少一家企业不在当前的企业关联关系异构图中的情况下,

将未在当前的企业关联关系异构图中的企业添加至当前的企业关联关系异构图中,生成最新的企业关联关系异构图;

采用与待分类企业对中的两家企业均在当前的企业关联关系异构图中类似的企业对分类方法进行企业对分类。

进一步地,将未在当前的企业关联关系异构图中的企业添加至当前的企业关联关系异构图中,包括:

寻找与未在当前的企业关联关系异构图中的企业具有关联关系的企业,将未在当前的企业关联关系异构图中的企业及其关联关键词作为新的节点,将未在当前的企业关联关系异构图中的企业与具有关联关系的企业之间的关系、未在当前的企业关联关系异构图中的企业与每个关联关键词之间的关系生成边,添加至当前的企业关联关系异构图中。

需要了解的是,若新添加的企业在当前的企业关联关系异构图中不存在关联企业时,则无法将其添加到当前的关系图中,进而判定待分类企业对中的两家企业不相关,不属于同一个自然人。

通过采用异构图构建企业关联关系图,当存在未在当前的企业关联关系异构图中的企业及企业关系时,可以直接通过增加节点方法实现企业关联关系异构图中新增企业及企业关系,操作简单,

通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系,可以实现所有企业的所有关联关系均包含在关系图中,确保了企业关联关系数据的全面性和准确性,从而可以实现同名人员的企业对的分类及判断更加可靠和准确。

进一步地,二分类模型预先采用如下方法构建得到:

获取带正负标签的企业对;

从嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;

将企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;

根据企业对的所带正负标签和预测标签计算评价指标值,并通过评价指标值确定初始的二分类模型的阈值,得到最终的二分类模型。

进一步地,通过评价指标值确定初始的二分类模型的阈值,包括:

从初始的二分类模型的阈值范围中,选取评价指标值最高时所对应的阈值;其中,初始的二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量对中两个嵌入向量的余弦相似度得到。

评价指标值可以包括准确率(ACC)、精确率(P)、召回率(R)、P-R曲线、F1值、TPR、FPR、ROC、AUC中的一个或多个。

进一步地,步骤S303之前,还包括:

步骤S302:将待分类企业对中两家企业的嵌入向量输入同一个全连接网络,得到转换后的两家企业的嵌入向量。

对于对线性不可分的嵌入向量,可以先通过全连接神经网络将其进行转换后,再输入预先构建的二分类模型进行预测。

图4为本发明一个示例性的实施例提供的嵌入向量的生成装置的结构示意图。如图4所示,该装置包括:

异构图生成单元401,用于以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;其中,其中,每个关联关键词的所有边的权重之和均相同。

关联关键词包括:相同的企业属性信息。具体地,相同的企业属性信息,包括但不限于同电话、同行业、同省、同市、拥有2个以上同名人员等。可以预先设置每个节点的所有边的权重之和均为相同值。例如,关联关键词b总共与3家企业相关,则可以预设关联关键词b与这3家企业之间的3条边的权重之和为1,则关联关键词b与每家企业之间的边的权重为1/3。企业之间的关系可以包括投资关系、合伙关系等。企业之间的边权重之和可以预先设置为任意数值,没有限制。

通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系。

采样单元402,用于对企业关联关系异构图进行采样,得到每个企业的采样序列。

进一步地,采样单元402,还用于:

以企业关联关系异构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。

以每个节点为起点,沿着边进行随机游走,当遇到一个节点时,选取与该节点连接的任意一条边继续进行游走,直至途经k个点,获得节点的游走序列。优选地,k为大于或等于5的正整数。进一步优选地,k=10。每次采样过程中,同一个节点可以途径1次,也可以途径2次或多次。每个节点作为起点可以采样m次,其中m为正整数。优选地,m为大于或等于5的正整数。进一步优选地,m=10。

进一步地,当一个节点具有多个边时,沿着边进行随机游走,包括:

根据每条边的权重,确定沿着每条边进行随机游走的概率。

例如,a企业与3个关联关键词相连,这3个关联关键词的节点分别有x、y、z个边,则a企业与这3个关联关键词相连的3条边的权重分别为1/x、1/y、1/z,那么由a企业这个节点,沿着这3条边随机游走的概率分别为1/x、1/y、1/z。

处理单元403,用于采用预设的自然语言处理模型对每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

嵌入向量是一串固定长度的数值,常见的长度为16、32、64等,每一位是一个可正可负的数。对象的嵌入表示可以为任意维度的向量。以16维向量为例,“北京AA科技有限公司”的嵌入表示为:[-0.6433484,1.9626732,2.9946766,3.4748187,0.8176478,-0.945684,1.0036267,1.8913803,1.430759,1.2809728,4.0172596,2.8226984,-1.9158391,0.17588441,-3.302099,1.3402888]。“北京BB网络科技有限公司”的嵌入表示为:[-0.52615666,-1.8757683,2.3022957,-2.247738,3.6796074,0.26537383,1.8951517,-0.5244883,0.4057679,3.4313507,-0.7072354,-4.1955266,-1.4017067,1.5180964,-3.0574412,1.4780037]。

进一步地,处理单元403,还用于:采用预设的word2vec自然语言处理模型对每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。

上述实施例,通过构建企业关联关系异构图,对企业关联关系异构图进行采样以及采用预设的自然语言处理模型对采样序列进行训练处理,得到企业嵌入向量,解决了现有技术中企业间关系构建不完备和不准确而导致的两家企业同时出现两个相同的人名时,难以判断两人是否为同一人的问题。通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系。

图5为本发明一个示例性的实施例提供的基于企业对的同名人员分类装置的结构示意图。如图5所示,该装置包括:在待分类企业对中的两家企业均在当前的企业关联关系异构图中的情况下,

嵌入向量提取单元501,用于从预先采用上述各实施例提供的方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;

分类单元503,用于将两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,企业对由同名人员名下的两个企业组成。

进一步地,预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于企业对是否属于同一个自然人划分得到。

可以通过计算待分类企业对中两家企业的嵌入向量的余弦相似度,比较其与预先训练得到的阈值的大小,若大于阈值,则判定待分类企业对中两家企业的同名人是同一个自然人,若小于阈值,则判定待分类企业对中两家企业的同名人不是同一个自然人。

进一步地,该装置还包括:

在待分类企业对中的两家企业存在至少一家企业不在当前的企业关联关系异构图中的情况下,

添加单元,用于将未在当前的企业关联关系异构图中的企业添加至当前的企业关联关系异构图中,生成最新的企业关联关系异构图;

采用与待分类企业对中的两家企业均在当前的企业关联关系异构图中类似的企业对分类方法进行企业对分类。

进一步地,将未在当前的企业关联关系异构图中的企业添加至当前的企业关联关系异构图中,包括:

寻找与未在当前的企业关联关系异构图中的企业具有关联关系的企业,将未在当前的企业关联关系异构图中的企业及其关联关键词作为新的节点,将未在当前的企业关联关系异构图中的企业与具有关联关系的企业之间的关系、未在当前的企业关联关系异构图中的企业与每个关联关键词之间的关系生成边,添加至当前的企业关联关系异构图中。

需要了解的是,若新添加的企业在当前的企业关联关系异构图中不存在关联企业时,则无法将其添加到当前的关系图中,进而判定待分类企业对中的两家企业不相关,不属于同一个自然人。

通过采用异构图构建企业关联关系图,无需考虑企业之间关联关系的属性类型而设置不同的权重边,后续采样会根据节点的度自动学习到权重,并且新增企业以及企业关系可以直接通过增加节点实现,易于引入新的企业以及企业间关系,可以实现所有企业的所有关联关系均包含在关系图中,确保了企业关联关系数据的全面性和准确性,从而可以实现同名人员的企业对的分类及判断更加可靠和准确。

进一步地,二分类模型预先采用如下方法构建得到:

获取带正负标签的企业对;

从嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;

将企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;

根据企业对的所带正负标签和预测标签计算评价指标值,并通过评价指标值确定初始的二分类模型的阈值,得到最终的二分类模型。

进一步地,通过评价指标值确定初始的二分类模型的阈值,包括:

从初始的二分类模型的阈值范围中,选取评价指标值最高时所对应的阈值;其中,初始的二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量对中两个嵌入向量的余弦相似度得到。

评价指标值可以包括准确率(ACC)、精确率(P)、召回率(R)、P-R曲线、F1值、TPR、FPR、ROC、AUC中的一个或多个。

进一步地,该装置还包括:

全连接网络单元502,用于将两家企业的嵌入向量输入预先构建的二分类模型进行预测之前,将待分类企业对中两家企业的嵌入向量输入同一个全连接网络,得到转换后的两家企业的嵌入向量。

对于对线性不可分的嵌入向量,可以先通过全连接神经网络将其进行转换后,再输入预先构建的二分类模型进行预测。

图6为本发明一个示例性的实施例提供的电子设备的框图。如图6所示,电子设备600包括一个或多个处理器610和存储器620。

处理器610可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。

存储器620可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器610可以运行所述程序指令,以实现上文所述的本发明的各个实施例的软件程序的状态数据管理方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置630和输出装置640,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外,该输入装置630还可以包括例如键盘、鼠标等等。

该输出装置640可以向外部输出各种信息。该输出装置640可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图6中仅示出了该电子设备中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的嵌入向量的生成方法中的步骤或基于企业对的同名人员分类方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的嵌入向量的生成方法中的步骤或基于企业对的同名人员分类方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号