首页> 中国专利> 用于将职业关系数据与商用数据内容聚合和关联的系统和方法

用于将职业关系数据与商用数据内容聚合和关联的系统和方法

摘要

提供了一种方法,其包括(i)接收第一记录,该第一记录包含个人的身份、企业的名称、以及个人在企业中的职位;(ii)将第一记录与提供企业的唯一企业标识符的数据进行匹配;(iii)将第一记录与提供个人的唯一个人标识符的数据进行匹配;(iii)将(a)唯一企业标识符、(b)唯一个人标识符、以及(c)个人在企业中的职位的唯一职位标识符附加到第一记录;(iv)基于唯一企业标识符、唯一个人标识符、以及唯一职位标识符将第一记录与第二记录进行匹配;以及(v)将第一记录和第二记录合并为结果记录。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-02-24

    授权

    授权

  • 2013-01-30

    实质审查的生效 IPC(主分类):G06F7/00 申请日:20110128

    实质审查的生效

  • 2012-11-14

    公开

    公开

说明书

相关申请的交叉引用

本申请要求2010年1月29日提交的第61/299,802号美国临时专利申 请的优先权,其内容通过引用合并于此。

版权声明

本专利文献的公开的一部分包含受版权保护的内容。当专利文献或专 利公开出现在专利和商标局的专利文件或记录中时,版权所有人不反对任 何人对专利文献或专利公开的传真复制,但除此之外,无论如何均保留所 有版权权利。

背景技术

1.发明的领域

本公开涉及执行如下处理的系统:聚合、预审(pre-qualify)、以及 合并关于个人和个人隶属或者已经隶属的企业实体的一个或更多个信息 来源,从而产生职业简档,以及将职业简档存储并且维护在其他系统可以 访问的管理数据存储库中。

2.相关技术的描述

本部分中描述的方法是可以实行的方法,但不必是之前已经想到或者 实行的方法。因此,除非相反地指示,本部分中描述的方法对于本申请的 权利要求可能不是现有技术,并且不由于包含在本部分中而承认是现有技 术。

为了本文献的目的,术语“职业”被定义为是企业实体的,或者涉及 企业实体,或者涉及由美国劳工部、劳工统计局或任何其他公认机构列出 的职位或者头衔。

当前市场上存在可获得的职业简档产品。然而,相比于个人具有的与 企业实体的关系的性质,这些产品一般更关注关于个人的数据、或者个人 与之具有职业关系的企业实体。这些职业简档产品依赖于大量来源,包括 由个人直接提供的信息。然而,这些职业简档产品无法通过采用健壮的如 下匹配处理来唯一地识别个人或企业实体:该匹配处理用于识别个人、企 业实体、或个人与一个或更多个企业之间的关系。

这些职业简档产品访问各种来源以建立职业简档,但是不包括如下处 理:审查(qualify)来自这些来源的数据以从各种来源中的每个来源获得 最佳质量的信息。在一些情况下,职业简档产品采用如下技术:该技术例 如不允许涉及个人的高级数据元素,例如电子邮件地址和直拨电话号码要 适当地被验证并被聚合到职业简档中。

当前职业简档产品的技术缺陷在于,尽管当前职业简档产品可能能够 合并来自多个来源的关于企业环境中的个人或者与企业相关的个人的数 据,并且将合并的数据存储到数据库中,但是当前职业简档产品可能无意 中为个人产生了多于一条记录。本发明通过以下处理克服了该缺陷:该处 理包括将来自多个来源的数据与提供每个个人和相关联的企业的唯一标 识符的存储数据库中的数据进行匹配,然后利用唯一标识符将关于个人的 数据指引到单个记录。

发明内容

提供了一种方法,其包括:(i)接收第一记录,该第一记录包含个人 的身份、企业的名称、以及个人在企业中的职位;(ii)将第一记录与提供 企业的唯一企业标识符的数据进行匹配;(iii)将第一记录与提供个人的 唯一个人标识符的数据进行匹配;(iii)将(a)唯一企业标识符、(b)唯 一个人标识符、以及(c)个人在企业中的职位的唯一职位标识符附加到 第一记录;(iv)基于唯一企业标识符、唯一个人标识符、以及唯一职位 标识符将第一记录与第二记录进行匹配;以及(v)将第一记录和第二记 录合并为结果记录。

本发明设法克服当前职业简档产品的各种缺点。即,本发明设法通过 将职业人员具有或者已经具有的与一个或更多个企业实体的多个当前职 位或过去职位关联到一个统一的个人职业简档,来生成职业简档。本发明 也设法通过使用确保数据完整、准确以及及时的通常自动执行的处理,来 改进职业人员联系数据处理。此外,本发明设法移除对可以处理的联系记 录的数量和类型的任何限制。另外,本发明设法将个人的数据,例如职业 人员电子邮件地址和直拨电话号码与为该个人创建的统一简档相关联。

本公开具有的优于现有技术的优点在于:使用与关于个人和企业的数 据的参考数据库的高质量匹配服务,以便为该数据建立具有高置信度的准 确度的职业简档。

本发明包括识别、审查、以及聚合多个来源的现有和以前的职业关系 和联系信息的动作。本发明包括如下处理:验证与个人和企业实体两者有 关的来源数据,并且将个人和与企业实体有关的身份和联系数据(包括个 人具有的与企业实体的职位)与正发布或存储在数据存储库中的结果信息 相关联,其中,该数据存储库由已被提供了对数据存储库的访问的个人和 企业实体稍后使用。

该处理包括匹配处理,该匹配处理用来将多个来源的信息与所建立的 承载关于个人和企业实体的信息的数据存储库进行比较。

本发明采用之前验证的包括每个企业实体和每个个人的唯一标识符 的企业实体信息,并且使该信息符合之前验证的个人信息,其中该个人信 息包括每个个人的唯一标识符、以及个人在给定的相关联的企业实体中已 经拥有的每个职位的唯一标识符。因此,本处理产生了具有唯一标识符的 职业简档(professional profile),其中所述唯一标识符应用到企业实体、 个人身份以及职位的每个唯一值。

职业简档放置在可由其他系统和产品访问的综合数据存储库中。因 此,综合数据存储库包含如下数据:所述数据涉及个人与企业实体之间的 当前和之前的职业关系和关联两者、以及与这些关系相关的具体职位和头 衔。另外,综合数据存储库包含个人和企业实体的身份、联系和其他类似 的数据,以及每个个人、企业实体及其之间的关系的唯一标识符。本发明 包括如下处理:所述处理针对多个数据来源和其他数据存储库评估综合数 据存储库,以确保数据完整、准确和及时。

本公开的系统和方法包括:

(a)聚集来自至少一个数据来源的关于个人和企业实体的多个数据,并 且将如此聚集的数据提供到存储库;

(b)对数据进行净化、解析以及标准化;以及对聚集的数据中的关于个 人和企业实体的信息进行数据验证;

(c)从之前开发的维护关于企业实体的数据的数据存储库中,检索、评 估和选择与来源记录上的企业实体数据最类似的候选企业实体,因此产生 企业实体匹配,并且维护关于企业实体匹配的质量的信息;

(d)从之前开发的维护关于个人的数据的数据存储库中,检索、评估和 选择与来源记录上的个人最类似的候选个人,因此产生个人匹配,并且维 护关于个人匹配的质量的信息;

(e)将来源数据记录分组到职业简档中,其中一个个人关联到企业实体;

(f)进一步将来源数据分组到每个个人在企业实体中拥有的就业职位;

(g)将来自一个或更多个来源记录的来源数据按优先顺序排列并且聚合 到每个简档及其相关联的职位记录中;以及

(h)将关于个人、企业实体、个人与企业实体之间的关系、相关联的来 源标识符以及处理日期的数据发布或存储到数据存储库中。

附图说明

图1将来自一个或更多个来源的数据变换为识别个人及其相关联的 企业实体和企业关系的合并信息的方法的功能框图。

图2是图1中所示的净化和预审处理的功能框图。

图3是由图1中所示的企业实体处理和个人身份匹配处理125执行的 操作的功能框图。

图4是用于执行图1的方法的系统的框图。

在每个图中,用相同的附图标记表示对于多于一个图来说共同的部件 或特征。

具体实施方式

图1是将来自一个或更多个来源的数据变换为识别个人及其相关联 的企业实体和企业关系的合并信息的方法100的功能框图。方法100包括 三个通常的操作阶段,即(1)聚集、净化和预审阶段101,(2)检索、 评估、选择和匹配阶段110,以及(3)呈现和维护阶段134。

聚集、净化和预审阶段101涉及从来源105收集数据,并且执行净化 和预审处理115。检索、评估、选择和匹配阶段110包括企业实体匹配120、 个人身份匹配125、职位识别处理127和合并处理130。呈现和维护阶段 134包括涉及管理数据存储库135的操作。

来源105是关于个人(即人)和个人所隶属的企业的数据。即,来源 105包含诸如个人身份数据、企业实体数据或其组合的信息。该数据可包 括诸如个人姓名、企业名称、企业地址、职位名称和电话号码的信息。该 数据可通过外源性动作(例如通过购买数据)、或者通过内源性动作(例 如通过访问内部文件)来获得。来源105包括多个来源,例如从来源1 至来源N。来源1包括记录106,而来源2包括记录107。尽管在图1中, 来源105包括多个来源,但是方法100被设想能够对来自包含单个数据结 构(例如单个记录)的单个来源的数据进行操作。

简言之,方法100聚集了来自来源105的与个人和企业实体相关联的 多个数据,并且产生如下简档:该简档唯一地识别在企业实体和企业关系 的环境中的相关联的个人。该简档作为简档140存储在管理数据资料库在 135中。

图2是净化和预审处理115的功能框图。净化和预审处理115以一个 或更多个数据元素或记录的形式从来源105获得数据,并且执行标准化处 理205、净化处理210和验证处理215。标准化处理205和净化处理210 分别用来标准化和净化每个输入来源记录中的数据元素,包括但不限于企 业名称、地址和企业电话号码。在执行标准化处理205和净化处理210 时,仅接受满足预定义的接受标准的记录用于进一步的处理。预定义的接 受标准可以是任何想要的用于决定数据是否适合于进一步处理的标准,例 如美国电话号码必须具有10个数字。

标准化处理205对包含在记录中的数据元素进行标准化。例如,标准 化处理205可执行以下中的一个或更多个:(a)在物理地址数据元素不可 用的情况下,创建用于邮寄地址的物理地址;(b)为来自来源105的数据 标识和分配合适的国家代码;或者(c)生成和分配标准化的数字代码, 该数字代码标识由来自来源105的数据中呈现的给定个人所拥有的企业 职位。

净化处理210移除不需要的、多余的或者不相关的数据。例如,净化 处理210可能执行以下中的一个或更多个:(a)搜索并移除手机号码和传 真号码;(b)识别并移除非标准的姓后缀;或者(c)识别并移除具有不 可用的域名的电子邮件地址。

验证处理215验证记录中的各种数据元素。例如,验证处理215可执 行以下中的一个或更多个:(a)确认从来源105取出的给定企业实体中的 给定个人的当前职位和电话号码;或者(b)使服务器对来自来源105的 数据中的电子邮件地址进行服务器电子邮件地址验证。

因此,净化处理210和验证处理215识别来自来源105的无效的数据 和记录,并且移除无效的数据和记录,使得无效的数据和记录不被进一步 处理。

图3是由图1中所示的企业实体匹配处理120和个人身份匹配处理 125执行的操作的功能框图。为了示例的目的,假定正在处理记录106。

企业实体匹配处理120和个人身份匹配处理125从之前开发的数据存 储库中检索、评估和选择与来源记录106中的数据最类似的企业实体和个 人身份信息。

企业实体匹配处理120从由净化和预审处理115促进(promoted)的 记录中检索记录106,识别记录106中与特定的企业实体相关联的数据, 以及查询企业实体数据存储库305关于该特定企业实体的额外信息。企业 实体匹配处理120识别与来源记录106相关联的可能的企业,并且当识别 了匹配时(参见第7,392,240号美国专利(Scriffignano等),其全部内容 通过引用合并于此),应用唯一标识符、匹配级别字串、匹配数据简档和 置信度代码

唯一标识符是多字符代码,该多字符代码识别主题,使得该主题可以 与所有其他主题相区分。给定的唯一标识符仅可以使用一次。优选地,唯 一标识符是永久的,即唯一标识符仅分配一次并且从不重复利用。因此, 一旦将唯一标识符分配给主题,该唯一标识符将仅识别该特定的主题。数 据通用编号系统(DUNS)号码可以用作这样的唯一标识符。

匹配级别字串是指示记录中的数据字段的匹配质量的级别的字串。例 如,假定记录106包含两个字段,并且企业实体匹配处理120试图将这两 个字段与企业实体数据存储库305中的记录进行匹配。还假定,第一个字 段中的数据是精确匹配,而第二个字段中的数据仅是部分匹配。因此,第 一个字段的匹配得到比第二个字段的匹配更好的匹配级别。

匹配数据简档是如下代码:该代码指示在两个记录的匹配确定中使用 的是两个记录的哪个特定元素。例如,假定具有关于ABC公司的第一记 录,通过识别两个记录的每个记录指示相同的公司董事长、或相同的商标 名称、或相同的前企业名称,将第一记录与ABC公司的第二记录进行匹 配。因此,匹配数据简档可以指示该匹配是基于董事长、或商标名称、或 前企业名称的匹配来进行的。

置信度代码指示匹配是正确的确定性的程度。

企业实体数据存储库305是关于企业的信息的数据库,企业实体数据 存储库305是之前已开发的并且已针对准确度进行了校验的。包含于企业 实体数据存储库305中的企业信息的示例可包括企业的法定名称、商标名 称、邮寄地址、物理地址和主要电话号码。企业实体数据存储库305响应 于来自企业实体匹配处理120的查询而返回企业数据,该企业数据被企业 实体匹配处理120认为是与记录106中识别的企业的匹配。来自企业实体 数据存储库305的企业数据还包括企业的唯一标识符,例如DUNS号码, 即唯一企业标识符。

因此,企业实体匹配处理120选择与记录106中的对应数据最接近的 匹配的数据的集合。例如,企业实体匹配处理120在企业数据记录106 与企业实体数据存储库305中的数据之间寻找最佳匹配。然后,企业实体 匹配处理120将之后用在合并处理130中的唯一企业标识符和其他信息 (类似于匹配级别字串、匹配数据简档和置信度代码)附加到记录106。 然后,企业实体匹配处理120将记录106转发给个人身份匹配处理125。

个人身份匹配处理125接收记录106并且识别记录106中作为与特定 的个人身份、即特定的人相关的属性的数据,以及向个人身份数据存储库 310查询关于该特定的人的更多信息。个人身份匹配处理利用与由企业实 体匹配处理120利用的处理类似的匹配处理,来识别最可能与记录106 相关联的个人。

个人身份数据存储库310是关于个人的信息的数据库,个人身份数据 存储库310是之前已开发的并且针对准确度已进行了校验的。包含于个人 身份数据存储库310中的个人身份信息的示例包括名字、中间名、姓氏、 出生月份、出生日、出生年份、居住城市和居住州。个人身份数据存储库 310响应来自个人身份匹配处理125的查询而返回个人身份数据,该个人 身份数据被个人身份匹配处理125认为是与记录106中识别的个人的匹 配。来自个人身份数据存储库310的个人身份数据还包括个人的唯一标识 符,即唯一个人标识符。

因此,个人身份匹配处理125选择与记录106中的对应数据最接近的 匹配的数据。例如,个人身份匹配处理125在记录106中关于个人的数据 与个人身份数据存储库310中的数据之间寻找最佳匹配。然后,个人身份 匹配处理125将之后用于合并处理130中的唯一个人标识符、匹配级别字 串、匹配数据简档和置信度代码附加到记录106。然后,个人身份匹配处 理125将记录106转发给职位识别处理127。

再次参考图1。

职位识别处理127向记录106分配唯一职位标识符。唯一职位标识符 是识别特定的人在特定的企业中的特定职位的唯一标识符。唯一职位标识 符基于标准化处理205中分配的职位代码、企业实体匹配处理120中分配 的唯一企业标识符和个人身份匹配处理125中分配的唯一个人标识符。

假定记录107包括关于与记录106相同的个人的数据,但是记录107 中的数据与记录106中的数据不相同。记录107可能包括或可能不包含与 记录106中的相同的企业数据。方法100以与记录106类似的方式处理记 录107,因此将相同的个人身份信息和个人的唯一标识符附加到记录107, 并且也附加企业信息、唯一企业标识符和适合于记录107中的企业信息的 唯一职位标识符,其可能与记录106中的企业的企业信息和唯一企业标识 符相同或不相同。然后,方法100将记录107存储到临时存储中,即临时 存储库145中。

合并处理130对已被企业实体匹配处理120、个人身份匹配处理125 和职位识别处理127处理的记录进行分组、按优先顺序排列和聚合,并且 建立复合记录,该复合记录提供给定个人的企业职位、与一个或更多个企 业实体的关系和关联的复合视图。合并处理130从临时存储库145获得记 录106和记录107,并且与已被企业实体匹配处理120、个人身份匹配处 理125和职位识别处理127处理的其他记录相关联地对记录106和记录 107进行汇编和排序。然而,对于本讨论,将讨论限制于对记录106和记 录107的考虑。

合并处理130基于由企业实体匹配处理120分配的唯一企业标识符、 由个人身份匹配处理125分配的唯一个人标识符、以及由职位识别处理 127分配的唯一职位标识符,将记录106和记录107识别为属于相同的唯 一个人,因此产生简档132。

合并处理130对与简档132相关联的职业属性,例如职位、名称和企 业的位置进行分组,并且根据与在企业实体匹配处理120和个人身份匹配 处理125期间识别的一样的数据特征,例如数据的来源(例如来源1对来 源2)、数据的年代、或匹配的质量(例如匹配级别字串),对简档132中 的属性进行排序和组织。因此,简档132是针对给定的唯一个人的汇编记 录,其提供该个人和该个人在一个或更多个企业实体中拥有的职位的复合 视图。

管理数据存储库135从合并处理130接收简档132,并且将简档132 存储为简档142。管理数据存储库135保存多个简档140。简档142是多 个简档140之一。

在回顾中,方法100(i)接收记录106,该记录106包含个人的身份、 企业的名称、以及个人在企业中的职位,(ii)将记录106与企业实体数据 存储库305中提供企业的唯一企业标识符的数据进行匹配,(iii)将记录 106与个人身份数据存储库310中提供个人的唯一个人标识符的数据进行 匹配,(iii)将(a)唯一企业标识符、(b)唯一个人标识符、以及(c) 个人在企业中的职位的唯一职位标识符附加到记录106,(iv)基于唯一企 业标识符、唯一个人标识符、以及唯一职位标识符,将记录106与记录 107进行匹配,以及(v)将记录106和记录107合并为结果记录,即简 档132。

在方法100中,以个人身份匹配处理125在企业实体匹配处理120 之后的顺序执行企业实体匹配处理120和个人身份匹配处理125。然而, 可以以企业实体匹配处理120在个人身份匹配处理125之后的顺序执行这 两个处理,或者彼此同时执行。另外,方法100不必在处理第二记录之前 完成第一记录的处理,而是可以同时处理多个记录。

图4是用于执行方法100的系统400的框图。系统400包括与网络 425(例如因特网)耦合的计算机405,例如服务器。

计算机405包括处理器410和存储器415。尽管计算机405在本文中 被表示为独立装置,但是不限于此,而是可以与分布式处理系统中的其它 装置(未示出)耦合。

处理器410是由逻辑电路构成的电子装置,其响应并且执行指令。

存储器415是包含可被处理器410读取并且执行(因此控制处理器 410的操作)的数据和指令的装置。存储器415可以以机存取存储器 (RAM)、硬盘驱动器、只读存储器(ROM)、或其组合来实现。存储器 415的组件之一是程序模块420。

程序模块420包含使得处理器410执行本文中描述的方法的指令。例 如,在程序模块420的控制下,处理器410执行净化和预审处理115、企 业实体匹配处理120、个人身份匹配处理125、职位识别处理127、以及 合并处理130的操作。

本文中使用术语“模块”表示如下功能操作:该功能操作可被具体实 施为独立组件或者多个从属组件的集成配置。因此,程序模块420可被实 现为单个模块、或者可被实现为彼此合作地操作的多个模块。因此,净化 和预审处理115、企业匹配处理120、个人身份匹配处理125、职位识别 处理127、以及合并处理130中的任一个可以被配置为独立的处理或分层 的从属处理。

而且,尽管程序模块420在本文中被描述为安装在存储器415中,因 此以软件来实现,但是程序模块420可以以硬件(例如电子电路)、固件、 软件、或其组合中的任一个来实现。

经由网络425,处理器410与来源105、企业实体数据存储库305、 个人身份数据存储库310、临时存储库145、以及管理数据存储库135中 的每个进行通信。例如,处理器410从来源105读取数据,从企业实体数 据存储库305和个人身份存储库310查询和接收数据,以及将简档132输 出到管理数据存储库135。尽管企业个人数据存储库305、个人身份数据 存储库310、临时存储库145、以及管理数据存储库135在图4中被表示 为离散的数据库,但是他们也可以以单个数据库系统来具体实现、或者分 布在多个数据库系统上。

当程序模块420被表示为已经载入到存储器415中时,程序模块420 可被配置在存储介质430上,以便随后载入到存储器415中。存储介质 430也是以计算机程序编码的计算机可读介质,并且可以是以有形的形式 在其上存储程序模块420的任意传统的存储介质。存储介质430的示例包 括软盘、光盘、磁带、只读存储器、光存储介质、通用串行总线(USB) 闪速驱动器、数字多功能盘、或者压缩驱动器。替选地,存储介质430 可以是位于远程存储系统并且经由网络425与计算机405耦合的随机存取 存储器、或者其他类型的电子存储器。

以下的表1提供了对记录106和记录107进行处理的方法100的示例。 对于该示例,假定方法100同时处理记录106和记录107。记录106和记 录107中的修订数据以粗体示出。尽管表1指示净化和预审处理115、企 业实体匹配处理120、个人身份匹配处理125、职位识别处理127、以及 合并处理130正执行特定的操作,但是实际上,处理是由处理器410执行 的。

表1记录的示例性处理

本文中描述的技术是示例性的,并且不应被解释为暗示对本公开的任 何特定的限制。可以理解,本领域的技术人员可以想到各种替选、组合以 及修改。例如,与本文中描述的处理相关联的步骤可以以任何顺序执行, 除非步骤本身另有指定或者规定。本公开旨在包含落入所附权利要求的范 围内的所有这样的替选、修改以及变型。

术语“包含”或“包括”应被解释为指定所说明的特征、整体、步骤 或组件的存在,但是不排除一个或更多个其他特征、整体、步骤或组件或 其组合的存在。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号