首页> 中国专利> 将事件标识为数据质量异常的根本原因的系统和方法

将事件标识为数据质量异常的根本原因的系统和方法

页面导航

摘要
著录项
说明书
相似文献

摘要

实施例检测和预测数据仓库中的数据差异问题。实施例导出关于在所述数据差异之前发生的事件的有意义洞察发现，并关联所述事件以理解所述数据差异的根本原因(或由于检测到所述数据差异而生成的警示的根本原因)。实施例采取或推荐可操作措施来预防被标识为所述根本原因的所述事件的进一步发生。根据各种实施例，当受监测数据是交易数据(例如交易量、交易金额、交易处理速度等)时，内部事件(例如数据作业失败、作业延迟、作业服务器维护)或外部事件(例如季节性假期事件、自然灾害)可引起所述交易数据的下落或突增，从而导致数据质量异常(即，数据差异)。

著录项

公开/公告号CN113168407A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人维萨国际服务协会;
展开▼

申请/专利号CN201880100130.9
发明设计人 S·米什拉;S·R·希萨里娅;M·米里根克;N·K·那伊康达;
展开▼

申请日2018-12-19
分类号G06F16/215(20060101);G06F16/904(20060101);
代理机构31100 上海专利商标事务所有限公司;
代理人徐倩;钱慰民
地址美国加利福尼亚州
入库时间 2023-06-19 11:55:48

说明书

背景技术

各种内部和外部因素可能会导致数据仓库处的数据质量检查失败。仅报告“通过”或“失败”状态的常规机制无助于组织理解数据质量异常的根本原因，并且不能提供解决基本问题的洞察发现。为了充分理解导致数据质量检查失败的基本问题，必须准确标识、分析和解决触发数据质量检查失败警报的事件。

本发明的实施例单独地以及共同地解决这些问题和其它问题。

发明内容

实施例提供一种用于标识受监测数据当中的数据差异的原因的方法。所述方法包括使用服务器计算机监测与结合处理计算机收集的数据相关联的参数。所述方法还包括检测所述数据当中的数据差异，并标识与所述数据差异相关联的第一事件。可标识与第一事件相关联的一组事件。所述一组事件当中的每个事件的得分可计算为分配给所述一组事件当中的每个事件的权重以及针对所述一组事件当中的每个事件确定的发生率得分的函数。所述一组事件当中的第二事件可被标识为数据差异的原因。所述第二事件可具有所述一组事件当中的最高得分。所述方法还可包括采取预防性措施，以鉴于数据差异的标识出的原因而预防所述数据差异。

在一些实施例中，基于选择的事件的所有子级事件和父级事件的运行时特性来确定选择的事件的发生率得分。选择的事件发生在选择的事件的所有子级事件之前，并且选择的所有父级事件发生在选择的事件之前。

根据一些实施例，所述方法还可包括在采取预防性措施之前，标识不同于第二事件的第三事件作为数据差异的实际原因。如果第三事件被包括在所述一组事件中，则所述方法可包括按预定量调整所述一组事件当中的每个事件的权重，其中调整包括增大第三事件的权重。如果第三事件未包括在所述一组事件中，则所述方法可包括将第三事件添加到所述一组事件中，并按预定量调整所述一组事件当中的每个事件的权重，其中调整包括增大第三事件的权重。在两种情况下，所述一组事件当中的每个事件的得分随后可进行重新计算。所述方法可包括调整和重新计算的两次或更多次迭代，其中第三事件的得分在每次迭代时增大，使得第三事件在所有迭代结束时在所述一组事件当中具有最高得分。

在一些实施例中，给定事件的权重与给定事件是数据差异的实际原因的这一历史一起被存储。与第一事件相关联的所述一组事件可包括所述第一事件的一个或多个父级事件，其中所述一个或多个父级事件发生在所述第一事件之前。所述第一事件和所述一组事件可包括处理计算机的内部事件和处理计算机的外部事件中的一个或多个事件。

在一些实施例中，所述方法还可包括接收与数据差异相关联的警示，以及响应于所述警示，标识与所述数据差异相关联的第一事件。

根据实施例，所述第一事件和所述一组事件可形成依赖关系图。所述方法还可包括将新事件添加到依赖关系图。所述新事件可与所述一组事件中的第三事件和第四事件相关联，并且所述第四事件可以是所述第三事件的后代(descendent)。然后，可在依赖关系图中将新事件与第三事件相关联，而不与第四事件相关联。

实施例还可包括计算机，所述计算机包括处理器和计算机可读介质，所述计算机可读介质包括在由所述处理器执行时使所述处理器执行上述方法的代码。

下文进一步详细描述这些和其它实施例。

附图说明

图1示出根据各种实施例的用于标识数据仓库处的数据质量异常的根本原因的示例性数据分析系统。

图2A示出根据各种实施例的包括事件节点、父级节点和子级节点的示例性依赖关系图。

图2B示出根据各种实施例的群集间依赖关系和群集内依赖关系。

图3示出根据各种实施例的分析所有内部和外部事件的发生率以标识根本原因事件的示例性根本原因分析模块。

图4示出根据各种实施例的与节点相关联的错误与分配给节点的权重之间的示例性相关性。

图5A示出根据各种实施例的使用阈值化互相关性和冗余移除技术将节点添加到现有依赖关系图。

图5B示出根据各种实施例的阈值化互相关性的图。

图6A-6B示出根据各种实施例的冗余移除的概念。

图7A-7B示出根据常规系统的关于作业的有限失败信息，其由以下实情组成：在完成时，失败作业运行得比非失败作业久。

图8示出根据各种实施例的用于将事件标识为数据差异的根本原因并鉴于标识出的事件而采取预防性措施的示例性过程流。

具体实施方式

以下对一些术语的论述在本发明的实施例中可以是有用的。

“事件”可指影响由服务器和/或在数据仓库处处理的数据的量和/或与所述数据相关联的处理速度的事件发生。所述事件可以是数据仓库内的事件，被称作内部事件，或是数据仓库外的事件，被称作外部事件。

“根本原因”可包括产生受关注结果或效果的条件或因果关系链的引发原因，所述受关注结果或效果例如在数据仓库处观测到的数据质量异常。根本原因分析(RCA)可指用于标识故障或问题(例如数据差异或数据质量异常)的根本原因的问题解决方法。如果从问题故障序列中移除某个事件就可预防最终不合需要的结果再发，则所述事件可能是根本原因。

“依赖关系图”可包括表示若干对象(例如，事件)彼此之间的依赖关系的图。示例性依赖关系图可包括定向图。定向图可以是有序对G＝(V，A)，其中V表示节点，A表示顶点。

“处理器”可包括任何合适的一个或多个数据计算装置。处理器可包括一起工作以实现期望的功能的一个或多个微处理器。处理器可包括CPU，所述CPU包括足以执行用于执行用户和/或系统生成的请求的程序部件的至少一个高速数据处理器。CPU可以是微处理器，例如AMD的Athlon、Duron和/或Opteron；IBM和/或Motorola的PowerPC；IBM和Sony的Cell处理器；Intel的Celeron、Itanium、Pentium、Xeon和/或XScale；和/或者类似的一个或多个处理器。

“存储器”可以是可存储电子数据的任何合适的一个或多个装置。合适的存储器可以包括非瞬态计算机可读介质，其存储可由处理器执行以实施所要方法的指令。存储器的实例可包括一个或多个存储器芯片、磁盘驱动器等。此类存储器可使用任何合适的电气、光学和/或磁性操作模式来操作。

“服务器计算机”可以包括功能强大的计算机或计算机群集。举例来说，服务器计算机可以是大型主机、小型计算机群集或充当单元的一组服务器。在一个实例中，服务器计算机可以是耦合到网络服务器的数据库服务器。服务器计算机可以包括一个或多个计算设备，并且可以使用各种计算结构、布置和编译中的任一种来服务来自一个或多个客户端计算机的请求。

如本文中所使用，术语“系统”可指一个或多个计算装置或计算装置组合，例如但不限于处理器、服务器、客户端装置、软件应用程序和/或其它类似部件。此外，如本文所使用，对“服务器”或“处理器”的参考可指先前所述的陈述为执行先前步骤或功能的服务器和/或处理器、不同的服务器和/或处理器，和/或服务器和/或处理器的组合。例如，如在说明书和权利要求书中所使用，陈述为执行第一步骤或功能的第一服务器和/或第一处理器可指陈述为执行第二步骤或功能的相同或不同服务器和/或处理器。

“机器学习模型”可以包括人工智能的应用，它向系统提供了从经验中自动地学习和改进而无需明确地被编程的能力。机器学习模型可以包括一组软件例程和参数，它们可以基于“特征向量”或其它输入数据预测过程的输出(例如，计算机网络攻击者的标识、计算机的认证、基于用户搜索查询的合适推荐等)。可以在训练过程中确定软件例程的结构(例如，子例程的数量和它们之间的关系)和/或参数的值，所述训练过程可以使用正被建模的过程的实际结果，例如，不同类的输入数据的标识。机器学习模型的示例包括支持向量机，其为通过建立不同分类的输入之间的间隙或边界来分类数据的模型。

实施例涉及用于检测和预测数据仓库中的数据差异问题的系统和方法。在一些实施例中，所述系统和方法可实施用于标识数据差异的根源的机器学习模型。实施例导出关于在所述数据差异之前发生的事件的有意义洞察发现，并关联所述事件以理解所述数据差异的根本原因(或由于检测到所述数据差异而生成的警示的根本原因)。实施例采取或推荐可操作措施来预防被标识为所述根本原因的所述事件的进一步发生。根据各种实施例，当受监测数据是交易数据(例如交易量、交易金额、交易处理速度等)时，内部事件(例如数据作业失败、作业延迟、作业服务器维护)或外部事件(例如季节性假期事件、自然灾害)可引起交易数据的下落或突增，从而导致数据差异(例如数据质量异常)。

实施例基于事件的性能测量值以及事件之间的依赖关系来提供关于事件是生成的警示的根本原因的概率度量。可基于事件发生或失败的概率来对事件进行排序。根据各种实施例，可基于标识出的多个事件而形成依赖关系图。依赖关系图中的每个节点可表示事件。给定事件可具有发生在所述给定事件之前的一个或多个父级事件。给定事件还可具有发生在所述给定事件之后的一个或多个子级事件。

根据各种实施例，可使用图1中所示的示例性数据分析系统100来执行用于标识在数据仓库处检测到的数据质量异常的根本原因的分析(例如机器学习模型)。系统100可包括耦合到并监测数据仓库150的监测计算机106。监测计算机106可在数据仓库150内部或外部(即，远程)。数据仓库150可从处理计算机104接收数据。根据各种实施例，数据可以是交易数据，并且处理计算机104可以是交易处理网络计算机104。数据可从传输计算机102发送到处理计算机104，并且在处理计算机104处继续。处理计算机104可在数据仓库150处存储和/或处理数据。

为了简化说明，图1中示出一定数目的部件。然而，应了解，对于每种部件，本发明的实施例可以包括不止一个。此外，本发明的一些实施例可以包括比图1中所示的所有部件少或多的部件。另外，图1中部件可以使用任何合适的通信协议经由任何合适的通信介质进行通信。

传输计算机102、处理计算机104、数据仓库150和监测计算机106可全都通过任何合适的通信信道或通信网络与彼此进行操作性通信。合适的通信网络可以是下列中的任一个和/或组合：直接互连、互联网、局域网(LAN)、城域网(MAN)、作为互联网节点的运行任务(OMNI)、安全定制连接、广域网(WAN)、无线网络(例如，采用协议例如但不限于无线应用协议(WAP)、I-模式等)等。

可以使用安全通信协议，例如但不限于：文件传输协议(FTP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、安全套接层(SSL)、ISO(例如，ISO 8583)等来发送计算机、网络与装置之间的消息。

根据其中在数据仓库处存储和/或处理的数据为交易数据的各种实施例，传输计算机102可与业务实体(例如商业银行)相关联，所述业务实体与特定资源提供商(例如商家)或其它实体具有业务关系并且可涉及交易的过程。传输计算机102可发放并管理资源提供商的账户，并且代表资源提供商与业务实体计算机交换资金。一些实体可执行传输计算机102和业务实体计算机这两者的功能。本发明的实施例涵盖此类单一实体传输/授权实体计算机。在一些实施例中，传输计算机102可被配置成向/从处理网络计算机104发送/接收数据(例如，在授权请求消息或另一消息中接收的数据)。

处理计算机104可被配置成处理用户(例如利用用户装置)与资源提供商之间的交易。在一些示例中，处理计算机104可被配置成在与收单方(例如，与资源提供商相关联的金融机构)相关联的传输计算机102和与业务实体(例如，与用户相关联的金融机构)所关联的业务实体计算机之间进行结算过程。

处理计算机104可包括用以支持和递送授权服务、异常文件服务以及清算和结算服务的数据处理子系统、网络和操作。例如，处理计算机104可包括耦合到网络接口(例如，通过外部通信接口)的服务器以及信息数据库。处理计算机104可表示交易处理网络。示例性交易处理网络可以包括VisaNet

根据各种实施例，监测计算机106可监测由处理计算机104和/或数据仓库150接收、处理、存储和/或发送的数据。监测计算机106可包括存储器108、处理器110、输入/输出元件112、网络接口113和计算机可读介质114。

计算机可读介质114可包括数个部件，例如监测模块116、警报模块118和根本原因分析模块120。预期更多或更少部件。还应了解，图1中所描绘的部件可组合以执行本文所描述的功能。计算机可读介质114还可包括可由处理器110执行以实施本文所论述的方法的代码。

处理计算机104可包括处理模块105的处理器107，所述处理模块包括代码，所述代码在被执行时使处理器107从任何合适的源到任何合适的目的地发送和/或接收授权请求消息和/或授权响应消息。举例来说，处理模块105可被配置成使处理器107从传输计算机102接收授权请求消息。在一些实施例中，处理模块105可被配置成使处理器107向业务实体计算机等任何合适的目的地发送授权请求消息。处理模块105可进一步被配置成从任何合适的源(例如业务实体计算机)接收授权响应消息，以及将授权响应消息发送到任何合适的目的地(例如传输计算机102)。

处理模块105还可包括在被执行时使处理器107至少利用授权请求消息中包括的交易数据来执行任何合适的操作的代码。在一些实施例中，特定授权请求消息中包括的交易数据(例如账户标识符、商家和/或交易的位置标识符等商家信息、与交易相关联的量，等)可被传达到处理模块105。处理模块105可被配置成利用此类数据执行任何合适的操作。

根据各种实施例，监测模块116可被配置成监测由处理计算机104和/或数据仓库150接收的数据。例如，监测模块116可监测传入数据的数据量、处理速度等。当监测模块116检测到关于数据质量的异常(例如数据处理速度低于预定阈值、传入数据低于或高于预定处理容量阈值某一预定量等)时，监测模块116可通知警报模块118。警报模块118可生成指示数据质量异常的警报。根本原因分析模块120随后可执行分析(例如，通过实施机器学习模型)来确定标识出的数据质量异常的根本原因，并且在适用的情况下提出补救或预防性措施以解决所述数据质量异常。

根据各种实施例，由根本原因分析执行的分析可包括标识由依赖关系图中的节点表示的事件E，所述依赖关系图示出与数据相关联的事件间关系。所述分析随后可继续以递归方式标识依赖关系图中的事件E的所有父级节点(即，祖先)，以及标识出标识的父级节点中的每个节点的父级事件P和子级事件C。例如，示例性作业(E)可具有父级作业(P)和子级作业(c)。

图2A示出包括事件节点202、父级节点P1 204到Pi 206以及子级节点C1 208到Ci210的示例性依赖关系图200。依赖关系图200的给定节点示出可影响系统(例如图1中的处理计算机104和/或数据仓库150)的事件。示例性事件(E)202可指已发生或失败的某事。根据各种实施例，事件可分类为两个类别：内部事件和外部事件。示例性内部事件可指数据仓库内例如作业失败(例如作业未能完成执行)、作业延迟(例如作业未在分配的时间内完成)、服务器维护、硬件失效等事件发生。示例性外部事件可指在数据仓库之外将影响处理的数据量的事件发生，例如假期、灾害、节日、体育赛事、其它娱乐事件等。

根据各种实施例，依赖关系图的多个节点可形成群集。群集可指类似类型的节点的集合。例如，作业群集可包括全都表示作业的节点，维护群集可包括全都表示维护事件的节点，特殊事件群集可包括全都表示外部事件的节点等。图2B示出群集间依赖关系220(即，来自不同群集的节点当中的依赖关系)和群集内依赖关系222(给定群集的节点当中的依赖关系)。箭头221和222表示节点对另一节点的依赖关系。例如，箭头221表示来自第一群集的节点224对来自第二群集的节点226的依赖关系，且表示来自第二群集的节点226对来自第一群集的节点224的依赖关系。箭头223表示来自第一群集的第一节点234对来自同一第一群集的第二节点236的依赖关系，且表示来自第一群集的第二节点236对来自同一第一群集的第一节点234的依赖关系。

当警报模块118生成指示数据质量异常的警报时，根本原因分析模块120确定所述数据质量异常的根本原因事件。所述根本原因事件可以是实际导致生成警示的事件。例如，当父级作业失败时，父级作业之后的一些作业也可能失败，并会导致生成警示。在此示例性情境中，父级作业可能是根本原因事件，因为所述父级作业触发了导致生成警示的所有其它作业失败。如图3中所示，根本原因分析模块120可在分析300期间分析所有事件(例如，作业失败304、服务器维护306、外部事件308等)的发生，以标识根本原因事件302。根据各种实施例，根本原因分析模块120可为每个节点分配权重。节点的权重可表示节点是根本原因事件的频率。

根据各种实施例，根本原因分析模块120可确定每个节点失败(例如，对于作业等内部事件)或发生(例如，对于维护或特殊事件等外部事件)并且成为数据质量异常的根本原因的概率。给定节点是数据质量异常的根本原因的概率可表示为：

P(根本原因∩发生)＝P(根本原因|发生)*P(发生)

根本原因分析模块120随后可基于所述节点的P(发生)计算每个节点的发生率得分。给定节点的发生率得分是节点本身、父级节点和子级节点的性能度量(例如运行时、延迟时间、直方图计数)的函数。给定节点的发生率得分可表示为：

发生率得分(s)＝f(自身度量，父级度量，子级度量)

根据各种实施例，维护发生/未发生、特殊事件是体育事件、灾难或节日的概率等可以是度量。

如上文所提供，根本原因分析模块120可将权重(w)分配给每个节点。权重可以是节点事件发生是数据质量异常(例如数据差异)的根本原因的概率的量度，表示为P(根本原因|发生)。根据各种实施例，给定节点的权重可初始地设置成1，并且所述权重可随着机器学习模型的训练而改变。

例如，初始权重1可分配给两个事件A和B。响应于第一数据差异警示，本文讨论的机器学习模型可将事件A标识为数据仓库处的数据差异的根本原因。与事件A相关联的权重可从1增大到例如2，因为事件A是数据差异的根本原因的概率已增大。在一些实施例中，权重的增大可基于预定公式。随后，响应于第二数据差异而生成第二警示，并且模型也可将事件A标识为第二数据差异的根本原因。与事件A相关联的权重可从2增大到例如3，因为事件A是数据差异的根本原因的概率进一步增大。可响应于在数据仓库处检测到第三数据差异而生成第三数据差异警示。第三数据差异的根本原因可被标识为事件B。与事件B相关联的权重可从1增大到例如2，因为事件B是数据差异的根本原因的概率已增大。根据各种实施例，分配给事件/节点的权重可与指示相关联事件成为数据差异根本原因的频率的历史数据一起存储。

发生率得分s计算如下：

或

其中：

运行时错误(r)＝(自身运行时-平均父级运行时)-E[(自身运行时-平均父级运行时)]

偏移错误(o)＝(自身偏移-最大父级偏移)-E[(自身偏移-最大父级偏移)]

开始时间错误(st)＝(自身开始时间-最大父级开始时间)-E[(自身开始时间-最大父级开始时间)]

其中E[x]表示x的异常值。如果数据是时间序列数据，则霍尔特-温特(Holt-winters)算法可用于预测x的异常值。

根据各种实施例，对于内部事件(例如，维护事件)，表示事件的节点的发生率得分在所述事件未发生(例如未发生维护)的情况下可设置成0。如果事件发生，则发生率得分可设置成所述事件的子级节点的发生率得分的总和，并且子级节点的发生率得分随后可复位到0。

对于外部事件(例如假期事件)，表示事件的节点的发生率得分可设置为影响得分*(子级节点的发生率得分的总和)。子级节点的发生率得分随后可复位为(1-影响得分)*(子级的当前发生率得分)。

如上文所提供，针对表示为依赖关系图中的点的给定监测事件E，根本原因分析模块120可标识事件E的父级事件P和子级事件C。根本原因分析模块120随后可计算作为每个节点的权重w和发生率得分s的函数的节点得分(即，α＝f(w,s))。根据各种实施例，节点得分可计算为：

实施例将具有最高α的节点预测为数据质量异常的根本原因。如果数据质量异常的实际根本原因稍后被标识为不同节点，则可能需要更新(即，训练)根本原因分析算法。根据各种实施例，可通过调整节点的权重w来训练算法(以例如在根本原因分析中标识实际根本原因)。例如，通过添加Δw以训练算法来调整权重。

如果当前节点谱系中(例如当前依赖关系图中)不存在实际根本原因节点，则可将实际根本原因节点添加到当前依赖关系图，并且可将初始权重1分配给新节点(即，实际根本原因节点)。根据各种实施例，可使用阈值化互相关性和冗余移除技术将实际根本原因节点添加到当前依赖关系图，如下文更详细地论述。

如果当前节点谱系中(例如当前依赖关系图中)存在实际根本原因节点，则可根据标识出的根本原因节点的权重是低于还是高于实际根本原因节点的权重来确定算法中的错误。即，对于根本原因节点i，如果

另一方面，如果αi<αj，则对于某个节点j，wi.si

根据各种实施例，训练可在整个训练集上(例如随机地)或在预定的批量大小上(例如，对于批量大小为一的每个实例)进行。当随机训练(针对整个批次)时，训练可使得训练会将总错误降到低于预设阈值。在一些实施例中，每一训练示例可将错误减少固定量。无限增大权重将使错误为零，但同样将导致权重偏置到训练示例，称为过度拟合。图4示出图400，此图示出错误与权重之间的相关性。图400示出当权重无限增大时，每训练实例的错误接近零。然而，尽管训练集上的错误继续逐渐减小，但测试集上的错误将因过度拟合而朝向端部增大。这与网络开始查找并微调数据中的特性有关，而不是与一般属性有关。

根据各种实施例，可通过使Δwi与

其中γ是学习速率超参数(即，γ的值在学习过程开始之前设置)。学习速率可指示系统更新参数有多快。

根据说明性示例，对于各自具有权重(w)＝1的三个节点(n1、n2、n3)，实施例可生成以下得分：s1＝0.5、s2＝0.3、s3＝0.2。基于得分当中的关系(即，s1>s2>s3)，表示为n1的事件可被预测为数据质量异常的根本原因事件。此后，如果数据质量异常的实际根本原因事件揭示为表示为n2的节点，则可如下更新权重：w1＝1，w2＝2，w3＝1。现在，值变成w1.s1＝0.5、w2.s2＝0.6、w3.s3＝0.2，因此w2.s2>w1.s1>w3.s3，并且机器学习模型可正确地预测节点n2为数据质量异常的根本原因事件。

两个变量之间的相关性可指某种形式的变量相互关系。相关变量可含有关于彼此的信息。两个变量之间的相关性越强，一个变量就会输送越多关于另一变量的信息。相关性可以是正相关性，其中当一个变量增大时，另一变量也会增大，而当一个变量减小时，另一变量也会减小。所述相关性可以是中性相关性，也称为无相关性或零相关性，其中两个变量之间没有关系，使得一个变量的值变化而另一变量保持不变。相关性可以是负相关性，这是一种其中当一个变量增大时另一变量减小、而当一个变量减小时另一变量增大的相关性。

两个变量之间的线性相关水平可使用皮尔逊相关系数(Pearson CorrelationCoefficient)表示，皮尔逊相关系数是两个向量之间通过其标准偏差的乘积归一化的协方差。变量x和y的皮尔逊相关系数ρ可表达为：

其中σx和σy是变量x和y的标准偏差。

当考虑连续函数之间的相关性时，互相关性可指两个序列(例如f和g)的相似性，其为一个序列相对于另一序列的位移的函数。对于离散函数f和g，所述互相关性可表达为：

因此，对于一些实施例，互相关性的归一化值可用在计算中。

依赖关系图中的每个节点(或事件)可由历史数据组成，所述历史数据可表示为时间序列。要添加到依赖关系图的新节点也可由时间序列表示。当新节点添加到现有依赖关系图时，可确定时间序列之间的互相关性。接着，可遵循TCRR方法以将新节点添加到依赖关系图。滞后限值和阈值可由用户使用穷举来确定。

在图5A中示出的示例性实施例中，与假期事件相关的外部节点502可添加到依赖关系图504。假期事件可在约2天后引起交易处理网络上的交易量升高，并且可产生警报。如果假期在假期日506(例如第5天)建模为突增，则当新假期事件节点502的时间序列与现有依赖关系图504的节点互相关时，受此节点影响的节点一般将具有一些异常行为并且将在近期(例如接下来的2-3天)时间点中展现互相关性的突增。利用合适的滞后限值508(例如，在此示例性实施例中为5天)和阈值510，可标识相关依赖性节点，并且可通过冗余移除方法从依赖关系图504移除冗余节点。

根据本文所描述的示例性TCRR方法，滞后限值可用于消除可在两个节点之间较长时间之后发生的潜在高度互相关性。此类互相关性不具有实际意义，因此不应予以考虑。滞后限值可帮助消除无意义的互相关性。在图5A中示出的示例性实施例中，1年限值可足以观测年度模式，或7天限值可足以观测每周模式。

根据各种实施例，如果相关性值在划分的滞后限值内越过阈值，则可认为两个变量相互依赖，如图5B中所示。这可被称作阈值化互相关性。

图6A-6B示出示例性依赖关系图中的冗余移除。例如，对于给定依赖关系图600，实施例可使用阈值化互相关性将第一节点J1 604、第二节点J2 606和第三节点J3 608标识为依赖于表示为节点602的第一事件。如图6A中所示，第一节点J1 604、第二节点J2 606和第三节点J3 608可具有内部谱系，其中第二节点J2 606依赖于第一节点J1 604。另外，第三节点J3 608依赖于第二节点J2 606。使用冗余移除，实施例可移除第一事件节点602与第二节点J2 606之间的连接以及第一事件节点602与第三节点J3 608之间的连接。图6B中示出所得依赖关系图650。

根据各种实施例，阈值化互相关性和冗余移除技术可用于将新节点添加到现有依赖关系图。例如，如上文所解释，如果给定依赖关系图中不存在实际根本原因节点，则可使用阈值化互相关性和冗余移除技术将实际根本原因节点添加到依赖关系图。如上文所解释，TCRR技术的示例性实施方案可包括：确定所有节点和新节点的时间序列；执行新节点和现有节点的时间序列的互相关性；标识所有节点以使得在滞后限值内，已越过阈值；对于这样一组选择的节点，移除其父级也在所述组中的节点；以及将新节点添加到依赖关系图，其中上述组中其余的节点作为其子级节点。

在一些实施例中，在给定依赖关系图中，每个作业节点可表示在系统中运行的作业。作业收集者可收集与来自不同源(例如数据库)的作业相关的所有信息。所述信息可包括与作业开始时间戳、作业结束时间戳、作业运行时等相关的信息。根据各种实施例，基于作业的运行时、作业的延迟时间和作业运行的频率，可测量作业的性能。

如图7A中所示，示例性作业可由时间序列700表示，其中每个新作业运行为序列700中的突增704。作业的开始时间704可说明作业在特定持续时间期间插入系统中的次数(即，作业的频率)。作业的偏移702可说明因作业起始时间从参考时间706延迟所致的异常。如图7B中所示，在常规系统中，关于作业的失败信息由以下实情组成：在完成时，失败作业运行得比非失败作业久，因为运行时中包括了重启时间。实施例预测和/或标识引起作业失败的根本原因事件。

图8示出用于将事件标识为数据差异的根本原因并且鉴于标识出的事件而采取预防性措施的示例性过程流。在S802处，服务器计算机监测与结合处理计算机收集的数据相关联的参数。在S804处，服务器计算机检测数据当中的数据差异。在S806处，服务器计算机标识与数据差异相关联的第一事件。在S808处，服务器计算机确定与第一事件相关联的一组事件。在S810处，服务器计算机计算所述一组事件当中的每个事件的得分，作为分配给所述一组事件当中的每个事件的权重以及针对所述一组事件当中的每个事件确定的发生率得分的函数。在S812处，服务器计算机将所述一组事件当中的第二事件标识为数据差异的原因，其中所述第二事件具有所述一组事件当中最高的得分。服务器计算机随后可采取预防性措施，以鉴于在S826处标识出的数据差异原因而预防所述数据差异。在一些实施例中，在S812之后，服务器计算机可在S814处将第三事件标识为数据差异的实际原因。在S816处，服务器计算机可确定所述一组事件中是否包括第三事件。如果对S816的回答为是(即，所述一组事件中包括第三事件)，则服务器计算机按预定量调整所述一组事件当中的每个事件的权重，其中调整包括在S820处增大第三事件的权重。如果对S816的回答为否(即，所述一组事件中不包括第三事件)，则服务器计算机在S818处将第三事件添加到所述一组事件并移动到S820。服务器计算机接着在S822处重新计算所述一组事件当中的每个事件的得分，使得所述第三事件具有所述一组事件当中最高的得分。在S824处，服务器计算机可确定所述第三事件是否具有最高得分。如果对S824的回答为是(即，第三事件具有最高得分)，则过程移动到S826，其中服务器计算机采取预防性措施以鉴于数据差异的标识出的原因而预防数据差异。如果对S824的回答为否(即，第三事件不具有最高得分)，则过程返回到步骤S820以调整权重并返回到步骤S822以重新计算得分。

在示例性实施例中，与上传交易数据到数据库相关的作业可能已经失败。所述失败可引起监测每日交易量的数据质量指示器因数据量的下落而生成警示。本文所论述的实施例可标识依赖关系图中可能已引起警示的所有事件(节点)。然后，实施例可针对每个节点生成得分和三个错误(即，运行时错误、偏移错误、开始时间错误)，以努力标识是否是由于过量的运行时/失败、延迟的偏移和/或作业频率问题而生成警示。经过训练的机器学习模型可将与交易数据相关的作业标识为根本原因节点。如果模型未能将实际作业标识为根本原因作业，则上文所论述的反馈机制可调整权重以相应地训练模型。

在示例性实施例中，可标识例如由数据质量指示器监测的交易量的突增。所述突增可归因于特殊外部事件(例如感恩节)。指示器可生成需要调查的警示。本文讨论的实施例可通过从依赖关系图中选择可能的节点并对针对这些节点生成的得分进行排序来将特殊外部事件预测为警示的根本原因。实施例可首先计算作业失败群集中所有节点的得分，因为这些得分可形成计算其它群集中的节点得分的基础。实施例随后可计算其它群集中的作业的得分。实施例可将所有群集当中排序最高的节点标识为警示的根本原因。经过训练的机器学习模型可将特殊外部事件标识为根本原因节点。如果模型未能将特殊外部事件标识为根本原因作业，则上文所论述的反馈机制可调整权重以相应地训练模型。

实施例具有许多优点。例如，实施例可将数据仓库的内部事件以及外部事件标识为数据仓库处观测到的数据质量异常的根本原因。根据各种实施例，实际根本原因可以是数据依赖关系图中已经存在的节点。在其它实施例中，实际根本原因可能不是数据依赖关系图的一部分，并且可使用本文所描述的阈值化互相关性和冗余移除技术进行添加

本申请中描述的任何软件部件或功能可实施为使用例如Java、C、C++、C#、Objective-C、Swift等任何合适的计算机语言或例如Perl或Python等脚本语言使用例如常规的或面向对象的技术的由处理器执行的软件代码。软件代码可作为一系列指令或命令存储在计算机可读介质上以供存储和/或传递，合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、例如硬盘驱动器或软盘的磁性介质，或例如光盘(CD)或数字通用盘(DVD)的光学介质、闪存存储器等。计算机可读介质可以是此类存储或传输装置的任何组合。

此类程序还可以使用适应于经由包括互联网的符合多种协议的有线、光学和/或无线网络进行传输的载波信号来编码和发送。因此，根据本发明的实施例的计算机可读介质可以使用以此类程序编码的数据信号来创建。以程序代码编码的计算机可读介质可与兼容装置一起封装或与其它装置分开提供(例如，经由互联网下载)。任何此类计算机可读介质可以驻存在单个计算机产品(例如，硬盘驱动器，CD或整个计算机系统)之上或其内部，并且可以存在于系统或网络内的不同计算机产品上或其内部。计算机系统可以包括用于将本文中所提及的任何结果提供给用户的监视器、打印机或其它合适的显示器。

以上描述是说明性的且不是限制性的。在所属领域的技术人员阅读了本公开后，本发明的许多变化将变得显而易见。因此，本发明的范围不应参考以上描述来确定，而是应参考未决的权利要求以及其完整范围或等效物来确定。

在不偏离本发明的范围的情况下，任何实施例的一个或多个特征可以与任何其它实施例的一个或多个特征组合。

除非明确指示有相反的意思，否则“一(a)”、“一个(an)”或“所述”的叙述旨在指示“一个或多个”。

上文所提及的所有专利、专利申请、公开和描述都出于所有目的以其全文引用的方式并入本文中。并非承认它们是现有技术。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 将事件标识为数据质量异常的根本原因的系统和方法 [P] . 中国专利： CN113168407A . 2021-07-23
2. 用于执行高维传感器数据中的异常事件的自动根本原因分析的方法和系统 [P] . 中国专利： CN112115306A . 2020-12-22
3. SYSTEM AND METHOD OF IDENTIFYING EVENT AS ROOT CAUSE OF DATA QUALITY ANOMALY [P] . EP3899748A1 . 2021-10-27

机译：识别事件的系统和方法作为数据质量异常的根本原因
4. SYSTEM AND METHOD OF IDENTIFYING EVENT AS ROOT CAUSE OF DATA QUALITY ANOMALY [P] . EP3899748A4 . 2021-12-29

机译：识别事件的系统和方法作为数据质量异常的根本原因
5. SYSTEM AND METHOD OF IDENTIFYING EVENT AS ROOT CAUSE OF DATA QUALITY ANOMALY [P] . 世界知识产权组织专利： WO2020131052A1 . 2020-06-25

机译：确定作为数据质量异常根源的事件的系统和方法