首页> 中国专利> Hadoop集群的异常监测方法、装置、设备及介质

Hadoop集群的异常监测方法、装置、设备及介质

摘要

本申请实施例提供了一种Hadoop集群的异常监测方法、装置、设备及介质,涉及人工智能技术领域,包括:调用第一监测模型基于目标任务的任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,调用第二监测模型基于目标任务的任务数据信息进行异常监测,得到第二异常监测结果,根据第一异常监测结果和第二异常监测结果生成告警信息。可以对Hadoop集群中的目标任务进行实时监测,可以及时发现Hadoop集群中目标任务的异常。本申请可以涉及区块链技术,如可将告警信息写入区块链中。本申请还可以涉及数字医疗技术领域,如可将Hadoop集群用于执行医疗领域的任务。

著录项

  • 公开/公告号CN114936127A

    专利类型发明专利

  • 公开/公告日2022-08-23

    原文格式PDF

  • 申请/专利权人 中国平安财产保险股份有限公司;

    申请/专利号CN202210501184.4

  • 发明设计人 刘竞迪;王海昕;

    申请日2022-05-10

  • 分类号G06F11/30(2006.01);G06F11/32(2006.01);G06N20/00(2019.01);G06K9/62(2022.01);

  • 代理机构广州三环专利商标代理有限公司 44202;

  • 代理人刘燕

  • 地址 518000 广东省深圳市福田区益田路5033号平安金融中心12、13、38、39、40层

  • 入库时间 2023-06-19 16:28:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-09

    实质审查的生效 IPC(主分类):G06F11/30 专利申请号:2022105011844 申请日:20220510

    实质审查的生效

说明书

技术领域

本申请涉及大数据技术领域,尤其涉及一种Hadoop集群的异常监测方法、装置、设备及介质。

背景技术

在大数据技术领域中,可以通过Hadoop集群对电商、金融、工业、通信、医疗等各个领域提供海量数据的存储、查询和分析功能。为了满足各种应用场景下的业务需求,Hadoop集群可以运行多个任务。在业务的执行过程中,需要对Hadoop集群的任务进行异常监测。目前的异常监测方法中,无法对Hadoop集群中的任务进行实时监测,难以及时发现Hadoop集群中的异常任务,从而难以及时执行运维操作。

发明内容

本申请实施例提供了一种Hadoop集群的异常监测方法、装置、设备及介质。通过任务进度信息和任务日志信息可以识别目标任务在任务执行过程中的状态异常,以及通过任务数据信息可以识别目标任务在任务执行过程中的数据异常,对Hadoop集群中的目标任务进行实时监测,可以及时发现Hadoop集群中目标任务的异常,以便及时执行运维操作,保障目标任务的正常运行。

第一方面,本申请实施例提供了一种Hadoop集群的异常监测方法,该方法包括:

响应于对Hadoop集群中目标任务进行监测的触发操作,获取目标任务的任务进度信息和任务日志信息;

调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,该第一异常监测结果用于指示目标任务在任务状态维度的异常情况;

获取目标任务的任务数据信息,调用第二监测模型基于任务数据信息进行异常监测,得到第二异常监测结果,该第二异常监测结果用于指示目标任务在任务数据维度的异常情况;

根据第一异常监测结果和第二异常监测结果生成告警信息。

第二方面,本申请实施例提供了一种Hadoop集群的异常监测装置,该装置包括:

获取单元,用于响应于对Hadoop集群中目标任务进行监测的触发操作,获取目标任务的任务进度信息和任务日志信息;

异常监测单元,用于调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,该第一异常监测结果用于指示目标任务在任务状态维度的异常情况;

异常监测单元还用于获取目标任务的任务数据信息,调用第二监测模型基于任务数据信息进行异常监测,得到第二异常监测结果,该第二异常监测结果用于指示目标任务在任务数据维度的异常情况;

生成单元,用于根据第一异常监测结果和第二异常监测结果生成告警信息。

第三方面,本申请实施例还提供了一种Hadoop集群的异常监测设备,包括输入接口、输出接口,该Hadoop集群的异常监测设备还包括:

处理器,适于实现一条或多条指令;以及,

计算机存储介质,该计算机存储介质存储有一条或多条指令,该一条或多条指令适于由处理器加载并执行第一方面所述的方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行第一方面所述的方法。

在本申请实施例中,可以调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,在任务执行过程中识别任务状态维度的状态异常,不同于在任务结束时识别任务状态维度的状态异常,可以及时识别任务状态维度的异常。并且,可以调用第二监测模型对任务数据信息进行异常监测,得到第二异常监测结果,在任务执行过程中识别任务数据维度的数据异常,不同于在任务结束时识别任务数据维度的数据异常,可以及时识别任务数据维度的异常。除此之外,本申请综合考虑了任务状态维度的状态异常以及任务数据维度的数据异常,可以同时对两个维度进行异常监测,可以全方位的进行异常监测,及时识别异常。本申请方案可以对Hadoop集群中的目标任务进行实时监测,及时发现Hadoop集群中目标任务的异常,以便及时执行运维操作,保障目标任务的正常运行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种Hadoop集群的异常监测系统的架构示意图;

图2是本申请实施例提供的一种Hadoop集群的异常监测方法的流程示意图;

图3是本申请实施例提供的另一种Hadoop集群的异常监测方法的流程示意图;

图4是本申请实施例提供的再一种Hadoop集群的异常监测方法的流程示意图;

图5是本申请实施例提供的一种Hadoop集群的异常监测装置的结构示意图;

图6是本申请实施例提供的一种Hadoop集群的异常监测设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在大数据技术领域中,可以通过Hadoop集群对电商、金融、工业、通信、医疗等各个领域提供海量数据的存储、查询和分析功能。例如,Hadoop集群可以用于存储医疗技术领域的医疗数据,如个人健康档案、处方、检查报告等医疗数据。又例如,Hadoop集群可以用于分析金融技术领域的金融数据,如对股市的K线图进行分析。为了满足各种应用场景下的业务需求,Hadoop集群中可以运行任务。任务可能会出现异常。因此,需要对Hadoop集群中的任务进行异常监测。然而,现有的异常监测方案中,仅可以通过任务的执行结果发现异常,无法在任务的执行过程中发现异常,无法对Hadoop集群中的任务进行实时监测,从而难以及时发现Hadoop集群中的任务异常,难以及时对异常任务执行运维操作。

基于此,本申请实施例提供了一种Hadoop集群的异常监测方法、装置、设备及介质,在该方法中,Hadoop集群的异常监测设备可以调用第一监测模型基于目标任务的任务进度信息和任务日志信息进行任务状态维度的异常监测,得到第一异常监测结果,以及调用第二监测模型基于目标任务的任务数据信息进行任务数据维度的异常监测,得到第二异常监测结果,并根据第一异常监测结果和第二异常监测结果生成告警信息。通过任务进度信息和任务日志信息可以识别目标任务在任务执行过程中的状态异常,以及通过任务数据信息可以识别目标任务在任务执行过程中的数据异常,可以对Hadoop集群中的目标任务进行实时监测,及时发现Hadoop集群中目标任务的异常,以便及时执行运维操作,保障目标任务的正常运行。

在一个实施例中,该Hadoop集群的异常监测方法可应用在如图1所示的Hadoop集群的异常监测系统中,如图1所示,该Hadoop集群的异常监测系统可至少包括:Hadoop集群11和Hadoop集群的异常监测设备12。其中,Hadoop集群11可以部署于服务器中,该服务器的数量可以是一个或多个,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network,CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器,等等。该Hadoop集群11中可以包括多个任务,如图1所示的任务1、任务2、任务3…任务N。其中,Hadoop集群的异常监测设备12可以用于为Hadoop集群11中的各个任务进行异常监测,Hadoop集群的异常监测设备12可以部署有Flink工具,Flink工具是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。该Flink工具以数据并行和流水线方式执行任意流数据程序,可以同时实时对Hadoop集群中的各个任务进行异常监测。其中,Hadoop集群的异常监测设备12可以为终端设备,该终端设备可以包括但不限于:智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机,等等;或者,该Hadoop集群的异常监测设备12也可以是服务器,本申请实施例不做限定。

下面详细阐述本申请实施例的Hadoop集群的异常监测方法。请参见图2,是本申请实施例提出的一种Hadoop集群的异常监测方法的流程示意图。如图2所示,该Hadoop集群的异常监测方法包括S201-S204:

S201:响应于对Hadoop集群中目标任务进行监测的触发操作,获取目标任务的任务进度信息和任务日志信息。

其中,Hadoop集群是一个由Apache基金会所开发的分布式系统基础架构。可以在不了解分布式底层细节的情况下,开发和运行分布式程序,Hadoop集群可以运行各种类型的任务,可以包括但不限于Hive任务,Mapreduce任务,Spark任务中的一种或多种。

其中,目标任务为Hadoop集群中的任意一个任务。当Hadoop集群的异常监测设备检测到对Hadoop集群中目标任务进行监测的触发操作时,Hadoop集群的异常监测设备开启对目标任务的异常监测。一个实施例中,该触发操作可以是Hadoop集群的异常监测设备检测到在用户界面存在对目标任务进行监测的用户操作。具体实现中,运维人员登录到Hadoop集群的异常监测系统后,Hadoop集群的异常监测设备显示用户界面,该用户界面中可包括各个任务的任务标识。每个任务的任务标识可以对应一个控件,可以表示为“开启监测”。当运维人员对任务标识对应的控件输入了用户操作时,异常监测设备可以确定检测到对Hadoop集群中目标任务进行监测的触发操作。

其中,任务进度信息是指用于指示任务运行进度的信息,该任务进度信息可以为任意形式,可以包括但不限于文字、数值、符号或者图像中的一种或多种。例如,该任务进度信息可以为文字,当任务进度信息为“任务运行一半”时,该任务进度信息用于指示任务的运行进度为50%。又例如,该任务进度信息可以为数值,当任务进度信息为“50%”时,该任务进度信息用于指示任务的运行进度为50%。再例如,该任务进度信息可以为圆形,当任务进度信息为“半圆”时,该任务进度信息用于指示任务的运行进度为50%。等等。

其中,任务日志信息是指任务运行过程中的日志信息,该任务日志信息可以用于指示任务运行过程中日志的更新情况和任务执行结果。例如,任务日志信息用于指示任务运行过程中日志停止更新;又例如,任务日志信息用于指示任务运行过程中日志停止更新的时长;再例如,任务日志信息用于指示任务异常退出。需要说明的是,任务日志信息可以包括各个任务运行进度的日志信息。例如,该任务日志信息包括任务运行进度为0%的日志信息;又例如,任务日志信息包括任务运行进度为50%的日志信息,等等。

一个实施例中,Hadoop集群的异常监测设备可以从任务应用程序接口(Application Programming Interface,Api)信息中获取目标任务的任务进度信息和任务日志信息。其中,任务Api信息是指通过Hadoop集群的原生Rest Api获取的接口信息。其中,原生Rest Api可以用于查询Hadoop集群、Hadoop集群的任务队列以及Hadoop集群中任务的详细信息。

S202:调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,该第一异常监测结果用于指示目标任务在任务状态维度的异常情况。

其中,任务状态维度是指任务运行过程中的状态维度,因此,任务状态维度的异常情况包括任务运行过程中状态异常或者状态无异常。进一步的,还可以对任务运行过程中的状态异常进行细分,例如,状态异常可以包括但不限于日志停止更新、任务进度僵死、任务失败中的一种或多种。

其中,第一监测模型中可以包括至少一个异常监测策略,每个异常监测策略对应任务状态维度的一种状态异常类别。例如,第一监测模型中包括日志停止更新对应的异常监测策略;又例如,第一监测模型中包括日志停止更新对应的异常监测策略以及任务进度僵死对应的异常监测策略;再例如,第一监测模型中包括日志停止更新对应的异常监测策略、任务进度僵死对应的异常监测策略以及任务失败对应的异常监测策略,等等。

一个实施例中,调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,包括:分别从任务进度信息和任务日志信息中查找每个异常监测策略对应的监测因子,并基于每个异常监测策略对异常监测策略对应的监测因子进行异常监测,得到任务状态维度下每种状态异常类别的监测结果,根据每种状态异常类别的监测结果确定第一监测结果。

例如,针对任务状态维度下任务失败这一状态异常类别,任务失败对应的异常监测策略为“任务异常退出”。具体实现中,可以将字段“exception”作为监测因子,当任务日志信息中存在监测因子“exception”时,确定任务异常退出,即确定任务失败这一种状态异常类别的监测结果为存在。否则,为不存在。

又例如,针对日志停止更新这一状态异常类别,日志停止更新对应的异常监测策略为“任务进度小于第一进度阈值且日志停止更新的时长大于第一时长”。具体实现中,可以将“任务进度以及日志停止更新的时长”作为监测因子,当任务进度信息指示任务进度小于第一进度阈值(如100%)且任务日志信息指示日志停止更新的时长大于第一时长时,确定日志停止更新这一种状态异常类别的监测结果为存在。否则,为不存在。

再例如,针对任务进度僵死这一状态异常类别,任务进度僵死对应的异常监测策略为“任务进度停止更新的时长大于第二时长”。具体实现中,可以将“任务进度停止更新的时长”作为监测因子,当任务进度信息指示任务进度停止更新的时长大于第二时长时,确定任务进度僵死这一状态异常类别的监测结果为存在。否则,为不存在。

可选的,根据每种状态异常类别的监测结果确定第一监测结果包括:当每种状态异常类别的监测结果指示至少一种状态异常类别存在时,确定第一监测结果为目标任务在任务状态维度下状态异常。例如,针对前述的三种状态异常类别,当任务失败对应的监测结果,日志停止更新对应的监测结果以及任务进度僵死对应的监测结果指示存在一种或多种状态异常类别时(例如,任务失败对应的监测结果为存在,日志停止更新对应的监测结果为不存在,任务进度僵死对应的监测结果为不存在;又例如,任务失败对应的监测结果为存在,日志停止更新对应的监测结果为存在,任务进度僵死对应的监测结果为不存在;等等),第一监测结果为目标任务在任务状态维度下状态异常。

S203:获取目标任务的任务数据信息,调用第二监测模型基于任务数据信息进行异常监测,得到第二异常监测结果,该第二异常监测结果用于指示目标任务在任务数据维度的异常情况。

其中,任务数据信息是指任务运行过程中的数据信息。例如,任务数据信息用于指示任务运行过程中的数据量;又例如,任务数据信息用于指示任务运行过程中的具体数据。需要说明,任务数据信息可以包括各个任务运行进度的数据信息。例如,该任务数据信息包括任务运行进度为0%的数据量和具体数据;又例如,任务数据信息包括任务运行进度为50%的数据量和具体数据,等等。

其中,任务数据维度是指任务运行过程中的数据维度,因此,任务数据维度的异常情况包括任务运行过程中数据异常或者数据无异常。进一步的,任务运行过程中的数据异常还可以细分为至少两种数据异常类别,如任务阶段数据错误和任务数据量异常两种数据异常类别。其中,任务阶段也可以称为任务运行进度。

其中,第二监测模型中可以包括至少一个异常监测策略,每个异常监测策略对应任务数据维度的一种数据异常类别。例如,第二监测模型中包括任务阶段数据错误对应的异常监测策略;又例如,第二监测模型中包括任务阶段数据错误对应的异常监测策略以及任务数据量异常对应的异常监测策略;等等。

一种实施例中,调用第二监测模型基于任务数据信息进行异常监测,得到第二异常监测结果,包括:分别从任务数据信息中查找每个异常监测策略对应的监测因子,并基于每个异常监测策略对异常监测策略对应的监测因子进行异常监测,得到任务数据维度下每种数据异常类别的监测结果,根据每种数据异常类别的监测结果确定第二监测结果。

例如,针对任务阶段数据错误这一数据异常类别,任务阶段数据错误对应的异常监测策略为“任务执行过程中的任务阶段数据与任务计划的任务阶段数据不相符”。具体实现中,可以将“任务执行过程中的任务阶段数据”作为监测因子,当任务数据信息指示任务执行过程中的任务阶段数据与任务计划的任务阶段数据不同时,确定任务阶段数据错误这一种数据异常类别的监测结果为存在。否则,为不存在。需要说明,任务执行过程中的任务阶段数据可以包括各个运行进度的任务阶段数据,任务计划的任务阶段数据可以为各个运行进度对应的计划数据。

又例如,针对任务数据量异常这一数据异常类别,任务数据量异常对应的异常监测策略为“任务数据量小于第一数据量”。具体实现中,可以将“任务数据量”作为监测因子,当任务数据信息指示任务数据量小于第一数据量时,确定任务数据量异常这一种数据异常类别的监测结果为存在。否则,为不存在。需要说明,任务数据量可以包括各个运行进度的任务数据量,那么第一数据量可以为各个运行进度对应的数据量阈值。

需要说明的是,S202和S203是并列的步骤。可以先执行S202,再执行S203,也可以先S203,再执行S202,还可以同时执行S202和S203,本申请对此不做限制。

可选的,根据每种数据异常类别的监测结果确定第二监测结果包括:当每种数据异常类别的监测结果指示至少一种数据异常类别存在时,确定第二监测结果为目标任务在任务数据维度下的数据异常。例如,针对前述的两种数据异常类别,当任务阶段数据错误对应的监测结果以及任务数据量异常对应的监测结果指示存在一种或多种数据异常类别时(例如,任务阶段数据错误对应的监测结果为存在,任务数据量异常对应的监测结果为不存在;又例如,任务阶段数据错误对应的监测结果为存在,任务数据量异常对应的监测结果为存在;等等),第二监测结果为目标任务在任务数据维度下的数据异常。

S204:根据所第一异常监测结果和第二异常监测结果生成告警信息。

具体的,当第一异常监测结果和/或第二异常监测结果为异常时,Hadoop集群的异常监测设备生成告警信息。即当第一异常监测结果指示目标任务在任务状态维度下的状态异常,且第二异常监测结果指示目标任务在任务数据维度下的数据无异常时,Hadoop集群的异常监测设备生成告警信息;当第一异常监测结果指示目标任务在任务状态维度下的状态无异常,且第二异常监测结果指示目标任务在任务数据维度下的数据异常时,Hadoop集群的异常监测设备生成告警信息;当第一异常监测结果指示目标任务在任务状态维度下的状态异常,且第二异常监测结果指示目标任务在任务数据维度下的数据异常时,Hadoop集群的异常监测设备生成告警信息。

进一步的,可选的,Hadoop集群的异常监测设备生成告警信息之后,Hadoop集群的异常监测设备可以将目标任务的告警信息发送至运维人员相关的终端设备,以便运维人员对目标任务执行运维操作。具体实现中,可通过社交软件,如微信,小程序,或者企业微信等发送给运维人员关联的终端设备。可选的,Hadoop集群的异常监测设备生成告警信息之后,Hadoop集群的异常监测设备还可以将目标任务的告警信息发送至智能运维设备,该智能运维设备可以实现智能运维(Artificial Intelligence for IT Operations,AIOps)。其中,智能运维是指将人的知识和运维经验与大数据、机器学习技术相结合,开发成一系列的智能策略,融入到运维系统中,并以开发的智能策略(或运维系统)去完成运维操作,智能运维可以节省人力资源成本,并且,智能运维方法可以不受运维人员的能力限制,可以快速准确的进行运维,有效提升运维的效率和准确性。

一个实施例中,告警信息可以不指示具体的异常,运维人员或者智能运维设备需要对目标任务进行排查后进行运维操作。另一个实施例中,该告警信息中可以指示具体的异常。Hadoop集群的异常监测设备需要基于第一异常监测结果和第二异常监测结果进行回溯,得到异常路径;获取预设信息模板,并将第一异常监测结果、第二异常监测结果以及异常路径填入预设信息模板,得到告警信息。当告警信息中指示具体的异常时,运维人员或者智能运维设备可以快速的定位异常,提升运维效率。

其中,基于第一异常监测结果和第二异常监测结果进行回溯,得到异常路径是指Hadoop集群的异常监测设备可以存储Hadoop集群的异常监测方法执行过程中的相关信息,当获得了第一异常监测结果和第二异常监测结果之后,可以反向推导,得到异常路径。例如,第一异常监测结果指示目标任务在任务状态维度下的状态异常,那么可以从Hadoop集群的异常监测方法执行过程中的相关信息中查找S202的相关信息,并确定具体的状态异常类别(如日志停止更新)。又例如,第二异常监测结果指示目标任务在任务数据维度下的数据异常,那么可以从Hadoop集群的异常监测方法执行过程中的相关信息中查找S203的相关信息,并确定具体的数据异常类别(如任务阶段数据错误和任务数据异常)。如示例所示,异常路径可能包括日志停止更新、任务阶段数据错误和任务数据异常。

其中,预设信息模板中可以包括第一异常监测结果、第二异常监测结果以及异常路径中的一项或多项。例如,当预设信息模板中包括异常路径时,可以将异常路径填入预设信息模板中,生成告警信息。又例如,当预设信息模板中包括第一异常监测结果和第二异常监测结果时,可以将第一异常监测结果和第二异常监测结果填入预设信息模板中,生成告警信息。

在一些实施例中,还可以存储目标任务对应的告警信息,便于后续数据分析。例如,可以将目标任务对应的告警信息上传至区块链网络。具体的,可以将目标任务对应的告警信息上传至区块链网络中的共识节点,该共识节点对目标任务对应的告警信息进行共识验证,若共识验证通过,则将目标任务对应的告警信息封装成区块,并传入区块链网络。

在本申请实施例中,可以调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,在任务执行过程中识别任务状态维度的状态异常,不同于在任务结束时识别任务状态维度的状态异常,可以及时识别任务状态维度的异常。并且,可以调用第二监测模型对任务数据信息进行异常监测,得到第二异常监测结果,在任务执行过程中识别任务数据维度的数据异常,不同于在任务结束时识别任务数据维度的数据异常,可以及时识别任务数据维度的异常。除此之外,本申请综合考虑了任务状态维度的状态异常以及任务数据维度的数据异常,可以同时对两个维度进行异常监测,可以全方位的进行异常监测,及时识别异常。本申请方案可以对Hadoop集群中的目标任务进行实时监测,及时发现Hadoop集群中目标任务的异常,以便及时执行运维操作,保障目标任务的正常运行。

参见上述图2所示方法实施例的相关描述可知,图2所示的Hadoop集群的异常监测方法可以通过调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果。在一些其他实施例中,第一监测模型还可以包括第一分类任务,本申请实施例还提出了另一种Hadoop集群的异常监测方法。如图3所示,图3示出了另一种Hadoop集群的异常监测方法的流程示意图,包括S301-S303:

S301:对任务进度信息和任务日志信息进行特征提取,得到第一特征向量。

其中,可以通过特征提取层对任务进度信息和任务日志信息进行特征提取得到第一特征向量。可选的,特征提取层可以包括编码层和处理层。其中,编码层用于根据编码方法分别对任务进度信息和任务日志信息进行编码处理得到任务进度信息对应的基础向量和任务日志信息对应的基础向量。其中,本申请对编码方法不做限定,该编码方法可以为独热编码(One-Hot编码)、嵌入编码、硬编码(Label Encoding)和目标变量编码(TargetEncoding)等等。需要说明的是,还可以通过编码模型分别对任务进度信息和任务日志信息进行编码处理得到任务进度信息对应的基础向量和任务日志信息对应的基础向量。如BERT预训练模型。

其中,处理层用于对任务进度信息对应的基础向量和任务日志信息对应的基础向量进行特征提取得到第一特征向量。可选的,处理层可以包括级联单元以及交叉单元。该级联单元用于将任务进度信息对应的基础向量以及任务日志信息对应的基础向量进行拼接得到拼接向量。该交叉单元用于基于交叉特征算法(例如FM算法)对拼接向量进行处理得到交叉向量,可以将该交叉向量作为第一特征向量。可选的,处理层可以包括多头注意力处理单元。可以对任务进度信息对应的基础向量和任务日志信息对应的基础向量进行多头注意力处理,得到第一特征向量。通过上述方式,第一特征向量可以更全面的表征任务进度信息以及任务日志信息。

S302:调用第一监测模型中的第一分类任务基于第一特征向量进行分类处理,得到目标任务属于任务状态维度的各个状态类别的概率。

一个实施例中,任务状态维度的各个状态类别可以包括状态异常和状态无异常。可以调用第一监测模型中的第一分类任务基于第一特征向量进行分类处理,得到目标任务属于任务状态维度的状态异常的概率和状态无异常的概率。

另一个实施例中,任务状态维度的各个状态类别可以包括日志停止更新、任务进度僵死、任务失败和状态无异常。可以调用第一监测模型中的第一分类任务基于第一特征向量进行分类处理,得到目标任务属于任务状态维度的日志停止更新的概率、任务进度僵死的概率、任务失败的概率和状态无异常的概率。

需要说明,第一监测模型可以是基于机器学习算法训练得到的。该机器学习算法可以包括但不限于决策树(Decision Tree,DT)算法、Rocchio算法、极端梯度提升(XtremeGradient Boosting,XGBooste)算法、朴素贝叶斯(Naive Bayes,NB)算法、线性判别分析(Linear Discriminant Analysis,LDA)、支持向量机(Support Vector Machine,SVM)算法、随机森林(Random Forest,RF)算法、以及逻辑回归(Logistic Regression,LR)算法中的一种或多种。

其中,机器学习算法是人工智能中的一个方向。其中,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,机器学习是一门多领域交叉的学科,其涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

一个实施例中,对初始模型进行训练得到第一监测模型包括:

s11:获取训练样本集,该训练样本集中包括多个训练样本,每个训练样本中包括样本任务进度信息和样本任务日志信息。

s12:对训练样本集中的各训练样本进行特征提取,确定训练样本集中每个训练样本对应的样本向量。

其中,对训练样本集中的各训练样本进行特征提取的具体实现方式,可以参见前文对任务进度信息以及任务日志信息进行特征提取得到第一特征向量的相关实施例,这里不做赘述。

s13:根据每个训练样本对应的样本向量对所述训练样本集进行分类,得到不同状态类别下的样本子集,其中,一个状态类别下的样本子集中的样本向量与一个状态类别相对应。

具体的,Hadoop集群的异常监测设备可以利用初始模型对训练样本集中每个训练样本对应的样本向量进行分类,得到不同状态类别的样本子集,并根据不同状态类别的样本子集更新初始模型的初始参数。经过多次更新,可以训练得到第一监测模型。

基于此,调用第一监测模型中的第一分类任务基于第一特征向量进行分类处理,得到目标任务属于任务状态维度的各个状态类别的概率包括:基于第一特征向量以及各个状态类别的样本子集,确定第一特征向量属于各个状态类别的样本子集的概率,即可以得到目标任务属于任务状态维度的各个状态类别的概率。

S303:根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果。

一个实施例中,状态异常类别的数量可以为一个,如状态异常类别为状态异常。或者状态异常类别为日志停止更新、任务进度僵死、任务失败中的一种。

根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:获取第一概率阈值,将目标任务属于任务状态维度的状态异常类别的概率与第一概率阈值作比较,若目标任务属于任务状态维度的状态异常类别的概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。

例如,状态异常类别为状态异常。在这种情况下,状态异常类别的数量为一个,当目标任务属于任务状态维度的状态异常的概率大于第一概率阈值时,第一异常监测结果为目标任务在任务状态维度下状态异常,否则为无异常。例如,状态异常类别包括日志停止更新。在这种情况下,状态异常类别的数量为一个,当目标任务属于任务状态维度的日志停止更新的概率大于第一概率阈值时,第一异常监测结果为目标任务在任务状态维度下状态异常,否则为无异常。

另一个实施例中,状态异常类别的数量可以为至少两个,如状态异常类别为日志停止更新、任务进度僵死、任务失败中的两种或三种。可选的,根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:获取目标任务属于任务状态维度的各个状态异常类别的概率,基于注意力机制对任务状态维度的各个状态异常类别的概率进行加权处理,得到目标任务在任务状态维度的第一异常概率;若第一异常概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。其中,注意力机制是指基于注意力权重将注意力集中在权重更大的特征上。

例如,任务状态维度的各个状态异常类别可以包括:日志停止更新、任务进度僵死和任务失败。在这种情况下,状态异常类别的数量为三个,日志停止更新对应的概率为k1、任务进度僵死对应的概率为k2、任务失败对应的概率为k3,日志停止更新对应的注意力权重为p1、任务进度僵死对应的注意力权重为p2、任务失败对应的注意力权重为p3,那么可以得到第一异常概率为:v=k1*p1+k2*p2+k3*p3。并将v与第一概率阈值作比较,若第一异常概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。否则,为无异常。

可选的,根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:获取任务状态维度的各个状态异常类别对应的参考概率阈值;分别将任务状态维度的每个状态异常类别的概率与任务状态维度的状态异常类别对应的参考概率阈值作比较;当任务状态维度的各个状态异常类别中存在概率大于参考概率阈值的状态异常类别时,确定第一异常监测结果为目标任务在任务状态维度下状态异常。承接上述的例子,日志停止更新对应的概率为k1、任务进度僵死对应的概率为k2、任务失败对应的概率为k3。可以分别获取日志停止更新对应的参考概率阈值P1,任务进度僵死对应的参考概率阈值P2以及任务失败对应的参考概率阈值P3。分别将k1与P1做比较、将k2与P2做比较以及将k3与P3做比较,若k1>P1、k2>P2和/或k3>P3,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。否则,为无异常。

在本申请实施例中,可以调用第一监测模型中的第一分类任务基于任务进度信息和任务日志信息进行分类处理,得到第一异常监测结果。结合机器学习算法构建第一监测模型进行分类处理,可以识别不同的状态异常类别,识别的准确率高。除此之外,由于本申请实施例结合了至少两个状态异常类别对应的概率确定第一异常监测结果,可以进一步提升第一异常监测结果的准确性。

参见上述图3所示方法实施例的相关描述可知,图3所示的Hadoop集群的异常监测方法可以通过调用第一监测模型中的第一分类任务基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果。在一些其他实施例中,第二监测模型与第一监测模型类似,第二监测模型还可以包括第二分类任务,本申请实施例还提出了再一种Hadoop集群的异常监测方法。如图4所示,图4示出了再一种Hadoop集群的异常监测方法的流程示意图,包括S401-S403:

S401:对任务数据信息进行特征提取,得到第二特征向量。

其中,对任务数据信息进行特征提取得到第二特征向量的具体实现方式可以参见前文S301的相关实施例,此处不做赘述。

S402:调用第二监测模型中的第二分类任务基于第二特征向量进行分类处理,得到目标任务属于任务数据维度的各个数据类别的概率。

一个实施例中,任务数据维度的各个数据类别可以包括数据异常和数据无异常。可以调用第二监测模型中的第二分类任务基于第二特征向量进行分类处理,得到目标任务属于任务数据维度的数据异常的概率和数据无异常的概率。

另一个实施例中,任务数据维度的各个数据类别可以包括任务阶段数据错误、任务数据量异常和数据无异常。可以调用第二监测模型中的第二分类任务基于第二特征向量进行分类处理,得到目标任务属于任务数据维度的任务阶段数据错误的概率、任务数据量异常的概率和数据无异常的概率。

需要说明,第二监测模型也可以是基于机器学习算法训练得到的。对第二监测模型的训练方式可以参见前文对第一监测模型的具体描述,这里不做赘述。

一个实施例中,调用第二监测模型中的第二分类任务基于第二特征向量进行分类处理,得到目标任务属于任务数据维度的各个数据类别的概率包括:基于第二特征向量以及各个数据类别的样本子集,确定第二特征向量属于各个数据类别的样本子集的概率,即可以得到目标任务属于任务数据维度的各个数据类别的概率。

S403:根据目标任务属于任务数据维度的数据异常类别的概率确定第二异常监测结果。

一个实施例中,数据异常类别的数量可以为一个,例如,数据异常类别为数据异常。又例如,数据异常类别为任务阶段数据错误和任务数据量异常中的任意一个。根据目标任务属于任务数据维度的数据异常类别的概率确定第二异常监测结果,包括:获取第二概率阈值,将目标任务属于任务数据维度的数据异常类别的概率与第二概率阈值作比较,若目标任务属于任务数据维度的数据异常类别的概率大于第二概率阈值,则确定第二异常监测结果为目标任务在任务数据维度下数据异常。

例如,数据异常类别为数据异常。在这种情况下,数据异常类别的数量为一个,当目标任务属于任务数据维度的数据异常的概率大于第二概率阈值时,第二异常监测结果为目标任务在任务数据维度下数据异常,否则为无异常。例如,数据异常类别包括任务阶段数据错误。在这种情况下,数据异常类别的数量为一个,当目标任务属于任务数据维度的任务阶段数据错误的概率大于第二概率阈值时,第二异常监测结果为目标任务在任务数据维度下数据异常,否则为无异常。

另一个实施例中,数据异常类别的数量可以为至少两个。如,数据异常类别为任务阶段数据错误和任务数据量异常。可选的,根据目标任务属于任务数据维度的数据异常类别的概率确定第二异常监测结果,包括:获取目标任务属于任务数据维度的各个数据异常类别的概率,基于注意力机制对任务数据维度的各个数据异常类别的概率进行加权处理,得到目标任务在任务数据维度的第二异常概率;若第二异常概率大于第二概率阈值,则确定第二异常监测结果为目标任务在任务数据维度下数据异常。

例如,任务数据维度的各个数据异常类别可以包括:任务阶段数据错误和任务数据量异常。任务阶段数据错误对应的概率为k4和任务数据量异常对应的概率为k5,任务阶段数据错误对应的注意力权重为p4和任务数据量异常对应的注意力权重为p5,那么可以得到第二异常概率为:v’=k4*p4+k5*p5。并将v’与第二概率阈值作比较,若第二异常概率大于第二概率阈值,则确定第二异常监测结果为目标任务在任务数据维度下数据异常。否则,为无异常。

可选的,根据目标任务属于任务数据维度的数据异常类别的概率确定第二异常监测结果,包括:获取任务数据维度的各个数据异常类别对应的参考概率阈值;分别将任务数据维度的每个数据异常类别的概率与任务数据维度的数据异常类别对应的参考概率阈值作比较;当任务数据维度的各个数据异常类别中存在概率大于参考概率阈值的数据异常类别时,确定第二异常监测结果为目标任务在任务数据维度下数据异常。承接上述的例子,任务阶段数据错误对应的概率为k4和任务数据量异常对应的概率为k5。可以分别获取任务阶段数据错误对应的参考概率阈值P4,任务数据量异常对应的参考概率阈值P5。分别将k4与P4做比较、将k5与P5做比较,若k4>P4和/或k5>P5,则确定第二异常监测结果为目标任务在任务数据维度下数据异常。否则,为无异常。

在本申请实施例中,可以调用第二监测模型中的第二分类任务基于任务数据信息进行分类处理,得到第二异常监测结果。结合机器学习算法构建第二监测模型进行分类处理,可以识别不同的数据异常类别,识别的准确率高。除此之外,由于本申请实施例结合了两个数据异常类别对应的概率确定第二异常监测结果,可以进一步提升第二异常监测结果的准确性。

请参见图5,图5为本申请实施例提供的一种Hadoop集群的异常监测装置的结构示意图,该Hadoop集群的异常监测装置可以为前述方法实施例所提及的Hadoop集群的异常监测设备,该Hadoop集群的异常监测装置可以包括获取单元501、异常监测单元502以及生成单元503。

获取单元501,用于响应于对Hadoop集群中目标任务进行监测的触发操作,获取目标任务的任务进度信息和任务日志信息;

异常监测单元502,用于调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,该第一异常监测结果用于指示目标任务在任务状态维度的异常情况;

异常监测单元502还用于获取目标任务的任务数据信息,调用第二监测模型基于任务数据信息进行异常监测,得到第二异常监测结果,该第二异常监测结果用于指示目标任务在任务数据维度的异常情况;

生成单元503,用于根据第一异常监测结果和第二异常监测结果生成告警信息。

在一个实施例中,第一监测模型包括第一分类任务,异常监测单元502用于调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,包括:

对任务进度信息和任务日志信息进行特征提取,得到第一特征向量;

调用第一监测模型中的第一分类任务基于第一特征向量进行分类处理,得到目标任务属于任务状态维度的各个状态类别的概率;

根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果。

再一个实施例中,状态异常类别的数量为一个,异常监测单元502用于根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:

获取第一概率阈值;

将目标任务属于任务状态维度的状态异常类别的概率与第一概率阈值作比较;

若目标任务属于任务状态维度的状态异常类别的概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。

再一个实施例中,状态异常类别的数量为至少两个,异常监测单元502用于根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:

获取目标任务属于任务状态维度的各个状态异常类别的概率;

基于注意力机制对任务状态维度的各个状态异常类别的概率进行加权处理,得到目标任务在任务状态维度的第一异常概率;

若第一异常概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。

再一个实施例中,状态异常类别的数量为至少两个,异常监测单元502用于根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:

获取任务状态维度的各个状态异常类别对应的参考概率阈值;

分别将任务状态维度的每个状态异常类别的概率与任务状态维度的状态异常类别对应的参考概率阈值作比较;

当任务状态维度的各个状态异常类别中存在概率大于参考概率阈值的状态异常类别时,确定第一异常监测结果为目标任务在任务状态维度下状态异常。

再一个实施例中,第一监测模型包括任务状态维度下的至少一个异常监测策略,异常监测单元502用于调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,包括:

分别从任务进度信息和任务日志信息中查找每个异常监测策略对应的监测因子;

基于每个异常监测策略对异常监测策略对应的监测因子进行异常监测,得到任务状态维度下每种状态异常类别的监测结果;

根据每种状态异常类别的监测结果确定第一监测结果。

再一个实施例中,生成单元503用于根据第一异常监测结果和第二异常监测结果生成告警信息,包括:

基于第一异常监测结果和第二异常监测结果进行回溯,得到异常路径;

获取预设信息模板,并将第一异常监测结果、第二异常监测结果以及异常路径填入预设信息模板,得到告警信息。

根据本申请的另一个实施例,图5所示的Hadoop集群的异常监测装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,Hadoop集群的异常监测装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。

根据本申请的另一个实施例,可以通过包括中央处理单元(Central ProcessingUnit,CPU),随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2、图3或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5所示的Hadoop集群的异常监测装置,以及来实现本申请实施例的Hadoop集群的异常监测方法。该计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述Hadoop集群的异常监测设备中,并在其中运行。

在本申请实施例中,可以调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,在任务执行过程中识别任务状态维度的状态异常,不同于在任务结束时识别任务状态维度的状态异常,可以及时识别任务状态维度的异常。并且,可以调用第二监测模型对任务数据信息进行异常监测,得到第二异常监测结果,在任务执行过程中识别任务数据维度的数据异常,不同于在任务结束时识别任务数据维度的数据异常,可以及时识别任务数据维度的异常。除此之外,本申请综合考虑了任务状态维度的状态异常以及任务数据维度的数据异常,可以同时对两个维度进行异常监测,可以全方位的进行异常监测,及时识别异常。本申请方案可以对Hadoop集群中的目标任务进行实时监测,及时发现Hadoop集群中目标任务的异常,以便及时执行运维操作,保障目标任务的正常运行。

请参阅图6,图6为本申请实施例提供的一种Hadoop集群的异常监测设备的结构示意图。该Hadoop集群的异常监测设备可以包括:一个或多个处理器601;一个或多个输入接口602,一个或多个输出接口603和计算机存储介质604。上述处理器601、输入接口602、输出接口603以及计算机存储介质604通过总线或其他方式连接。计算机存储介质604是Hadoop集群的异常监测设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质604既可以包括Hadoop集群的异常监测设备的内置存储介质,当然也可以包括Hadoop集群的异常监测设备支持的扩展存储介质。计算机存储介质604提供存储空间,该存储空间存储了Hadoop集群的异常监测设备的操作系统。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、该处理器可以称为中央处理单元(Central Processing Unit,CPU),是Hadoop集群的异常监测设备的核心以及控制中心,适于被实现一条或多条指令,具体加载并执行一条或多条指令从而实现相应的方法流程或功能。

在一个实施例中,可由处理器601加载并执行计算机存储介质604中存放的一条或多条指令,以实现执行如图2、图3或图4中所示的相应方法所涉及的各步骤,具体实现中,计算机存储介质604中的一条或多条指令由处理器601加载并执行以下步骤:

响应于对Hadoop集群中目标任务进行监测的触发操作,获取目标任务的任务进度信息和任务日志信息;

调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,该第一异常监测结果用于指示目标任务在任务状态维度的异常情况;

获取目标任务的任务数据信息,调用第二监测模型基于任务数据信息进行异常监测,得到第二异常监测结果,该第二异常监测结果用于指示目标任务在任务数据维度的异常情况;

根据第一异常监测结果和第二异常监测结果生成告警信息。

在一个实施例中,第一监测模型包括第一分类任务,处理器601用于调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,包括:

对任务进度信息和任务日志信息进行特征提取,得到第一特征向量;

调用第一监测模型中的第一分类任务基于第一特征向量进行分类处理,得到目标任务属于任务状态维度的各个状态类别的概率;

根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果。

再一个实施例中,状态异常类别的数量为一个,处理器601用于根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:

获取第一概率阈值;

将目标任务属于任务状态维度的状态异常类别的概率与第一概率阈值作比较;

若目标任务属于任务状态维度的状态异常类别的概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。

再一个实施例中,状态异常类别的数量为至少两个,处理器601用于根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:

获取目标任务属于任务状态维度的各个状态异常类别的概率;

基于注意力机制对任务状态维度的各个状态异常类别的概率进行加权处理,得到目标任务在任务状态维度的第一异常概率;

若第一异常概率大于第一概率阈值,则确定第一异常监测结果为目标任务在任务状态维度下状态异常。

再一个实施例中,状态异常类别的数量为至少两个,处理器601用于根据目标任务属于任务状态维度的状态异常类别的概率确定第一异常监测结果,包括:

获取任务状态维度的各个状态异常类别对应的参考概率阈值;

分别将任务状态维度的每个状态异常类别的概率与任务状态维度的状态异常类别对应的参考概率阈值作比较;

当任务状态维度的各个状态异常类别中存在概率大于参考概率阈值的状态异常类别时,确定第一异常监测结果为目标任务在任务状态维度下状态异常。

再一个实施例中,第一监测模型包括任务状态维度下的至少一个异常监测策略,处理器601用于调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,包括:

分别从任务进度信息和任务日志信息中查找每个异常监测策略对应的监测因子;

基于每个异常监测策略对异常监测策略对应的监测因子进行异常监测,得到任务状态维度下每种状态异常类别的监测结果;

根据每种状态异常类别的监测结果确定第一监测结果。

再一个实施例中,处理器601用于根据第一异常监测结果和第二异常监测结果生成告警信息,包括:

基于第一异常监测结果和第二异常监测结果进行回溯,得到异常路径;

获取预设信息模板,并将第一异常监测结果、第二异常监测结果以及异常路径填入预设信息模板,得到所述告警信息。

在本申请实施例中,可以调用第一监测模型基于任务进度信息和任务日志信息进行异常监测,得到第一异常监测结果,在任务执行过程中识别任务状态维度的状态异常,不同于在任务结束时识别任务状态维度的状态异常,可以及时识别任务状态维度的异常。并且,可以调用第二监测模型对任务数据信息进行异常监测,得到第二异常监测结果,在任务执行过程中识别任务数据维度的数据异常,不同于在任务结束时识别任务数据维度的数据异常,可以及时识别任务数据维度的异常。除此之外,本申请综合考虑了任务状态维度的状态异常以及任务数据维度的数据异常,可以同时对两个维度进行异常监测,可以全方位的进行异常监测,及时识别异常。本申请方案可以对Hadoop集群中的目标任务进行实时监测,及时发现Hadoop集群中目标任务的异常,以便及时执行运维操作,保障目标任务的正常运行。

本申请实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令。计算机程序指令被处理器执行时,可执行上述Hadoop集群的异常监测方法实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述Hadoop集群的异常监测方法实施例中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号