首页> 中国专利> 一种基于资源预调度故障极速恢复的operator装置

一种基于资源预调度故障极速恢复的operator装置

摘要

本发明公开了一种基于资源预调度故障极速恢复的operator装置,包括以下步骤:S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式。本发明在故障发生时,对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间,极速恢复故障,对于长服务,IPOD预调度实现无缝进行故障恢复,服务可靠性得到极大提升。

著录项

  • 公开/公告号CN112379991A

    专利类型发明专利

  • 公开/公告日2021-02-19

    原文格式PDF

  • 申请/专利权人 天翼电子商务有限公司;

    申请/专利号CN202011391249.1

  • 发明设计人 徐华建;谢巍胜;张兴;张校;

    申请日2020-12-02

  • 分类号G06F9/48(20060101);G06F11/07(20060101);G06F11/14(20060101);

  • 代理机构

  • 代理人

  • 地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内

  • 入库时间 2023-06-19 09:57:26

说明书

技术领域

本发明涉及云原生基础设施领域,特别涉及一种基于资源预调度故障极速恢复的operator装置。

背景技术

目前基于云原生技术资源调度有三种:单体调度(集中式结构,一个中央调度器,如:Borg/Kubernetes),两层调度(树形结构,一个中央调度器,多个第二层调度器如:mesos/yarn)以及共享状态调度(分布式结构,多个对等调度器,如google的Omega)。

1,单体调度采用Master/Slave架构,由一台或多台服务器组成Master节点,系统内所有的数据都存储在Master节点中,系统内的所有业务均先由Master处理,多个slave节点与master连接,并将自己的资源信息汇报给master,由master统一资源和任务调度。master一旦检测到服务失败或与期望值不符,并下发指令重新调度和生成(如图1所示);

2,两层调度:把资源和任务分开调度,一层只负责资源管理和分配,一层负责任务与资源匹配(如图2所示);

3,共享状态调度:分布式调度,每个调度器支持共享集群状态,包括资源状态和任务状态,提升调度效率(如图3所示)。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于资源预调度故障极速恢复的operator装置。

为了解决上述技术问题,本发明提供了如下的技术方案:

本发明一种基于资源预调度故障极速恢复的operator装置,包括以下步骤:

S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式;

S2.具体包括两种调度方式:

一种是批处理任务,通常需要几分钟/小时处理,这种对短时间的波动不是很敏感,为了保证数据一致性,避免重复计算,故障发生时,智能调度器IPOD进行故障预测,提前采用预锁定资源,一旦发生故障,跳过资源申请阶段,加速恢复;

另一种是长服务,长时间运行不停止的服务,对短时间波动很敏感,要求能够毫秒/秒级返回(如web服务),故障发生前,IPOD进行故障预测,预先调度服务,进行无缝切换;

S3.IPOD服务可靠性预测算法:

1)Work节点画像特征;

2)task画像特征;

3)计算过程:

a)按照特征画像描述,分别计算节点画像特征和task画像特征,分别更新到失败队列,队列长度为10。更新方法:当队列未填满时直接填充队列,当队列已满按照k-mediods无监督聚类方法,进行合并(k=10),从新形成10条记录;

b)分别计算与10组的余弦相似度求均值,且失败队列至少须有1组;

c)余弦相似度>0.8和在线模型预测开启预调度,同时0.8作为初始参数,本任务修正参数为0;

d)超时(15分钟)任务未失败则取消预调度,并记录预调度次数,累计3次修正更新相识度阈值及本任务的初始矫正参数减去0.2进行修正;

e)同时对于未预测成功的的调度任务进行记录进行合并,以及任务参数修正,按加上0.2修正;

f)重复a-e步骤。

与现有技术相比,本发明的有益效果如下:

本发明在故障发生时,对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间,极速恢复故障,对于长服务,IPOD预调度实现无缝进行故障恢复,服务可靠性得到极大提升。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明的实施例示意图之一;

图2是本发明的实施例示意图之一;

图3是本发明的实施例示意图之一;

图4是本发明的实施例示意图之一;

图5是本发明的实施例示意图之一;

图6是本发明的实施例示意图之一;

图7是本发明的实施例示意图之一;

图8是本发明的实施例示意图之一。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例1

本发明如图1-8所示,本发明提供一种基于资源预调度故障极速恢复的operator装置,包括以下步骤:

S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式(如图1所示);

S2.具体包括两种调度方式(如图2所示):

一种是批处理任务,通常需要几分钟/小时处理,这种对短时间的波动不是很敏感,为了保证数据一致性,避免重复计算,故障发生时,智能调度器IPOD进行故障预测,提前采用预锁定资源,一旦发生故障,跳过资源申请阶段,加速恢复;

另一种是长服务,长时间运行不停止的服务,对短时间波动很敏感,要求能够毫秒/秒级返回(如web服务),故障发生前,IPOD进行故障预测,预先调度服务,进行无缝切换;

S3.IPOD服务可靠性预测算法:

1)Work节点画像特征:

2)task画像特征:

3)计算过程(如图3):

a)按照特征画像描述,分别计算节点画像特征和task画像特征,分别更新到失败队列,队列长度为10。更新方法:当队列未填满时直接填充队列,当队列已满按照k-mediods无监督聚类方法,进行合并(k=10),从新形成10条记录;

b)分别计算与10组的余弦相似度求均值,且失败队列至少须有1组;

c)余弦相似度>0.8和在线模型预测开启预调度,同时0.8作为初始参数,本任务修正参数为0;

d)超时(15分钟)任务未失败则取消预调度,并记录预调度次数,累计3次修正更新相识度阈值及本任务的初始矫正参数减去0.2进行修正;

e)同时对于未预测成功的的调度任务进行记录进行合并,以及任务参数修正,按加上0.2修正;

f)重复a-e步骤(如图4);

具体的,operator主流程(如图5);

Operator与调度队列处理流程(如图6)。

根据图7,还有以下示例(如图8所示):

1)创建IPOD项目;

2)通过添加自定义资源(CRD)定义新的资源API;

3)指定使用SDKAPI来和master/schedulewatch状态和资源;

4)定义IPOD协调逻辑;

5)使用operatorsdk构建并生成IPOD部署清单;

6)容器化后部署到集群。

本申请相对现有技术而言,所具有的优点和效果

本发明在故障发生时,对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间,极速恢复故障,对于长服务,IPOD预调度实现无缝进行故障恢复,服务可靠性得到极大提升。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号