首页> 中国专利> 一种基于资源预调度故障极速恢复的operator装置

一种基于资源预调度故障极速恢复的operator装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于资源预调度故障极速恢复的operator装置，包括以下步骤：S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice)，针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展，针对其他调度系统需要通过第三方插件方式。本发明在故障发生时，对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间，极速恢复故障，对于长服务，IPOD预调度实现无缝进行故障恢复，服务可靠性得到极大提升。

著录项

公开/公告号CN112379991A

专利类型发明专利
公开/公告日2021-02-19

原文格式PDF
申请/专利权人天翼电子商务有限公司;
展开▼

申请/专利号CN202011391249.1
发明设计人徐华建;谢巍胜;张兴;张校;
展开▼

申请日2020-12-02
分类号G06F9/48(20060101);G06F11/07(20060101);G06F11/14(20060101);
代理机构
代理人
地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内
入库时间 2023-06-19 09:57:26

说明书

技术领域

本发明涉及云原生基础设施领域，特别涉及一种基于资源预调度故障极速恢复的operator装置。

背景技术

目前基于云原生技术资源调度有三种：单体调度(集中式结构，一个中央调度器，如：Borg/Kubernetes)，两层调度(树形结构，一个中央调度器，多个第二层调度器如：mesos/yarn)以及共享状态调度(分布式结构，多个对等调度器，如google的Omega)。

1，单体调度采用Master/Slave架构，由一台或多台服务器组成Master节点，系统内所有的数据都存储在Master节点中，系统内的所有业务均先由Master处理，多个slave节点与master连接，并将自己的资源信息汇报给master,由master统一资源和任务调度。master一旦检测到服务失败或与期望值不符，并下发指令重新调度和生成(如图1所示)；

2，两层调度：把资源和任务分开调度，一层只负责资源管理和分配，一层负责任务与资源匹配(如图2所示)；

3，共享状态调度：分布式调度，每个调度器支持共享集群状态，包括资源状态和任务状态，提升调度效率(如图3所示)。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于资源预调度故障极速恢复的operator装置。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种基于资源预调度故障极速恢复的operator装置，包括以下步骤：

S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice)，针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展，针对其他调度系统需要通过第三方插件方式；

S2.具体包括两种调度方式：

一种是批处理任务，通常需要几分钟/小时处理，这种对短时间的波动不是很敏感，为了保证数据一致性，避免重复计算，故障发生时，智能调度器IPOD进行故障预测，提前采用预锁定资源，一旦发生故障，跳过资源申请阶段，加速恢复；

另一种是长服务，长时间运行不停止的服务，对短时间波动很敏感，要求能够毫秒/秒级返回(如web服务)，故障发生前，IPOD进行故障预测，预先调度服务，进行无缝切换；

S3.IPOD服务可靠性预测算法：

1)Work节点画像特征；

2)task画像特征；

3)计算过程：

a)按照特征画像描述，分别计算节点画像特征和task画像特征，分别更新到失败队列，队列长度为10。更新方法：当队列未填满时直接填充队列，当队列已满按照k-mediods无监督聚类方法，进行合并(k＝10)，从新形成10条记录；

b)分别计算与10组的余弦相似度求均值，且失败队列至少须有1组；

c)余弦相似度>0.8和在线模型预测开启预调度，同时0.8作为初始参数,本任务修正参数为0；

d)超时(15分钟)任务未失败则取消预调度，并记录预调度次数，累计3次修正更新相识度阈值及本任务的初始矫正参数减去0.2进行修正；

e)同时对于未预测成功的的调度任务进行记录进行合并,以及任务参数修正，按加上0.2修正；

f)重复a-e步骤。

与现有技术相比，本发明的有益效果如下：

本发明在故障发生时，对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间，极速恢复故障，对于长服务，IPOD预调度实现无缝进行故障恢复，服务可靠性得到极大提升。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的实施例示意图之一；

图2是本发明的实施例示意图之一；

图3是本发明的实施例示意图之一；

图4是本发明的实施例示意图之一；

图5是本发明的实施例示意图之一；

图6是本发明的实施例示意图之一；

图7是本发明的实施例示意图之一；

图8是本发明的实施例示意图之一。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明如图1-8所示，本发明提供一种基于资源预调度故障极速恢复的operator装置，包括以下步骤：

S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice)，针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展，针对其他调度系统需要通过第三方插件方式(如图1所示)；

S2.具体包括两种调度方式(如图2所示)：

S3.IPOD服务可靠性预测算法：

1)Work节点画像特征：

2)task画像特征：

3)计算过程(如图3)：

b)分别计算与10组的余弦相似度求均值，且失败队列至少须有1组；

c)余弦相似度>0.8和在线模型预测开启预调度，同时0.8作为初始参数,本任务修正参数为0；

d)超时(15分钟)任务未失败则取消预调度，并记录预调度次数，累计3次修正更新相识度阈值及本任务的初始矫正参数减去0.2进行修正；

e)同时对于未预测成功的的调度任务进行记录进行合并,以及任务参数修正，按加上0.2修正；

f)重复a-e步骤(如图4)；

具体的，operator主流程(如图5)；

Operator与调度队列处理流程(如图6)。

根据图7，还有以下示例(如图8所示)：

1)创建IPOD项目；

2)通过添加自定义资源(CRD)定义新的资源API；

3)指定使用SDKAPI来和master/schedulewatch状态和资源；

4)定义IPOD协调逻辑；

5)使用operatorsdk构建并生成IPOD部署清单；

6)容器化后部署到集群。

本申请相对现有技术而言，所具有的优点和效果

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于资源预调度故障极速恢复的operator装置 [P] . 中国专利： CN112379991A . 2021-02-19
2. 一种考虑灾前预调度的配电网多故障抢修恢复方法及系统 [P] . 中国专利： CN111539566A . 2020-08-14
3. Methods and apparatuses for scheduling request resource prioritization for beam failure recovery [P] . US11240829B2 . 2022-02-01

机译：用于调度Request资源优先级的方法和装置，用于波束故障恢复
4. After a failure, where a method of managing the information on whether to recover, after a failure, a method for recovering, and, after a failure in a system with a large number of cache ways for recovering the current version of the data item [P] . 日本专利： JP4486689B2 . 2010-06-23

机译：故障后，一种管理有关是否恢复的信息的方法，一种故障后，一种用于恢复的方法，以及一种在具有大量缓存方式的系统中发生故障后用于恢复数据项的当前版本的方法。
5. BEAM FAILURE INDICATION AND RECOVERY METHOD AND DEVICE BASED ON DATA SCHEDULING [P] . 世界知识产权组织专利： WO2020220774A1 . 2020-11-05

机译：基于数据调度的光束故障指示与恢复方法及装置