网格计算系统中短作业调度模块的设计与实现
THE DESIGN AND IMPLEMENTATION OF SCHEDULING MODULE OF SHORT JOBS IN GRID
摘 要
Abstract
目 录
第1章 绪论
1.1 课题的背景及研究目的
1.1.1 课题来源及背景
1.1.2 研究目的
1.2 与本课题相关的国内外研究综述
1.2.1 网格技术及其发展现状
1.2.2 分布式计算技术国外研究状况
1.2.3 分布式计算技术国内研究状况
1.3 本论文的主要工作内容
1.4 本文组织结构
第2章 短作业调度模块的需求分析
2.1 短作业调度模块背景产品分析
2.1.1 集群结构
2.1.2 系统LSF中的进程调度
2.2 短作业调度需求的提出
2.2.1 短作业调度模块需求的提出
2.2.2 短作业调度的设计思路
2.2.3 短作业调度模块的框架
2.3 功能需求
2.3.1 和系统之间整合
2.3.2 调度策略
2.3.3 容错处理和日志记录
2.4 非功能需求
2.4.1 高效性
2.4.2 可靠性
2.4.3 其他非功能约束
2.5 技术难点
2.5.1 短作业调度优化的问题
2.5.2 并行作业控制的问题
2.5.3 容错处理的问题
2.5.4 资源收集分配和控制的问题
2.6 本章小结
第3章 短作业调度模块的设计
3.1 模块功能及结构设计
3.1.1 模块总体结构设计
3.1.2 模块结构设计
3.1.3 子模块划分设计
3.1.4 交互设计
3.2 短作业调度主模块的设计
3.2.1 初始化会话环境
3.2.2 进程产生与递交作业
3.2.3 获取作业运行结果
3.2.4 夊原会话
3.2.5 进程间的信号通信
3.2.6 检查点机制恢夊任务
3.3 短作业调度子模块的设计
3.3.1 会话指挥器子模块的设计
3.3.2 会话调度器子模块的设计
3.3.3 动态库子模块的设计
3.3.4 会话实体管理器子模块的设计
3.3.5 会话朊务子模块的设计
3.3.6 会话子实体子模块的设计
3.4 错误消息日志的设计
3.5 数据结构设计
3.5.1 作业信息描述的结构体设计
3.5.2 作业执行回执描述的结构体设计
3.5.3 任务文件的文件格式设计
3.6 本章小结
第4章 短作业调度模块的实现
4.1 短作业调度主模块的实现
4.1.1 初始化会话环境
4.1.2 递交作业的实现
4.1.3 获取作业运行结果的实现
4.1.4 夊原会话和信号处理的实现
4.1.5 检查点恢夊的实现
4.2 短作业调度子模块的实现
4.2.1 会话指挥器和会话调度器的实现
4.2.2 会话实体管理子模块的实现
4.2.3 会话朊务子模块的实现
4.2.4 会话子实体子模块的实现
4.3 模块间交互的实现
4.3.1 建立会话时进程的启动关系
4.3.2 作业派发时进程间的交互关系
4.3.3 任务结束时进程退出的流程
4.3.4 主模块异常退出时进程退出的流程
4.3.5 代理节点启动时进程间交互的流程
4.4 错误消息及日志记录的实现
4.4.1 错误消息记录的实现
4.4.2 日志记录的实现
4.5 技术难点在实现中的解决
4.5.1 短作业调度优化问题
4.5.2 并行作业互斥问题
4.5.3 容错处理问题
4.5.4 资源分配控制问题
4.6 本章小结
第5章 短作业调度模块的测试及分析
5.1 功能性测试及分析
5.1.1 会话建立的测试
5.1.2 任务解析运行测试
5.1.3 进程守护测试
5.1.4 检查点测试
5.1.5 功能测试结果分析
5.2 性能测试及分析
5.2.1 性能测试
5.2.2 性能测试结果分析
5.3 本章小结
结 论
参考文献
哈尔滨工业大学硕士学位论文原创性声明
哈尔滨工业大学硕士学位论文使用授权书
致 谢
个人简历