摘要:Torque衍生于PBS,是一个高效的开源计算资源管理软件,最早由NASA的Ames研究中心开发,用于满足异构网络的计算需求.随着分布式计算技术的发展,Torque在高性能计算集群中得到广泛应用.但是作为开源软件,目前缺乏一个相对完善的监控系统,监视torque运行的实时状态,记录其历史运行情况,并实现部分控制功能,保证Torque运行稳定性、可靠性并提高其易管理性.为此,本文从以下五个方面设计实现了针对Torque的自适应轻量级监控系统:1)实现一个轻量级日志循环过滤功能,实时获取Torque的作业运行状态;2)为管理员提供可自定义的监控命令统一接口,用于查询Torque管理的的各类资源信息;3)设计了监控信息存储策略,使监控信息持久化;4)为用户提供了可自定义的报警接口,能够将Torque时运行出现的异常错误以邮件或短信的方式实时提交给用户;5)利用HTML5技术,实现了Torque管理的作业状态可视化,实时化,并提供管理员Torque运行状态展示内容的可定制功能.