首页> 外文学位 >Data-intensive computing for bioinformatics using virtualization technologies and HPC infrastructures.
【24h】

Data-intensive computing for bioinformatics using virtualization technologies and HPC infrastructures.

机译:使用虚拟化技术和HPC基础架构的生物信息学数据密集型计算。

获取原文
获取原文并翻译 | 示例

摘要

The bioinformatics applications often involve many computational components and massive data sets, which are very difficult to be deployed on a single computing machine. In this thesis, we designed a data-intensive computing platform for bioinformatics applications using virtualization technologies and high performance computing (HPC) infrastructures with the concept of multi-tier architecture, which can seamlessly integrate the web user interface (presentation tier), scientific workflow (logic tier) and computing infrastructure (data/computing tier). We demonstrated our platform on two bioinformatics projects. First, we redesigned and deployed the cotton marker database (CMD) (http://www.cottonmarker.org), a centralized web portal in the cotton research community, using the Xen-based virtualization solution. To achieve high-performance and scalability for CMD web tools, we hosted the large amounts of protein databases and computational intensive applications of CMD on the Palmetto HPC of Clemson University. Biologists can easily utilize both bioinformatics applications and HPC resources through the CMD website without a background in computer science. Second, we developed a web tools---Glycan Array QSAR Tool (http://bci.clemson.edu/tools/glycan_array), to analyze glycan array data. The user interface of this tool was developed at the top of Drupal Content Management Systems (CMS) and the computational part was implemented using MATLAB Compiler Runtime (MCR) module. Our new bioinformatics computing platform enables the rapid deployment of data-intensive bioinformatics applications on HPC and virtualization environment with a user-friendly web interface and bridges the gap between biological scientists and cyberinfrastructure.
机译:生物信息学应用程序通常涉及许多计算组件和海量数据集,很难将其部署在单个计算机上。在本文中,我们使用虚拟化技术和高性能计算(HPC)基础架构设计了用于生物信息学应用的数据密集型计算平台,该架构具有多层架构的概念,可以无缝集成Web用户界面(表示层),科学工作流程(逻辑层)和计算基础架构(数据/计算层)。我们在两个生物信息学项目中展示了我们的平台。首先,我们使用基于Xen的虚拟化解决方案重新设计并部署了棉花标记数据库(CMD)(http://www.cottonmarker.org),这是棉花研究社区中的中央门户网站。为了实现CMD Web工具的高性能和可扩展性,我们在克莱姆森大学的Palmetto HPC上托管了大量蛋白质数据库和CMD的计算密集型应用程序。在没有计算机科学背景的情况下,生物学家可以通过CMD网站轻松利用生物信息学应用程序和HPC资源。其次,我们开发了一个Web工具-聚糖阵列QSAR工具(http://bci.clemson.edu/tools/glycan_array),用于分析聚糖阵列数据。该工具的用户界面是在Drupal内容管理系统(CMS)的顶部开发的,计算部分是使用MATLAB Compiler Runtime(MCR)模块实现的。我们新的生物信息学计算平台可通过用户友好的Web界面在HPC和虚拟化环境上快速部署数据密集型生物信息学应用程序,并弥合生物科学家与网络基础设施之间的鸿沟。

著录项

  • 作者

    Xuan, Pengfei.;

  • 作者单位

    Clemson University.;

  • 授予单位 Clemson University.;
  • 学科 Biology Bioinformatics.;Computer Science.;Information Science.
  • 学位 M.S.
  • 年度 2011
  • 页码 130 p.
  • 总页数 130
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号