首页> 美国卫生研究院文献>Heliyon >Big data in multi-block data analysis: An approach to parallelizing Partial Least Squares Mode B algorithm
【2h】

Big data in multi-block data analysis: An approach to parallelizing Partial Least Squares Mode B algorithm

机译:多块数据分析中的大数据:一种并行化偏最小二乘模式B算法的方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Partial Least Squares (PLS) Mode B is a multi-block method and a tightly coupled algorithm for estimating structural equation models (SEMs). Describing key aspects of parallel computing, we approach the parallelization of the PLS Mode B algorithm to operate on large distributed data. We show the scalability and performance of the algorithm at a very fine-grained level thanks to the versatility of pbdR, a R-project library for parallel computing. We vary several factors under different data distribution schemes in a supercomputing environment. Shorter elapsed times are obtained for the square-blocking factor 16×16 using a grid of processors as square as possible and non-square blocking factors 1000×4 and 10000×4 using an one-column grid of processors. Depending on the configuration, distributing data in a larger number of cores allows reaching speedups of up to 121 over the CPU implementation. Moreover, we show that SEMs can be estimated with big data sets using current state-of-the-art algorithms for multi-block data analysis.
机译:偏最小二乘(PLS)模式B是用于估计结构方程模型(SEM)的多块方法和紧密耦合算法。描述并行计算的关键方面,我们采用PLS模式B算法的并行化来处理大型分布式数据。由于pbdR(用于并行计算的R项目库)的多功能性,我们在非常细粒度的级别上显示了该算法的可伸缩性和性能。在超级计算环境中,在不同的数据分配方案下,我们会改变几个因素。平方阻塞因子 16 × 16 使用尽可能正方形的处理器网格和非正方形阻塞因子 1000 × 4 10000 × 4 。根据配置的不同,在大量内核中分配数据可以使CPU实施的速度最高提高121倍。此外,我们表明,使用当前用于多块数据分析的最新算法,可以使用大数据集估计SEM。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号