Current Location:home > Detailed Browse

Article Detail

一种新型高效的算法级容错技术及实现

Submit Time: 2016-06-08
Author: 王睿 1 ; 姚二林 1 ; 陈明宇 1 ; 谭光明 1 ;
Institute: 1.中国科学院计算技术研究所;

Abstracts

随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点(checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops)规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL),并评估了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。
Download Comment Hits:2433 Downloads:1703
Journal:信息技术快报
Recommended references: 王睿,姚二林,陈明宇,谭光明.(2016).一种新型高效的算法级容错技术及实现.信息技术快报.[ChinaXiv:201606.00053] (Click&Copy)
Version History
[V1] 2016-06-08 16:48:35 chinaXiv:201606.00053V1 Download
Related Paper

Download

Current Browse

Change Subject Browse

Cross Subject Browse

  • - NO