Current Location:home > Browse

1. chinaXiv:201703.00223 [pdf]

一种新型高效的算法级容错技术及实现

王睿; 姚二林; 陈明宇; 谭光明
Subjects: Computer Science >> Integration Theory of Computer Science

随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点 (checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops) 规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非 停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的 数据,而用冗余节点替换失效节点,使计算能继续进行。终的正确结果可以通过一个线性变换求出。为 了论证方案的有效性,我们结合 MPICH 的容错特性实现了容错的 High Performance Linpack (HPL),并评估 了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。

submitted time 2017-03-10 Hits4604Downloads1392 Comment 0

2. chinaXiv:201606.00053 [pdf]

一种新型高效的算法级容错技术及实现

王睿; 姚二林; 陈明宇; 谭光明
Subjects: Computer Science >> Computer Software

随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点(checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops)规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL),并评估了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。

submitted time 2016-06-08 Hits2432Downloads1702 Comment 0

  [1 Pages/ 2 Totals]