Current Location:home > Browse

1. chinaXiv:201703.00208 [pdf]

CPU/ATI GPU混合体系结构上DGEMM的性能研究

李佳佳; 李兴建; 谭光明
Subjects: Computer Science >> Computer Hardware Technology

本文报道了我们在 CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真 实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低 数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse) 和数据存储优化(Data Placement)。在 AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后 DGEMM 性能达到 758 GFLOP/s,对应效率为 82%,是 ACML-GPU v1.1 性能的两倍。在 Intel Westmere EP 和 ATI HD5970 组成的异构系统上,性能达到 844 GFLOP/s,效率为 80%。我们进一步考察了多个 CPU 和多个 GPU 上 DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异 构系统上程序性能降低的重要影响因素。

submitted time 2017-03-10 Hits2332Downloads1697 Comment 0

2. chinaXiv:201606.00051 [pdf]

CPU/ATI GPU 混合体系结构上DGEMM 的性能研究

李佳佳; 李兴建; 谭光明
Subjects: Computer Science >> Computer Software

本文报道了我们在CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse)和数据存储优化(Data Placement)。在AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后DGEMM性能达到758 GFLOP/s,对应效率为82%,是ACML-GPU v1.1 性能的两倍。在Intel Westmere EP 和ATIHD5970 组成的异构系统上,性能达到844 GFLOP/s,效率为80%。我们进一步考察了多个CPU 和多个GPU上DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异构系统上程序性能降低的重要影响因素。

submitted time 2016-06-08 Hits2466Downloads1749 Comment 0

  [1 Pages/ 2 Totals]