Current Location:home > Detailed Browse

Article Detail

基于MapReduce的并行频繁项集挖掘算法研究

Submit Time: 2020-09-28
Author: 刘卫明 1 ; 张弛 1 ; 毛伊敏 1 ;
Institute: 1.江西理工大学 信息工程学院;

Abstracts

针对并行MRPrePost (parallel PrePost algorithm based on MapReduce)频繁项集挖掘算法在大数据环境存在运行时间长,内存占用量大和节点负载不均衡的问题。提出一种基于DiffNodeset的并行频繁项集挖掘算法—PFIMD(parallel frequent itemsets mining using DiffNodeset)。该算法首先采用一种数据结构DiffNodeset,有效的避免了N-list基数过大的问题;此外提出一种双向比较策略“T-wcs”(2-way comparison strategy),以减少两个DiffNodeset在连接过程中的无效计算,极大的降低了算法时间复杂度;最后考虑到集群负载对并行算法效率的影响,进一步提出了一种基于动态分组的负载均衡策略“LBSBDG”(load balancing strategy based on dynamic grouping),该策略通过将频繁1项集F-list中的每项进行均匀分组,降低了集群中每个计算节点上PPC-Tree树的规模,进而减少了先序后序遍历PPC-Tree树所需的时间。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。
Download Comment From cooperative journals:《计算机应用研究》 Hits:3013 Downloads:133
Journal:计算机应用研究
Recommended references: 刘卫明,张弛,毛伊敏.(2020).基于MapReduce的并行频繁项集挖掘算法研究.计算机应用研究.[ChinaXiv:202009.00109] (Click&Copy)
Version History
[V1] 2020-09-28 14:16:15 chinaXiv:202009.00109V1 Download
Related Paper

Download

Current Browse

Cross Subject Browse

  • - NO