ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2018
2

按主题分类

计算机科学的集成理论
2

按作者

张文杰
2
蒋烈辉
2

按机构

当前资源共 2条

隐藏摘要

点击量

时间

下载量

您选择的条件: 数字工程与先进计算国家重点实验室

1. ChinaXiv:201811.00186
下载全文

一种基于MapReduce并行化计算的大数据聚类算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-11-29 合作期刊: 《计算机应用研究》

张文杰蒋烈辉

摘要：面对大数据规模庞大且计算复杂等问题，基于MapReduce框架采用两阶段渐进式的聚类思想，提出了改进的K-means并行化计算的大数据聚类方法。第一阶段，该算法通过Canopy算法初始化划分聚类中心，从而迅速获取粗精度的聚类中心点；第二阶段，基于MapReduce框架提出了并行化计算方案，使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并，从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证，实验结果表明，所提算法能够有效地提升并行计算效率，减少计算时间，并提升大数据的聚类精度。

点击量 1447 下载量 754 评论
2. ChinaXiv:201811.00187
下载全文

一种基于遗传算法优化的大数据特征选择方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-11-29 合作期刊: 《计算机应用研究》

张文杰蒋烈辉

摘要：特征选择是大数据集预处理的重要方法，能够使后续的数据分析与处理更加高效准确。提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估，根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重，基于特征权重引导遗传算法的搜索，以提升算法的搜索能力和获取特征的准确性；然后结合特征权重计算特征的适应度，以适应度作为评价指标，启动遗传算法获取最优的特征子集，并最终实现高效准确的大数据特征选择。通过实验分析发现，该算法能够有效减小分类特征数，并提升特征分类准确率。

点击量 1543 下载量 849 评论

一种基于MapReduce并行化计算的大数据聚类算法

一种基于遗传算法优化的大数据特征选择方法