ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 哈尔滨金融学院计算机系

1. ChinaXiv:201808.00091
下载全文

Spark框架结合分布式KNN分类器的网络大数据分类处理方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-08-13 合作期刊: 《计算机应用研究》

曹瑜王楠徐志超

摘要：针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制，提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗，首先，结合Apache Spark框架的并行机制将训练集划分成若干分区；然后在Map阶段找到待预测样本每个分区的K近邻，进一步在reduce阶段根据map阶段的结果确定最终的K近邻；最后并行地对近邻的标签集合进行聚合，通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验，提出方法取得了较低的汉明损失，证明了其有效性。

点击量 1792 下载量 1081 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心