分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 广播电视监管工作中的相关数据已经累积到相当多的程度,传统的存储和数据处理技术体系的建设维护越来越不能适应数据量增长速度和业务上的需求,在保证原有系统平稳运行的前提下,非常需要利用新的技术体系对数据进行迁移、扩容和备份,以Hadoop为代表的开源大数据处理和存储软件框架给我们提供了一套可行的方案。本文依据数据资产管理系统的实际建设经验,对其中的关键技术和建设过程进行分析和介绍。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-09-12 合作期刊: 《计算机应用研究》
摘要: 为解决传统单机模式串行加密方法存在的不足,设计了一种基于Hadoop平台的混沌加密算法的运行方案。该方案运用MapReduce并行框架和混沌加密伪随机数以及初值敏感的原理,提出一种针对MapReduce框架和混沌加密优化的并行混沌加密方案,即用明文长度作为初值,分别对Chen、Lorenz、Rossler三种超混沌系统进行初始迭代,同时提出对明文数据按1 Mb进行分块的设计理念,通过根据偏移量,判断每个分块生成长度为1Mb的Chen、Lorenz、Rossler三个密钥序列的方法,达到提升数据密度安全性、减少运行内存占有量等目的。该设计框架中,Chen序列用于明文置乱操作,Lorenz序列用于异或的扩散操作,Rossler序列用于取模的辅助扩散操作。实验证明,针对MapReduce并行框架特性和混沌系统特性的优化算法,在能够有效减小内存占用量、又可以提高加密速度的同时,明文关联的加密操作达到了有效防御选择明文攻击的目的。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 现有的推荐算法大多是应用显示反馈信息来推荐。针对显示反馈信息作出的推荐在准确率和数据稀疏性处理上还存在缺陷的问题,引入了隐式反馈信息,设计和实现了一种引入隐式反馈的多维度推荐算法(iMCF)。该算法涵盖用户、项目和隐式反馈三个维度的信息。对于前两个维度的信息,通过云模型相似度建模;而隐式反馈维度的信息,主要是结合概率矩阵分解模型进行处理。之后再把这三个维度得出的预测评分根据权值进行平衡,得出最终预测评分并作出推荐。实验数据表明,该算法在召回率和准确率上的表现相对于其他算法有了较为明显的提升,且适合大数据环境。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上完成差分隐私保护下的初始聚类中心选取和并行聚类过程。理论分析证明整个算法满足ε-差分隐私保护,实验结果说明该算法在隐私保护的有效性,聚类结果的可用性以及执行效率等方面取得了很好的平衡,相比于同类算法有较优的表现。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对传统侵蚀地形因子提取方法在处理海量数据时出现的瓶颈,提出一种基于MapReduce模型的侵蚀地形因子计算方法。该方法将并行计算模型MapReduce与改进的通用土壤流失方程(revised universal soil loss equation,RUSLE)相结合。利用最大坡降原理和B+树建立流向关系查找树来表现地形数据的相关性;利用MapReduce模型进行流路查找与栅格汇聚来替代传统正反向遍历算法,解决侵蚀地形因子计算过程中汇水和累计坡长的计算效率问题。实验结果表明,对于基于海量数字高程模型数据的地形因子提取,该方法能够在计算精度允许的范围内有效提高效率。
分类: 地球科学 >> 空间物理学 提交时间: 2017-03-10
摘要: 针对卫星有效载荷数传数据传输速度快、实时处理难等特点,提出一种面向有效载荷高速数据流的实时数据处理方法。该方法借鉴MapReduce的多线程并行模式,采用hash算法与归并排序算法相结合的方式,提高数据处理吞吐率,实现实时处理;采用基于XTCE(XML Telemetry & Command Exchange)数据模型的参数解析算法,实现通用性。实验表明该方法能够满足有效载荷对数据处理的实时性和正确性的要求。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-28 合作期刊: 《计算机应用研究》
摘要: 为了优化大规模集群运行MapReduce作业时的通信效率和减少Shuffle数据传输量。首先采用存储局部性换取通信局部性的策略,建立一个分布式协同数据映射模型;其次通过随机抽样和机器学习方法来提取作业数据的局部性特征,实现map计算数据的有效部署;最后,利用软件定义网络的全局灵活控制能力,优选通信链路好的节点并将计算任务映射到该类节点中。实验表明对于中间数据混洗密集类作业有较好的优化效果,通信延迟降低了4.3%~5.8%。该方案能减少Shuffle流量和数据迁移延迟,并且适合各种调度策略和网络拓扑结构。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘效率。实验结果显示,所提出的算法能快速完成扫描和更新数据,具有较好的可扩展性,适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 由于任意的MapReduce作业都需要独立的进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切分成多个MapReduce Job协作完成,以ItemBased算法为例,对多MapReduce作业协同下的大数据挖掘算法存在的资源效率问题进行了分析,提出基于DistributedCache的ItemBased算法,利用DistributedCache将多个MapReduce Job之间的I/O数据进行缓存处理,打破作业之间独立性的缺陷,减少Map与Reduce任务之间的等待时延。实验结果表明,DistributedCache能够提高MapReduce作业的数据读取速度,利用DistributedCache重构后的算法极大地减少了Map与Reduce任务之间的等待时延,资源效率提高3倍以上。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】利用改进的粒子群算法进行云计算产业联盟知识搜索, 提高搜索的准确率和效率。【方法】首先利用MapReduce 中Map 函数对粒子分组实现并行化处理, 再运用Reduce 函数对粒子搜索的结果进行归约, 缩短搜索的时间。在粒子搜索过程中, 根据小组内最优位置的平均值进行小组内粒子的信息交互, 避免算法早熟收敛于一个局部最优值。【结果】通过三组仿真实验对改进的粒子群算法和标准粒子群算法进行对比分析, 结果表明改进的粒子群算法在效率与准确率方面均具有明显的优越性。【局限】样本数据存在干扰数据, 有待改进。【结论】该方法能提高云计算产业联盟知识搜索的准确性, 并提升搜索效率。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2020-09-28 合作期刊: 《计算机应用研究》
摘要: 针对并行MRPrePost (parallel PrePost algorithm based on MapReduce)频繁项集挖掘算法在大数据环境存在运行时间长,内存占用量大和节点负载不均衡的问题。提出一种基于DiffNodeset的并行频繁项集挖掘算法—PFIMD(parallel frequent itemsets mining using DiffNodeset)。该算法首先采用一种数据结构DiffNodeset,有效的避免了N-list基数过大的问题;此外提出一种双向比较策略“T-wcs”(2-way comparison strategy),以减少两个DiffNodeset在连接过程中的无效计算,极大的降低了算法时间复杂度;最后考虑到集群负载对并行算法效率的影响,进一步提出了一种基于动态分组的负载均衡策略“LBSBDG”(load balancing strategy based on dynamic grouping),该策略通过将频繁1项集F-list中的每项进行均匀分组,降低了集群中每个计算节点上PPC-Tree树的规模,进而减少了先序后序遍历PPC-Tree树所需的时间。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后,在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了本文方法的准确性。