分类: 信息科学与系统科学 >> 信息技术系统性应用 提交时间: 2022-10-26 合作期刊: 《桂林电子科技大学学报》
摘要: 新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中 快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询 词日益复杂,语言词汇形态变异的特点导致检索词变得多样化,而现有词干提取算法普遍存在词干提取不足、词干提取准 确率不高等问题;另一方面,在海量数据中检索到满足用户查询要求的文档结果是一项非常耗时的任务,而现有将文档划 分到多个服务器处理查询延迟的方法常常会出现尾延迟问题。针对以上问题,在文本预处理阶段,设计了词形规范化算法 APS,对规则函数进行重编码,优化了特征词提取;在相关排序阶段,设计了基于一次一得分查询处理策略的随时排序算法 SAR,在给定时间预算处理完指定数量倒排段后能够提前终止查询过程,大大减少了查询评估时间。在多个真实数据集上 进行了实验,验证了APS算法对于提高词干提取准确率的有效性以及SAR算法对于控制查询延迟的真实性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-06-19 合作期刊: 《计算机应用研究》
摘要: 随着深度学习的发展,越来越多的深度学习模型被运用到了关系提取的任务中,但是传统的深度学习模型无法解决长距离依赖问题;同时,远程监督将会不可避免地产生错误标签,针对这两个问题,提出一种基于GRU(gated recurrent unit)和注意力机制的远程监督关系抽取方法,首先通过使用GRU神经网络来提取文本特征,解决长距离依赖问题;接着在实体对上构建句子级的注意力机制,减小噪音句子的权重;最后在真实的数据集上,通过计算准确率、召回率,绘出PR曲线证明该方法与现有的一些方法相比,取得了比较显著的进步。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 针对高速网络环境下分布式入侵检测中海量数据并行检测处理的效率和检测率问题,提出一种基于能力与负载的数据分割算法。该算法依据采集到的集群内各数据分析节点的系统性能指标及运行状态,评估节点的数据处理能力与负载程度。基于节点的能力与负载适应因子,权衡节点在集群中检测和分析数据能力的权重,实现海量数据在集群内各数据分析节点间的动态数据分割,为节点分配适应其能力与实时负载的数据粒度。仿真测试结果表明,该算法具有较好的负载均衡性,降低了系统的检测时间,提高了数据并行处理的效率和检测率。