分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: D-S证据理论是一种有效处理不确定信息的方法,被广泛应用于各领域中,而D-S合成方法作用的对象是基本概率指派(basic probability assign,BPA),如何生成BPA仍是D-S理论应用中重要且有待解决的首要步骤。针对生成BPA提出一种基于核密度估计KDE(kernel density estimation)的BPA生成方法:训练数据用于构建基于最优化窗宽的核密度估计的数据属性模型;然后利用训练数据的核密度模型计算测试数据的密度—距离—分布值Tri-D(density-distance-distribution),通过嵌套式的方法分配Tri-D值获取测试数据对应的BPA;最后D-S合成BPA得到最终判断,通过分类准确率来判断BPA生成方法的有效性。实验通过在UCI数据集上的与其他方法的分类准确率对比验证了提出方法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 互联网广告效果评价是网络营销的核心问题,但是评价方法存在信息源单一、无差别假、全局假设等问题,对互联网广告效果评价提出了巨大挑战。寻找一种全新的衡量互联网广告效果的评价指标成为亟待解决的任务。首先,创新地提出印象空间概念,作为更有效的网页广告效果评价指标,以解决信息源单一问题;其次,分析用户类型、行为方式、行为过程等特征对互联网广告效果评价标准的影响,消除用户无差异假设所造成的评价偏差;再次,引入网页的局部性特征,分析页面布局、广告与页面内容相关性等因素对互联网广告效果的影响,以消除全局性假设;最后,构建基于多模态特征的印象空间模型来预测互联网广告效果。实验结果表明,提出的印象空间对互联网广告质量评价的准确率显著提升,达到92.4%。而且印象空间模型的预测结果不仅更加准确科学,而且具有明显的可解释性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 在推荐系统中,针对用户的冷启动问题,提出一种融合协同过滤的XGBoost推荐算法。根据基于用户相似度的协同过滤推荐算法进行粗粒度召回,得到部分用户的召回集,使用XGBoost算法对召回集中的项目进行预测。对于存在冷启动问题的用户,直接使用XGBoost算法对候选集中的项目进行预测。该算法采用CCIR2018个性化推荐评测的在线评测数据集,并将推荐结果投放到知乎提供的线上平台进行评测。评测结果表明,该算法可以地解决用户的冷启动问题,具有很高的执行效率,准确度高,在线上评测中取得显著的推荐效果,并获得三等奖。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-28 合作期刊: 《计算机应用研究》
摘要: 离群点检测旨在有效识别数据集中的异常数据,挖掘出数据集中有意义的潜在信息。现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF:首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 特定目标情感分析的目的是从不同目标词语的角度来预测文本的情感,关键是为给定的目标分配适当的情感词。当句子中出现多个情感词描述多个目标情感的情况时,可能会导致情感词和目标之间的不匹配。由此提出了一个CRT机制混合神经网络来用于特定目标情感分析,模型使用CNN层从经过BiLSTM变换后的单词表示中提取特征,通过CRT组件生成单词的特定目标表示并保存来自BiLSTM层的原始上下文信息。在三种公开数据集上进行了实验,实验结果表明,该模型在特定目标情感分析任务中较之前的情感分析模型在准确率和稳定性上有着明显的提升,证明CRT机制能很好地整合CNN和LSTM的优势,这对于特定目标情感分析任务具有重要的意义。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 传统句子分类模型存在特征提取过程复杂且分类准确率较低等不足,利用当下流行的基于深度学习模型的卷积神经网络在特征提取上的优势,结合传统句子分类方法提出一种基于卷积神经网络和贝叶斯分类器的句子分类模型。该模型首先利用卷积神经网络提取文本特征,其次利用主成分分析法对文本特征进行降维,最后利用贝叶斯分类器进行句子分类。实验结果表明在康奈尔大学公开的影评数据集和斯坦福大学情感分类数据集上,所提出的方法优于只使用深度学习的模型或传统句子分类模型。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-08-13 合作期刊: 《计算机应用研究》
摘要: 由于多模式数据的大量存在,跨模式检索近来备受关注,并且通常涉及两个基本问题:相关性度量和特征选择。目前的大多数方法都只关注解决第一个问题:将多模态数据投影到一个公共子空间中,测量不同数据模式之间的相似性然后进行检索。针对第二个问题,为了可以从特征空间中选择相关和判别特征,对投影矩阵施加21范数惩罚项。同时,采用谱回归方法学习所有模态数据共享的最优潜在空间正交约束。然后构建一个图模型将多模态数据投影到潜在空间中,保留了模态内的相似性关系。在两个数据集进行了广泛的实验,跨模态检索任务的实验结果表明显示了本文提出的方法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-06-19 合作期刊: 《计算机应用研究》
摘要: 慢性阻塞性肺疾病(COPD)是一种可导致患者呼吸功能逐渐下降的慢性肺部疾病,需要借助于大数据分析及算法帮助医生对疾病更加准确地进行诊断。目前对COPD的研究存在局限性,一方面,研究成果只利用数据分析单一特征对疾病的影响,另一方面研究成果仅通过简单算法模型对病例数据验证,因此提出了COPD多维特征提取与集成诊断方法。首先,提出最大依赖度MDF-RS算法,提取多维特征的最优组合;其次,提出DSA-SVM集成模型,构建分类器进行诊断及预测;最后,利用交叉验证方法验证准确率等各项性能指标。通过实验对比验证了该算法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 在研究跨媒体信息检索时,对于不同模态数据的异构性提出了挑战,针对如何更好的克服异构问题以提高多模态数据之间的检索精度,提出了一种基于字典学习的新跨媒体检索技术。首先,通过字典学习方法学习两个不同模态数据之间的稀疏系数,然后,通过特征映射方案由两个不同的投影矩阵分别把它们投入共同的特征子空间,最后,通过标签对齐同一类来增强不同模态之间的相关性。实验结果表明,与传统的同构子空间学习方法相比,基于字典的算法分类性能优越,该实验方法在两个数据集上优于几种最先进的方法。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 针对开放域对话系统中存在的话题转移问题以及对话内容中存在大量短文本的情况,传统的基于相似性的处理方法存在很大的局限性,创新地提出通过对话系统中前后句子的相关性判断分割点,实现话题分割,并比较了相关性与相似性在计算中对句子信息利用的不同之处。提出一种相关性计算方法,并将该方法用于话题分割,最终实现话题转移检测。通过与现有方法的对比实验,表明了提出的相关性计算方法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。首先,针对中文单文档,在现有研究的基础上,使用TextRank算法,一方面考虑句子间的相似性,另一方面,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子,来生成文本的摘要候选句群;然后对得到的摘要候选句群做冗余处理,以除去候选句群中相似度较高的句子,得到最终的文本摘要。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题,最后通过实验验证了该算法的有效性。