分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 为识别出不同社交网络平台中属于同一自然人的账号,提出了一种基于用户关系的跨社交网络用户身份关联方法。首先,设计了基于网络表示学习的用户关系提取模块,将大规模用户关系转换至低维向量空间进行表示;然后,针对异构信息网络改进了传统网络表示学习算法,提出了CSN_LINE算法,实现融合跨社交网络先验关联关系的网络表示;最后,构建了基于多层感知机的用户身份关联模型。实验结果表示,提出的方法与目前先进的方法相比,综合指标F1值和正确率的提高均超过12%,证明了该方法的合理性和有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-06-19 合作期刊: 《计算机应用研究》
摘要: 文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,本文提出的方法在准确度上也有一定程度的提升。