Current Location:home > Detailed Browse

Article Detail

基于WMF_LDA主题模型的文本相似度计算

Abstracts

文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,本文提出的方法在准确度上也有一定程度的提升。
Download Comment From cooperative journals:《计算机应用研究》 Hits:1407 Downloads:865
Journal:计算机应用研究
Recommended references: 张璐,芦天亮,杜彦辉.(2018).基于WMF_LDA主题模型的文本相似度计算.计算机应用研究.[ChinaXiv:201806.00106] (Click&Copy)
Version History
[V1] 2018-06-19 17:07:44 chinaXiv:201806.00106V1 Download
Related Paper

Download

Current Browse

Cross Subject Browse

  • - NO