您当前的位置: > 详细浏览

基于语义相似度的文本聚类研究

请选择邀稿期刊:
摘要: 【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量, 提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵, 根据文本语义相似度矩阵进行谱聚类, 将文本聚集为文本簇。【结果】利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验, 结果表明, 当聚类个数为10 时, 本文算法的准确率最高, 并且Purity 值高于传统聚类算法的Purity 值。【局限】《同义词词林扩展版》中包含的领域术语不完整, 部分相似度计算结果需要手工进行调整。【结论】该方法考虑了词语间语义关系, 充分挖掘文本主体潜在信息, 并且改善了聚类质量, 为文本聚类和推荐提供了一条新途径。

版本历史

[V1] 2017-11-08 15:04:11 ChinaXiv:201711.02009V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量3375
  •  下载量2522
评论
分享