基于语义相似度的文本聚类研究

作者： 毕强 ¹ 刘健 ¹ 鲍玉来 ^1,2
作者单位：

1. 吉林大学管理学院长春 130022

2. 内蒙古大学图书馆呼和浩特 010021
提交时间：2017-11-08 15:04:11

摘要: 【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量, 提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵, 根据文本语义相似度矩阵进行谱聚类, 将文本聚集为文本簇。【结果】利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验, 结果表明, 当聚类个数为10 时, 本文算法的准确率最高, 并且Purity 值高于传统聚类算法的Purity 值。【局限】《同义词词林扩展版》中包含的领域术语不完整, 部分相似度计算结果需要手工进行调整。【结论】该方法考虑了词语间语义关系, 充分挖掘文本主体潜在信息, 并且改善了聚类质量, 为文本聚类和推荐提供了一条新途径。

同义词词林扩展版语义相似度谱聚类文本挖掘

分类： 图书馆学、情报学 >> 情报学
引用： ChinaXiv:201711.02009 (或此版本 ChinaXiv:201711.02009V1)
DOI:10.12074/201711.02009V1
CSTR:32003.36.ChinaXiv.201711.02009.V1
推荐引用方式： 毕强,刘健,鲍玉来.(2017).基于语义相似度的文本聚类研究.数据分析与知识发现.[ChinaXiv:201711.02009] (点此复制)

版本历史

[V1]

2017-11-08 15:04:11

ChinaXiv:201711.02009V1

下载全文

相关论文推荐

1. 强化故事力打造优质短视频显著提升阅读推广效果	2024-05-22
2. 英国大型阅读推广项目多元协作模式解析	2024-05-20
3. 多元协同视角下高校图书馆融合发展模式及思路	2024-05-15
4. 考虑节点间强弱关系的突发事件信息传播网络分析	2024-05-15
5. 高校图书馆服务乡村振兴的知识信息转移模型探讨	2024-05-15
6. 科技赋能非遗转化与发展路径研究	2024-05-15
7. 情绪因素影响下突发公共事件网络舆情演化及政府应对研究——基于三方演化博弈视角	2024-05-15
8. 面向数字包容的农民信息获取行为分析：群体聚焦与现实关切	2024-05-15
9. 发展新质生产力的信息资源管理学科回应与思考	2024-05-15
10. 关于一个合理的公共产品决定只能来自于一个可以胜任的公共权力机关的论断是否是阿罗不可能定理的推论的文献考证	2024-05-12


公开评论匿名评论仅发给作者