Current Location:home > Detailed Browse

Article Detail

一种基于语义组块特征的改进 Cosine 文本 相似度计算方法*

Abstracts

【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。
Download Comment From cooperative journals:《数据分析与知识发现》 Hits:1238 Downloads:725
Recommended references: 白如江,冷伏海,廖君华.(2017).一种基于语义组块特征的改进 Cosine 文本 相似度计算方法*.数据分析与知识发现.[ChinaXiv:201712.01401] (Click&Copy)
Version History
[V1] 2017-12-05 13:51:26 chinaXiv:201712.01401V1 Download
Related Paper

Download

Current Browse

Change Subject Browse

Cross Subject Browse

  • - NO