您当前的位置: > 详细浏览

利用N-gram和语义分析的维吾尔语文本相似性检测方法

请选择邀稿期刊:
摘要: 目前自然语言文本相似度估计大多是针对英语等一些大类语言,为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。首先,根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,作为文本模型。然后,采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。

版本历史

[V1] 2018-05-24 21:08:13 ChinaXiv:201805.00467V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量2172
  •  下载量1325
评论
分享