分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-24 合作期刊: 《计算机应用研究》
摘要: 目前自然语言文本相似度估计大多是针对英语等一些大类语言,为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。首先,根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,作为文本模型。然后,采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。