利用N-gram和语义分析的维吾尔语文本相似性检测方法

作者： 张莹 ¹ 亚森·艾则孜 ¹ 吴顺祥 ²
作者单位：

1. 新疆警察学院信息安全工程系

2. 厦门大学自动化系
提交时间：2018-05-24 21:08:13

摘要: 目前自然语言文本相似度估计大多是针对英语等一些大类语言，为了实现维吾尔语文本的相似性检测，提出一种基于N-gram和语义分析的相似性检测方法。首先，根据维吾尔语单词特征，采用了N-gram统计模型来获得词语，并根据词语在文本中的出现频率来构建词语-文本关系矩阵，作为文本模型。然后，采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联，以此解决维吾尔语词义模糊的问题，并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验，结果表明该方法能够准确有效地检测出相似性。

维吾尔语文本相似性检测 N-gram统计模型潜在语义分析

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201805.00467 (或此版本 ChinaXiv:201805.00467V1)
DOI:10.12074/201805.00467V1
CSTR:32003.36.ChinaXiv.201805.00467.V1
推荐引用方式： 张莹,亚森·艾则孜,吴顺祥.(2018).利用N-gram和语义分析的维吾尔语文本相似性检测方法.计算机应用研究.[ChinaXiv:201805.00467] (点此复制)

版本历史

[V1]

2018-05-24 21:08:13

ChinaXiv:201805.00467V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
4. 引导大语言模型生成计算机可解析内容	2024-04-21
5. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
6. 大模型与标准文献知识库的融合应用探索	2024-04-10
7. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
8. 引导大语言模型生成计算机可解析内容	2024-04-07
9. 基于 Python 中 MeCab 库对日语文章进行文本分析处理实现	2024-04-04
10. 一种基于能量-信息转换的智能测度	2024-03-30


公开评论匿名评论仅发给作者