维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

作者： 如先姑力·阿布都热西提 ¹ 亚森·艾则孜 ¹ 郭文强 ²
作者单位：

1. 新疆警察学院信息安全工程系

2. 新疆财经大学计算机科学与工程学院
提交时间：2018-10-11 09:20:10

摘要: 随着新疆地区网络的建设发展，产生了大量维吾尔语网页。为了构建健康网络环境，提出了一种结合n-gram统计模型和类不平衡支持向量机（SVM）分类器的维语文本过滤方法。首先，将网页文本进行预处理操作，通过n-gram统计模型来初步提取词干；然后，对词干进行语义分析，将具有相似含义的词干聚合为一类，以此降低词干维度；最后，在传统SVM中引入一个控制超平面之间距离的参数，构建一种类不平衡SVM，使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明，该方法能够准确分类出不良文本，且具有较短的分类时间。

维吾尔语网页不良文本过滤 n-gram词干提取类不平衡SVM

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201810.00040 (或此版本 ChinaXiv:201810.00040V1)
DOI:10.12074/201810.00040V1
CSTR:32003.36.ChinaXiv.201810.00040.V1
推荐引用方式： 如先姑力·阿布都热西提,亚森·艾则孜,郭文强.(2018).维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法.计算机应用研究.[ChinaXiv:201810.00040] (点此复制)

版本历史

[V1]

2018-10-11 09:20:10

ChinaXiv:201810.00040V1

下载全文

相关论文推荐

1. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
2. 引导大语言模型生成计算机可解析内容	2024-04-21
3. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
4. 大模型与标准文献知识库的融合应用探索	2024-04-10
5. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
6. 引导大语言模型生成计算机可解析内容	2024-04-07
7. 基于 Python 中 MeCab 库对日语文章进行文本分析处理实现	2024-04-04
8. 一种基于能量-信息转换的智能测度	2024-03-30
9. 基于大语言模型的中庸思维对心理健康的影响机制研究——道德中心性的中介作用	2024-03-23
10. 收入分配不平等对心理健康的影响机制研究——道德中心性的中介作用	2024-03-23


公开评论匿名评论仅发给作者