结合改进的CHI统计方法的TF-IDF算法优化

作者： 马莹 ¹ 赵辉 ¹ 李万龙 ¹ 庞海龙 ¹ 崔岩 ¹
作者单位：

1. 长春工业大学计算机科学与工程学院
提交时间：2018-05-24 21:08:12

摘要: 特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节，对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题，针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进，并结合语义相似度的计算方法对TF-IDF算法进行了优化，在WEKA软件上采用了KNN（K-nearest neighbor）分类器和支持向量机（SVM）分类器分别对微博情感语料进行分类，该实验结果表明，新方法在文本分类的准确性上有明显的提高。

文本分类 CHI统计 TF-IDF算法特征选择

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201805.00488 (或此版本 ChinaXiv:201805.00488V1)
DOI:10.12074/201805.00488V1
CSTR:32003.36.ChinaXiv.201805.00488.V1
推荐引用方式： 马莹,赵辉,李万龙,庞海龙,崔岩.(2018).结合改进的CHI统计方法的TF-IDF算法优化.计算机应用研究.[ChinaXiv:201805.00488] (点此复制)

版本历史

[V1]

2018-05-24 21:08:12

ChinaXiv:201805.00488V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
4. 引导大语言模型生成计算机可解析内容	2024-04-21
5. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
6. 大模型与标准文献知识库的融合应用探索	2024-04-10
7. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
8. 引导大语言模型生成计算机可解析内容	2024-04-07
9. 基于 Python 中 MeCab 库对日语文章进行文本分析处理实现	2024-04-04
10. 一种基于能量-信息转换的智能测度	2024-03-30


公开评论匿名评论仅发给作者