您当前的位置: > 详细浏览

结合改进的CHI统计方法的TF-IDF算法优化

请选择邀稿期刊:
摘要: 特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节,对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。

版本历史

[V1] 2018-05-24 21:08:12 ChinaXiv:201805.00488V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量2050
  •  下载量1218
评论
分享