ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 殷晓雨

1. ChinaXiv:201808.00093
下载全文

基于类别信息和特征熵的文本特征权重计算

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-08-13 合作期刊: 《计算机应用研究》

阿力木江·艾沙殷晓雨库尔班·吾布力李喆

摘要：文本向量化是文本分类的基础，特征权重是直接影响文本向量表示质量的重要因素之一。基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确，即对于类别频率相同的特征无法比较其对类别的区分能力，因此要考虑特征在类内的分布情况。将特征的反类别频率（inverse category frequency，ICF）和类内熵（entropy）相结合引入到特征权重计算方案中，构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明，该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。

点击量 7824 下载量 970 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心