基于代价敏感集成极限学习机的文本分类方法

作者： 李明 ^1,2 肖培伦 ^2,3 张矩 ¹ 顾心盟 ⁴
作者单位：

1. 中国科学院重庆绿色智能技术研究院高性能计算应用研究中心重庆 400714

2. 清华大学信息技术研究院语音与语言研究中心北京 100084

3. 爱丁堡大学科学与工程科学学院英国 EH1

4. 北京邮电大学北京100876
提交时间：2018-09-27 17:51:28

摘要: 加权极限学习机对不同类别的样本赋予不同的权值，在一定程度上提高了分类准确率,但加权极限学习机只考虑了不同类别样本之间差异，忽视了样本噪声和同类样本之间的差异。本文提出了一种基于文本类别信息熵的极限学习机集成方法，该方法以Adaboost.M1 为算法框架，通过文本的类内分布熵和类间分布熵生成文本类别信息熵，由文本类别信息熵构造代价敏感矩阵，把代价敏感极限学习机集成到Adaboost.M1 框架中。实验结果表明，该方法与其他类型的极限学习机相比较有更好的准确性和泛化性。

极限学习机集成学习 Adaboost.M1 文本分类代价敏感

分类： 计算机科学 >> 自然语言理解与机器翻译
引用： ChinaXiv:201809.00191 (或此版本 ChinaXiv:201809.00191V1)
DOI:10.12074/201809.00191V1
CSTR:32003.36.ChinaXiv.201809.00191.V1
推荐引用方式： 李明,肖培伦,张矩,顾心盟.(2018).基于代价敏感集成极限学习机的文本分类方法.中国科学院科技论文预发布平台.[ChinaXiv:201809.00191] (点此复制)

版本历史

[V1]

2018-09-27 17:51:28

ChinaXiv:201809.00191V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. Brief Discussion on Scenes and Strategies in Capital Markets Manipulation Detection: From Influence Diffusion Perspectives	2024-04-24
4. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
5. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
6. 引导大语言模型生成计算机可解析内容	2024-04-21
7. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
8. 大模型与标准文献知识库的融合应用探索	2024-04-10
9. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
10. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07


公开评论匿名评论仅发给作者