分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI 和IG 预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN 分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI 和IG 预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN 分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。