您选择的条件: 徐 健
  • 基于网络用户评论的评分预测模型研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评 分预测模型, 该模型包括 4 个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评 价模块。抓取 30 部不同类型的电影评论数据, 27 部用于构建模型, 3 部用于检验模型。【结果】使用逐步回归方 法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使 用 3 部电影验证, 预测评分与 IMDb 评分相差最大值为 0.0644, 最小值为 0.0227。【局限】在数据样本量、情感 特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。

  • 基于情感分析的网络谣言识别方法

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。

  • 基于网络用户评论的评分预测模型研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评 分预测模型, 该模型包括 4 个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评 价模块。抓取 30 部不同类型的电影评论数据, 27 部用于构建模型, 3 部用于检验模型。【结果】使用逐步回归方 法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使 用 3 部电影验证, 预测评分与 IMDb 评分相差最大值为 0.0644, 最小值为 0.0227。【局限】在数据样本量、情感 特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。

  • 基于情感分析的网络谣言识别方法

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。