分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】自动抽取微博话题信息, 从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题 模型应用于微博话题中, 结合改进的 TF-IDF 算法, 构建主题特征词向量; 基于特征词向量中特征词之间的相关度, 自动抽取主题词汇链; 引入情感词典, 抽取主题观点, 无监督构建“主题+观点”词条。【结果】使用爬虫工具 抽取2014年6月–2015年6月期间4个特定热门微博话题事件的微博共24 598条, 抽取“主题+观点”词条, 平均 准确率达到 80.3%, 召回率为 76.7%。【局限】数据量依旧较小, 主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。