• 面向在线社交网络用户生成内容的饮食话题发现研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过大规模文本聚类技术进行话题检测, 并自动拣选优质话题。【方法】以新浪微博上与饮食相关的微博内容为数据源, 结合文本聚类与深度学习知识进行话题检测。通过匹配微博发布的月份, 将微博划分为四季微博; 使用向量空间模型和文本聚类方法, 对不同季节的微博进行话题检测, 获得候选话题; 结合深度学习知识, 提出主题覆盖率概念, 用以自动评价话题质量, 去除低质量话题。【结果】基于主题覆盖率的话题筛选结果符合人工拣选预期, 抽取获得主题覆盖率高于0.5 的优质话题。【局限】话题检测质量的评价主要以定性评价为主。【结论】通过计算主题覆盖率来自动选择优质话题, 该方法效率高, 通用性强, 获得的话题便于理解, 较好地揭示了四季中饮食微博的话题分布。

  • 基于菜谱与微博用户评论的饮食社区挖掘研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】以大规模真实社交网络数据作支撑研究饮食社区结构。【方法】使用“美食杰”网站的菜谱信息和新浪微博上与菜有关的微博数据, 完成用户与菜之间的“提及”关系构建后, 分别在省份地区维度和地区菜系维度进行映射, 并运用社区发现算法进行社区挖掘。【结果】在省份地区关系网和地区菜系关系网上存在明显的社区结构。【局限】实验过程中发达地区人数与边缘地区人数悬殊太大, 对本文所得结论有一定的影响。【结论】实证结果发现: 省份地区被划分成“其他口味”、“鲜咸味”、“香辣味”三个口味地区; “川菜”、“云贵菜”因辅料独特很少与其他菜系被一起点餐, “京菜”、“沪菜”、“鲁菜”、“东北菜”常被一起点餐, 除此之外, 地区菜系之间存在一定程度的地理位置近邻性。