您当前的位置: > 详细浏览

科技情报分析中LDA主题模型最优主题数确定方法研究

请选择邀稿期刊:
摘要: 【目的】有效确定科技情报分析中 LDA 主题模型的最优主题数目。【方法】利用主题相似度度量潜在主 题之间的差异, 同时结合困惑度提出一种确定 LDA 最优主题数目的方法, 该方法既考虑主题抽取效果同时也考 虑模型对新文档的泛化能力。 【结果】获取国内新能源领域的科技文献作为数据集, 实证结果表明本文提出的最 优 LDA 主题数确定方法与单纯使用困惑度相比, 具有更高的主题抽取查准率(91.67%)、 F 值(86.27%)及科技文献 推荐精度(71.25%)。 【局限】未针对其他类型的数据集进行新方法的验证, 如微博短文本、XML文档等。 【结论】 本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题, 并能够提高科技文献推荐效果。

版本历史

[V1] 2017-11-08 15:04:11 ChinaXiv:201711.02043V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量6628
  •  下载量4357
评论
分享