• 融合词语义表示和新词发现的领域本体演化——以产品评论数据为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 针对传统本体演化中对新知识和新需求的捕捉存在不准确、低效率的问题,提出一种基于领域新词发现的本体演化方法,并以用户产品评论数据为例进行验证。[方法/过程] 首先采用自然语言处理算法对用户产品评论文本语料进行文本预处理,并利用Word2vec算法进行词向量嵌入;然后采用深度学习中Bi-LSTM-Attention-CRF算法实现候选领域新词的识别和抽取,并利用K-means算法进行聚类以得到最终领域新词;最后利用本体演化的六阶段演化流程,实现领域本体的演化工作。[结果/结论] 以智能手机领域产品评论为实验数据,验证了本研究采用领域新词发现模型具有更高的准确率和召回率,由此演化得到智能手机领域新版产品本体。领域新版产品本体既可以帮助产品设计者根据领域本体中新特征、新功能优化产品设计,也可以支持消费者利用产品评论进行购买决策。

  • 学术论文引用预测及影响因素分析

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》

    摘要: [目的/意义]在引文分析中,可通过论文的一些属性特征对其未来的被引情况进行预测,并通过预测结果对论文、论文作者、作者所属机构及出版物做出评价。[方法/过程] 从出版物、作者和论文三个方面对影响论文被引的多个因素展开研究,以图书馆学情报学领域被SCI索引的论文作为分析及验证数据,使用逻辑回归、GBDT、XGBoost、AdaBoost、随机森林等算法进行预测,使用多组评测指标对比不同预测方法的效果,并使用GBDT识别对论文被引影响较大的因素。[结果/结论]确定三个方面的影响因素对论文被引预测的影响程度,构建预测模型,并较好地预测论文在未来一段时间的被引情况。大量实验分析发现GBDT、XGBoost和随机森林的预测能力较强,且预测的时间段越长,效果也就相对越好。