• 基于论文摘要和引文文本语料的突破性研究特征词识别

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 基于作者对自身研究的描述性评价和后续研究者的评论性引用视角,利用摘要和引文语料提取突破性研究的特征词,从而了解突破性研究的摘要和引文语料特征以帮助对于突破性研究的识别。[方法/过程] 选取Science评选为Breakthrough of the Year 的关键文献和Nobel Prize获得者的 key publications作为突破性研究语料数据,整合论文的摘要和引文语料进行特征词提取。特征词提取中,首先利用Stanford CoreNlp工具对语料进行分词及词频统计,并结合专家意见提取特征词元。然后将特征词作为种子词,利用医学文本的语义关系对特征词进行语义拓展。最后通过查全率和查准率进一步对比摘要和引文的特征词拓展前后的检索识别效果。[结果/结论] 突破性研究语料中遴选出8个摘要语料的特征词元和8个引文语料的特征词元。特征词检索识别中,摘要和引文的拓展特征词的查全率最高,引文特征词的查准率最高,引文拓展特征词的查全率和查准率综合效果较好。