• 基于日志挖掘的学术搜索困难度量方法研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 用户检索中经常面临不同程度的信息搜寻困难,为更好地理解用户需求、改进检索系统,需要一种简洁有效的方法度量信息搜寻的困难程度。[方法/过程] 将用户为查询而付出的行为及时间代价作为其信息搜寻困难的体现。按照用户在会话中的行为模式划分会话类型,将查询需求被满足且代价最小的会话类型作为比较基准,用基准会话的代价衡量其他会话类型的困难程度。为优化代价的表达模型,对搜寻代价的行为指标进行相关性检验,用因子分析选择独立性、区分度好的行为特征进行建模。以国家科技图书文献中心(NSTL)日志和搜狗日志为数据集比较学术搜索与通用搜索环境,以及不同会话类型所代表的探索过程中,用户的信息搜寻困难度。[结果/结论] 在本文所度量的两种搜索系统中,用户面临的信息搜寻困难度分别为2.30和1.57,学术搜索中的困难高于通用搜索。在两种体现学术探索过程的会话中,困难度分别为2.35和4.13。本文提出的方法可以用简单的数值来概括具有多种影响因素的搜索困难,并能用于不同类型会话和搜索环境,丰富了检索系统的评估手段。

  • 基于Word2Vec及大众健康信息源的疾病关联探测

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】利用Word2Vec 深度学习技术从面向大众的健康信息中寻找疾病关联, 解决非医学人士通常不了 解多种疾病之间存在的关联, 从而影响到健康信息搜寻中的全面性和有效性的问题。【方法】由专家选取30个常见疾病主题,从高质量医学新闻网站上采集对应疾病的文档, 运用Word2Vec技术对各疾病的相关文档构造词 向量,计算向量距离判断疾病关联。通过与专家评分的相关分析衡量判断结果的准确性。【结果】优情况下,Word2Vec 得到的结果与专家评分相关系数达到0.635。通过对比不同的算法模型、优化方法、数据规模及重要 参数对结果的影响,发现Skip-Gram模型结合负样本数为20的Negative Sampling优化方法在大规模数据集上的 实验结果优。【局限】疾病主题选取宽泛时, 影响Word2Vec 判断准确性, 本文的疾病主题选取粒度有待改善。【结论】利用 Word2Vec 技术在面向大众的健康信息源中也可以探测疾病关联, 其有效性表明该技术可用于改善 大众的健康信息搜寻的个性化服务。

  • 基于成果特征的学者学术专长识别方法

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]基于成果特征标识学者的学术专长是学者画像的重要任务,对学者分类、评审专家遴选、发现小同行等应用具有重要价值。[方法/过程]首先分析揭示学术专长的因素,用层次分析法构造专长标签权重分配模型;采用TextRank和概念链接技术从中英文成果内容中识别主题术语,结合权重筛选出具有领域共识和专长概括性的词汇作为专长标签。选取获得人才称号的多个领域科研人员,从中文或英文代表成果中提取专长标签,以人才公示中的专长领域作为对照基准,通过人工打分和语义计算评测识别效果。[结果/结论]在被贴中文专长标签的学者中,71.9%的个体的专长描述被认为满意。在被贴英文专长标签的学者中,77.2%的个体的专长描述被认为满意。实验表明提出的学者学术专长识别方法具有合理性。主要创新在于:在中英文不同语种以及是否存在外部知识库的条件下,提出从文献内容中挖掘候选标签词的解决方案;结合计量因素,用多种成果特征筛选专长标签,并提出权重分配的方案;针对评价基准欠缺的问题,提出基于语义计算的方式补充答案,从而扩充评价手段。